日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

分布式網(wǎng)絡(luò)中的數(shù)據(jù)收集方法

文檔序號(hào):6456256閱讀:423來(lái)源:國(guó)知局
專利名稱:分布式網(wǎng)絡(luò)中的數(shù)據(jù)收集方法
技術(shù)領(lǐng)域
本發(fā)明大體上涉及分布式網(wǎng)絡(luò)中的數(shù)據(jù)收集。
相關(guān)技術(shù)的簡(jiǎn)要描述
在現(xiàn)有技術(shù)中,分布式計(jì)算機(jī)網(wǎng)絡(luò)是眾所周知的。 一種這樣的分布式 計(jì)算機(jī)系統(tǒng)是由服務(wù)提供商操作和管理的"內(nèi)容分發(fā)網(wǎng)絡(luò)(content delivery network)"或"CDN"。服務(wù)提供商通常為了第三方提供服務(wù)。這種類(lèi)型 的"分布式的系統(tǒng)"通常指的是由網(wǎng)絡(luò)或多個(gè)網(wǎng)絡(luò)鏈接的自治計(jì)算機(jī)的集 合,連同軟件、系統(tǒng)、協(xié)議和技術(shù),其設(shè)計(jì)成利于多種服務(wù),例如內(nèi)容分 發(fā)或夕卜包站點(diǎn)基礎(chǔ)i殳施(outsourced site infrastructure)的支持。通常,"內(nèi)容 分發(fā)"意味著內(nèi)容、流媒體以及為了內(nèi)容提供商的應(yīng)用的存儲(chǔ)、超高速緩 存或傳輸,包括其使用的輔助技術(shù),包括但不限于,DNS請(qǐng)求處理、配 置(provisioning)、數(shù)據(jù)監(jiān)控和報(bào)告、內(nèi)容目標(biāo)化、個(gè)性化和商業(yè)智能。詞 語(yǔ)"外包站點(diǎn)基礎(chǔ)設(shè)施"指的是分布式系統(tǒng)和相關(guān)技術(shù),其能夠使實(shí)體總 體地或部分地代表第三方操作和/或管理第三方的站點(diǎn)基礎(chǔ)設(shè)施。
網(wǎng)絡(luò)服務(wù)器根據(jù)已知為HTTP的協(xié)議將基于網(wǎng)絡(luò)的內(nèi)容傳送到網(wǎng)絡(luò) 瀏覽器。HTTP是無(wú)狀態(tài)協(xié)議,已知的HTTP協(xié)議擴(kuò)展使網(wǎng)絡(luò)服務(wù)器能夠 給請(qǐng)求終端用戶網(wǎng)絡(luò)瀏覽器提供狀態(tài)信息。具體地,網(wǎng)絡(luò)服務(wù)器可在其應(yīng) 答中包括頭部,指示客戶端記住一小條狀態(tài)信息("cookie")并將所述信
背景技術(shù)
息的副本包含在對(duì)服務(wù)器的未來(lái)的請(qǐng)求中。以這種方式,網(wǎng)絡(luò)服務(wù)器可追 蹤是否以前已見(jiàn)過(guò)客戶端瀏覽器,且此追蹤信息可用于構(gòu)建瀏覽器專用文 件,其可用于通知某個(gè)其它控制功能,例如在將^皮傳送到瀏覽器的網(wǎng)頁(yè)內(nèi) 提供哪種類(lèi)型的廣告。按照約定和習(xí)慣,網(wǎng)絡(luò)服務(wù)器只在其自己的域內(nèi)設(shè)
置cookie的值,這保證了 cookie僅被發(fā)送回其來(lái)自的相同網(wǎng)絡(luò)域。盡管 有此傳統(tǒng),但已有努力來(lái)在內(nèi)容域之間共享cookie,使得可以識(shí)別與使用 網(wǎng)絡(luò)瀏覽器的個(gè)人相關(guān)聯(lián)的內(nèi)容偏好和興趣。因此,例如,在美國(guó)專利第 6,073,241號(hào)中, 一組合作服務(wù)器通過(guò)共享的數(shù)據(jù)庫(kù)共享cookie信息。在 美國(guó)專利申請(qǐng)第20020007317號(hào)中,在虛擬購(gòu)物中心環(huán)境中,客戶狀態(tài)信 息置于一個(gè)或更多cookie中,該cookie隨后可在分立的域之間被共享。 服務(wù)器是非合作的,且中間應(yīng)用程序用于將狀態(tài)信息增加到客戶端請(qǐng)求和 響應(yīng)中。
還已知,廣告服務(wù)公司能夠并且進(jìn)行收集cookie數(shù)據(jù),并使其相關(guān) 聯(lián),cookie數(shù)據(jù)反映了給定網(wǎng)絡(luò)瀏覽器已經(jīng)訪問(wèn)了未有關(guān)聯(lián)的站點(diǎn),在這 些站點(diǎn)上,已經(jīng)對(duì)公司的廣告提供了服務(wù)。廣告服務(wù)公司可隨即使用此數(shù) 據(jù)來(lái)建立終端用戶概要文件(user profile )。

發(fā)明內(nèi)容
本發(fā)明描述了內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)服務(wù)提供商如何擴(kuò)展內(nèi)容分發(fā) 網(wǎng)絡(luò),以在可原子地(atomically)識(shí)別的網(wǎng)絡(luò)客戶端(稱為"用戶代理") 在由CDN服務(wù)提供商所管理的不同域上與CDN相互作用時(shí),收集有關(guān) 這種實(shí)體的特定信息。在一種實(shí)施方式中, 一組機(jī)器、進(jìn)程、程序和數(shù)據(jù) 構(gòu)成數(shù)據(jù)系統(tǒng)。雖然可使用一種或更多被動(dòng)技術(shù),但所述系統(tǒng)優(yōu)選地通過(guò) cookie追蹤用戶代理。在一種典型的實(shí)施方式中,用戶代理是具有cookie 存儲(chǔ)器的有cookie能力的i殳備。當(dāng)用戶代理在站點(diǎn)間瀏覽時(shí),生成了系 統(tǒng)用來(lái)關(guān)聯(lián)用戶代理的CDN專用的唯一標(biāo)識(shí)符(主ID )。優(yōu)選地,唯一 標(biāo)識(shí)符作為加密的cookie存儲(chǔ)。主ID總是代表一個(gè)用戶代理(并且,因 而代表有cookie能力設(shè)備的存儲(chǔ)器),但這不意味著它是一個(gè)"用戶", 并且不保證用戶代理與人類(lèi)用戶相關(guān)。系統(tǒng)在由CDN服務(wù)的客戶站點(diǎn)上
5并在這些站點(diǎn)之間追蹤用戶代理行為(behavior),并且這些行為被分類(lèi)為 可識(shí)別的"片段(segment)"。"行為"是(由其主ID標(biāo)識(shí)的)用戶代理在 站點(diǎn)上進(jìn)行的事件。通常,行為與用戶代理進(jìn)行的請(qǐng)求相關(guān)聯(lián)。"片段" 是對(duì)用戶代理行為的計(jì)算出的分類(lèi),通常由合并了一個(gè)或更多行為的算法 生成。片段是使用一種或更多方法的一個(gè)或更多行為的集合。"用戶概要 文件"是一個(gè)或更多片段的集合。
第一種使用情況是"發(fā)行者(publisher)"服務(wù)。在此實(shí)例中,(使用 CDN)操作一組域或所有物(property)的給定CDN客戶可使用本系統(tǒng)獲 得關(guān)于在所述一組域上操作的用戶代理的信息。然后,這樣的信息可由客 戶(或其他)用于其它目的(例如,廣告服務(wù)、動(dòng)態(tài)內(nèi)容生成、或等等)。
第二種使用情況是"機(jī)器人緩解(bot mitigation)"服務(wù)。在此實(shí)例 中,操作交易站點(diǎn)(例如,終端用戶購(gòu)買(mǎi)諸如比賽門(mén)票、旅店房間、飛機(jī) 座位等等有限商品條目所位于的網(wǎng)站)的給定CDN客戶可使用本系統(tǒng)來(lái) 獲得關(guān)于訪問(wèn)該站點(diǎn)的用戶代理的信息,特別是關(guān)于特定用戶是否很可能 是自動(dòng)化實(shí)體(例如,軟件機(jī)器人或"機(jī)器人(bot)")的信息。所述站 點(diǎn)可使用此信息來(lái)向很可能有效的那些用戶代理(即,人類(lèi))提供最佳水 平的服務(wù)。此操作便于緩解機(jī)器人欺詐和其它站點(diǎn)欺詐。
第三種使用情況是"合作者"服務(wù)。在此實(shí)例中,CDN服務(wù)提供商 使用數(shù)據(jù)系統(tǒng)以為了使用CDN的兩個(gè)或更多實(shí)體提供聯(lián)合服務(wù)。作為例 子,客戶A是產(chǎn)品制造者,客戶B是提供關(guān)于新的和已使用的產(chǎn)品的信 息服務(wù)的網(wǎng)站??蛻鬉和B具有(或可受益于)商業(yè)關(guān)系,在此關(guān)系下 它們共享關(guān)于訪問(wèn)其各自網(wǎng)站的終端用戶的信息。在此實(shí)例中,如果客戶 A和客戶B兩者都使用CDN來(lái)傳送他們的站點(diǎn), 一個(gè)客戶或兩個(gè)客戶都 可使用這里的數(shù)據(jù)系統(tǒng)以利于和擴(kuò)展這樣的數(shù)據(jù)共享,因?yàn)镃DN可使用 本數(shù)據(jù)系統(tǒng)來(lái)收集訪問(wèn)兩個(gè)站點(diǎn)的用戶代理的行為信息。
另一種使用情況是"目標(biāo)化"服務(wù)。在此實(shí)例中,例如通過(guò)產(chǎn)生用戶 代理的用戶概要文件并將所述概要文件提供給廣告服務(wù)引擎,CDN服務(wù) 提供商使用本數(shù)據(jù)系統(tǒng)以利于廣告的目標(biāo)化。
以上所述已經(jīng)概括了本發(fā)明的更多有關(guān)特征中的一些特征。這些特征應(yīng)僅僅被解釋為說(shuō)明性的。通過(guò)以不同方式應(yīng)用所公開(kāi)的發(fā)明,或通過(guò)修 改本發(fā)明,可獲得許多其它有益的結(jié)果,正如將要描述的。


為了更全面的理解本發(fā)明及其優(yōu)點(diǎn),現(xiàn)結(jié)合附圖,參考如下描述,其

圖l是代表性的內(nèi)容分發(fā)網(wǎng)絡(luò),其中可實(shí)現(xiàn)這里的主題;
圖2是圖1的內(nèi)容分發(fā)網(wǎng)絡(luò)的代表性邊緣服務(wù)器(edge server);
圖3表示用于內(nèi)容分發(fā)網(wǎng)絡(luò)的在線行為數(shù)據(jù)收集體系結(jié)構(gòu)的高級(jí)示
圖4是在線行為數(shù)據(jù)收集系統(tǒng)的實(shí)施方式的更詳細(xì)的方框圖; 圖5示出了與在邊緣服務(wù)器發(fā)起的身份(identity)操作有關(guān)的流程; 圖6示出了與片段操作有關(guān)的流程; 圖7示出了包括一組片段的代表性的用戶概要文件。
示例性實(shí)施方式的詳細(xì)描述
這里描述的主題可在內(nèi)容分發(fā)網(wǎng)絡(luò)中實(shí)現(xiàn),例如在圖1和圖2中示出 的。不過(guò),在CDN中使用不是限制,因?yàn)樗鲋黝}可在任何環(huán)境中實(shí)現(xiàn), 在所述環(huán)境中, 一個(gè)實(shí)體操作分布式網(wǎng)絡(luò),從所述分布式網(wǎng)絡(luò)分配第三方 內(nèi)容。
在代表性的實(shí)施方式中,分布式計(jì)算機(jī)系統(tǒng)100配置為CDN并假定 具有一組機(jī)器102a-n,分布在互聯(lián)網(wǎng)各處。通常,大部分機(jī)器是位于靠 近互聯(lián)網(wǎng)邊緣的服務(wù)器,即位于或靠近終端用戶接入網(wǎng)絡(luò)的服務(wù)器。網(wǎng)絡(luò) 操作命令中心(NOCC) 104可用于管理和控制系統(tǒng)中各種各樣機(jī)器的操 作。第三方站點(diǎn),例如網(wǎng)站106,將內(nèi)容(例如HTML、嵌入式頁(yè)面對(duì)象、 流々某體、軟件下載等等)的分發(fā)分流(offload)到分布式計(jì)算機(jī)系統(tǒng)100, 特別是分流到"邊緣"服務(wù)器。通常,內(nèi)容提供商通過(guò)將給定的內(nèi)容提供商域或子域起別名,并將其別名解析(例如通過(guò)DNS CNAME)至(alias) 由服務(wù)提供商的授權(quán)域名服務(wù)管理的域來(lái)對(duì)其內(nèi)容分發(fā)進(jìn)行分流。期望這 樣的內(nèi)容的終端用戶可以被定向到分布式計(jì)算機(jī)系統(tǒng),以更可靠和有效地 獲得所述內(nèi)容。雖然未詳細(xì)顯示,分布式計(jì)算機(jī)系統(tǒng)還可包括其它結(jié)構(gòu), 例如分布式數(shù)據(jù)收集系統(tǒng)108,其從邊緣服務(wù)器收集使用數(shù)據(jù)和其它數(shù) 據(jù),對(duì)在一區(qū)域或區(qū)域集上的所述數(shù)據(jù)進(jìn)行整合,并將所述數(shù)據(jù)傳遞到其 它后端(back-end)系統(tǒng)110、 112、 114和116,以利于監(jiān)控、日志記錄、告 警、計(jì)費(fèi)、管理以及其它操作和管理功能。分布式網(wǎng)絡(luò)代理118監(jiān)控網(wǎng)絡(luò) 和服務(wù)器負(fù)載,并提供網(wǎng)絡(luò)、通信量和負(fù)載數(shù)據(jù)給DNS查詢處理機(jī)構(gòu)115, 其授權(quán)用于由CDN管理的內(nèi)容域。分布式數(shù)據(jù)傳輸機(jī)構(gòu)120可用于將控 制信息(例如,管理內(nèi)容、利于負(fù)載平衡等的元數(shù)據(jù))分發(fā)給邊緣服務(wù)器。 正如在圖2中所示,給定的機(jī)器200包含商用硬件(例如Intel Pentium處 理器)202,其運(yùn)行支持一個(gè)或更多應(yīng)用程序206a-n的操作系統(tǒng)核(例如 Linux或諸如此類(lèi)的)204。為了利于內(nèi)容分發(fā)服務(wù),例如,給定的機(jī)器 通常運(yùn)行一組應(yīng)用程序,例如HTTP網(wǎng)絡(luò)代理服務(wù)器207、名稱服務(wù)器208、 本地監(jiān)控進(jìn)程210、分布式數(shù)據(jù)收集進(jìn)程212等等。網(wǎng)絡(luò)代理服務(wù)器207 通常包括或具有與之相關(guān)的邊緣服務(wù)器管理進(jìn)程,以利于與內(nèi)容分發(fā)網(wǎng)絡(luò) 相關(guān)的一個(gè)或更多功能。
優(yōu)選地基于特定域、特定客戶,優(yōu)選地使用利用配置系統(tǒng)分發(fā)給邊緣 服務(wù)器的配置文件,諸如圖2所示的CDN邊緣服務(wù)器配置成提供一個(gè)或 更多擴(kuò)展的內(nèi)容分發(fā)特征。給定的配置文件優(yōu)選地基于XML,并包括一 組內(nèi)容處理規(guī)則和指令,所述規(guī)則和指令利于一個(gè)或更多高級(jí)內(nèi)容處理特 征。配置文件可以通過(guò)分布式數(shù)據(jù)傳輸機(jī)構(gòu)傳送到CDN邊緣服務(wù)器。美 國(guó)專利第7,111,057號(hào)說(shuō)明了一種有用的結(jié)構(gòu),用于傳送和管理邊緣服務(wù) 器內(nèi)容控制信息,且這個(gè)和其它邊緣服務(wù)器控制信息可由CDN服務(wù)提供 商自身來(lái)提供,或者(通過(guò)外聯(lián)網(wǎng)或類(lèi)似物)由操作源服務(wù)器(origin server) 的內(nèi)容提供商客戶來(lái)配置。隨即,當(dāng)邊緣服務(wù)器管理者進(jìn)程(g-host)接收 到對(duì)內(nèi)容的請(qǐng)求時(shí),它搜索索引文件,以尋找與請(qǐng)求相關(guān)的客戶主機(jī)名的 匹配。如果不存在匹配,邊緣服務(wù)器進(jìn)程拒絕請(qǐng)求。如果存在匹配,邊緣 服務(wù)器進(jìn)程從所述配置文件加載元數(shù)據(jù),以確定它將如何處理請(qǐng)求。處理進(jìn)程在美國(guó)專利第7,240,100號(hào)中描述。
例如通常在圖3中所示的,使用在線行為數(shù)據(jù)收集系統(tǒng),如上所描述 的CDN可以根據(jù)這里描述的主題擴(kuò)展。在此實(shí)例中假定給定的邊緣服 務(wù)器機(jī)器(例如圖2中所示)已經(jīng)擴(kuò)展成包括給定的數(shù)據(jù)收集例行程序 302,且CDN包括集群(cluster)(如下所述),所述集群接收、處理、管理 和存儲(chǔ)從邊緣服務(wù)器接收的客戶機(jī)用戶代理行為數(shù)據(jù)。代表性實(shí)施方式在 內(nèi)容分發(fā)網(wǎng)絡(luò)中實(shí)現(xiàn),或結(jié)合內(nèi)容分發(fā)網(wǎng)絡(luò)實(shí)現(xiàn),盡管這不是限制。所述 集群包括下列抽象功能用戶相關(guān)模塊(user correlation module ) 304 、數(shù) 據(jù)移除模塊306、和數(shù)據(jù)分析模塊308。得到的數(shù)據(jù)存儲(chǔ)在庫(kù)(repository)310 中。
在下面解釋了上述模塊。
術(shù)語(yǔ)
在這里描述的主題的上下文中使用了如下術(shù)語(yǔ). 內(nèi)容域一內(nèi)容提供商的域。
內(nèi)容提供商(CP) —網(wǎng)站提供商,假定是CDN客戶。
《爭(zhēng)域服務(wù)——項(xiàng)例如通過(guò)在不同的網(wǎng)站中嵌入對(duì)象來(lái)在特定域上設(shè) 置各用戶cookie的服務(wù)。例如,廣告客戶,其脫離某個(gè)域但在多個(gè)不同 內(nèi)容提供商的網(wǎng)頁(yè)內(nèi)提供圖像。由這些對(duì)象設(shè)置的cookie通常指"第三 方cookie"。為了本文檔,跨域服務(wù)也假定為CDN客戶,而不管CDN服 務(wù)提供商與內(nèi)容提供商所具有的關(guān)系(如果存在)如何,所述內(nèi)容提供商 的站點(diǎn)內(nèi)嵌入了跨域服務(wù)的對(duì)象。
*內(nèi)容提供商cookie—在特定域內(nèi)由內(nèi)容提供商設(shè)置的追蹤用戶代理 的cookie 。
內(nèi)容提供商ID—由內(nèi)容提供商分配給用戶的唯一 ID或CPID。
主ID—在整個(gè)系統(tǒng)上分配給用戶的唯一 ID。
主域一如下所述,用于以主動(dòng)方式使用戶的不同域的ID相關(guān)聯(lián)的域。 域ID cookie —包括主ID的、由內(nèi)容域的名字空間中的CDN服務(wù) 提供商設(shè)置的cookie。 主ID cookie—包括主ID的、設(shè)置在主域中的cookie。.用戶代理一原子地可識(shí)別的網(wǎng)絡(luò)客戶端。在大部分情況下,這相應(yīng) 于特定機(jī)器的瀏覽器。通常,當(dāng)在客戶機(jī)上打開(kāi)網(wǎng)絡(luò)瀏覽器時(shí),用戶代理 被實(shí)例化。如果在相同的機(jī)器上打開(kāi)不同類(lèi)型的瀏覽器(例如, 一個(gè)IE 瀏覽器, 一個(gè)FireFox瀏覽器),則有兩個(gè)用戶代理。盡管不意味著是限 制,但用戶代理通常與具有cookie能力的數(shù)據(jù)存儲(chǔ)器(即,其中可保持 cookie的數(shù)據(jù)存儲(chǔ)器)相關(guān)聯(lián)。正如在這里所使用的,"用戶代理"無(wú)需 限制為瀏覽器或?yàn)g覽器插件程序;用戶代理可以是瀏覽器外的應(yīng)用程序、 進(jìn)程、線程(thread)或任何其它程序。正如在下文中將看到的,系統(tǒng)能 夠?qū)⒔o定用戶代理特征化為在一方面與人類(lèi)用戶(或者,更通常地,"可 接受的用戶,,)相關(guān),或在另一方面與自動(dòng)化的代理(例如,機(jī)器人,或 更通常地,"不可接受的用戶")相關(guān)。因此,自動(dòng)化的代理可被認(rèn)為是非 人類(lèi)活動(dòng)的任何活動(dòng)。將用戶代理特征化為與人類(lèi)相關(guān),或相對(duì)地,與自 動(dòng)化的代理相關(guān)的能力提供了顯著的優(yōu)點(diǎn),因?yàn)樗笴DN服務(wù)提供商能 夠提供給客戶關(guān)于用戶代理的性質(zhì)的預(yù)測(cè),用戶代理隨即對(duì)客戶站點(diǎn)的某 個(gè)服務(wù)進(jìn)行請(qǐng)求。正如將要描述的,通常,此預(yù)測(cè)是用戶代理在其它CDN 域(可能包括與其它CDN客戶相關(guān)的域)上的活動(dòng)的函數(shù)。預(yù)測(cè)可以是 有效用戶記分(VUS )的形式,表示置信值(confidence value )。 VUS可 表示為數(shù)字、百分比、代碼,或以任何其它方便的符號(hào)、字符或表現(xiàn)形式。 在通常的使用情況下,用戶代理對(duì)客戶站點(diǎn)進(jìn)行請(qǐng)求;系統(tǒng)給內(nèi)容提供商 提供了 VUS,其指示了用戶代理與人類(lèi)用戶或自動(dòng)化的代理相關(guān)的服務(wù) 提供商的置信;隨即,響應(yīng)于預(yù)測(cè),客戶采取行動(dòng)。VUS可表示多于僅 兩種類(lèi)型(即,人類(lèi)或機(jī)器人);可選擇地,可有兩種或更多的與VUS(或 其等同物)相關(guān)的"存儲(chǔ)桶(bucket)",以便可以提供關(guān)于客戶機(jī)用戶代理 的更精細(xì)的預(yù)測(cè)。用戶相關(guān)模塊優(yōu)選地,本發(fā)明使用主動(dòng)方法或被動(dòng)方法兩種方法中的一種,在站點(diǎn)(或CDN域)內(nèi)或之間追蹤用戶代理。用戶相關(guān)模塊304用于此目的。
主動(dòng)方法可3p下工4乍1. 當(dāng)請(qǐng)求內(nèi)容域中的對(duì)象時(shí),檢查用戶是否呈現(xiàn)域IDcookie。如果 是,則此用戶已經(jīng)被識(shí)別,因此不采取進(jìn)一步的行動(dòng)。如果不是,將用戶 重定向到主域以獲取主ID。2. 如果用戶未呈現(xiàn)主ID cookie,則生成新的唯一 ID并將主ID cookie i殳置在主域中。如果用戶呈現(xiàn)了主ID cookie,則將ID解密,確i人其有效, 且如果其有效,重新對(duì)其加密成在內(nèi)容域中設(shè)置為域ID cookie。3. 以特定URL將用戶重定向回內(nèi)容域,以便主ID現(xiàn)在可被設(shè)置為 該域的名字空間內(nèi)的域ID cookie。例如1. 假定,用戶從未使用該服務(wù)訪問(wèn)過(guò)任何站點(diǎn)。用戶打開(kāi)他或她的 網(wǎng)纟各瀏覽器到www.xyz.com。 當(dāng)i青求http:〃www.xvz.com/foo.gif時(shí),瀏覽 器未呈現(xiàn)在www.xvz.com名字空間中的域ID cookie ,因而瀏覽器被重定 向到例^口 www.abmr.net/setlD www.xyz.com/foo.gif。2. 用戶未呈現(xiàn)主ID cookie。主cookie(例如26 )凈皮i殳置為www.abmr.net 名字空間中的cookie 。3. 瀏賢,器隨即被定向回www.xvz.com/foo.gif Master ID=26,這提供 了 foo.gif, 并在www.xvz.com名字空間中設(shè)置了域ID cookie。為了追蹤和計(jì)費(fèi)的目的,優(yōu)選地用由邊緣服務(wù)器所寫(xiě)的每個(gè)日志行 (log line), CDN將域ID cookie和/或主ID cookie記入日志。邊緣服務(wù)器 日志接著被用戶相關(guān)模塊處理,正如下面所描述的。 凈皮動(dòng)方法:^下工作1. 如果各域用戶ID cookie ( Per-Domain User ID Cookies )是以對(duì)象提供的,則使邊緣服務(wù)器進(jìn)行記錄(在日志行中)。2. 如果跨域用戶cookie是以對(duì)象提供的,則使邊緣服務(wù)器進(jìn)行記錄 (在日志行中)。注意,從其它c(diǎn)ookie分離用戶cookie可要求一些離線處理,以理解 什么名字/值對(duì)(name/valuepair)相應(yīng)于特定域的"用戶名字4D"。 CDN 服務(wù)提供商可實(shí)時(shí)地分離出用戶cookie,或它可選擇將所有cookie記錄 在日志中,然后在某個(gè)離線處理中分離出這些cookie。而且,如果使用模 式表明跨域用戶cookie被作為各域用戶ID cookie提供給相同的用戶,則 CDN服務(wù)提供商可在相應(yīng)于各域用戶ID cookie的日志行中記錄跨域用戶 cookie,反之亦然。在這一點(diǎn),對(duì)于每個(gè)各域用戶ID cookie ,存在(a) —組記錄的行動(dòng) 和(b)當(dāng)服務(wù)于特定域中的對(duì)象時(shí)所看到的一組相關(guān)聯(lián)的跨域用戶ID cookie 。為了對(duì)用戶在整個(gè)CDN上的行動(dòng)產(chǎn)生一個(gè)完整圖景,服務(wù)提供商可 接著進(jìn)行下列操作i. 產(chǎn) 生 兩 組 列 表 Domain_Cookies(DC) 和 Cross—Domain—Cookies(CDC)。最初,利用所見(jiàn)的任意各域用戶ID cookie 產(chǎn)生(seed)DC列表。ii. 對(duì)于DC列表中的所有cookie,將所有相關(guān)聯(lián)的跨域用戶ID cookie 添加到CDC列表。iii. 對(duì)于CDC列表中的所有cookie,將所有相關(guān)聯(lián)的各域用戶ID cookie添力o到DC列表。iv. 重復(fù)步驟(ii)和(iii),直到DC和CDC列表都不改變了 。一個(gè)或更多其它被動(dòng)識(shí)別方案不依賴于cookie。 一種方便的技術(shù)是將 信息編碼在HTTP頭部中?,F(xiàn)在描述多種變化形式。第一方案將主ID編碼在Etag字段中,Etag字段在HTTP1.1規(guī)范中 被介紹。根據(jù)此規(guī)范,如果當(dāng)服務(wù)于對(duì)象時(shí)服務(wù)器規(guī)定了 Etag值,則當(dāng) 用HTTP GET或HEAD方法請(qǐng)求對(duì)象時(shí),高速緩存該該對(duì)象的客戶端將 規(guī)定指定該Etag值。因而, 一種被動(dòng)識(shí)別方案如下工作。假定用戶第一 次請(qǐng)求給定的內(nèi)容提供商域例如test.com的對(duì)象,且被定向到CDN邊緣 服務(wù)器。處理該請(qǐng)求的邊緣服務(wù)器產(chǎn)生新的主ID。邊緣服務(wù)器給對(duì)象提供服務(wù),同時(shí)將主ID指定在HTTP 200 OK響應(yīng)的Etag字段中。當(dāng)瀏覽 器下一次訪問(wèn)該站點(diǎn)(并請(qǐng)求相同的對(duì)象)時(shí),其由在GET或HEAD請(qǐng) 求中身見(jiàn)定的Etag頭部來(lái)辨iL在一種變化形式中,主ID編碼為日期。這里,假定用戶第一次請(qǐng)求 test.com的對(duì)象,并被定向到CDN邊緣服務(wù)器。邊緣服務(wù)器產(chǎn)生新的主 ID,例如305。邊緣服務(wù)器接著將主ID編碼為日期,例如將主ID說(shuō)明為 從給定時(shí)間的起點(diǎn)開(kāi)始過(guò)去的秒數(shù)。因而,對(duì)于UNIX紀(jì)元(epoch),編 碼的日期將是1970年1月1日00: 05: 05。當(dāng)邊緣服務(wù)器給對(duì)象提供服 務(wù)時(shí),隨即在HTTP200OK響應(yīng)的日期字段中規(guī)定了編碼的主ID。當(dāng)瀏 覽器下一次訪問(wèn)該站點(diǎn)(并請(qǐng)求相同的對(duì)象)時(shí),其由在HTTP GET或 HEAD請(qǐng)求中規(guī)定的上一次修改的頭部來(lái)辨認(rèn)。在此請(qǐng)求中規(guī)定的曰期 隨即被解碼,以獲得主ID。在另一種變化形式中,主ID被編碼在Content-MD5頭部中,其在 HTTP 1.1規(guī)范中被介紹。這里,假定用戶第 一次請(qǐng)求test.com的對(duì)象,并 被定向到CDN邊緣服務(wù)器。邊緣服務(wù)器生成新的主ID并將該標(biāo)識(shí)符編 碼為MD5散列(hash)(例如通過(guò)對(duì)主ID執(zhí)行MD5散列函數(shù))。邊緣服 務(wù)器接著給對(duì)象提供服務(wù),同時(shí)規(guī)定HTTP 200 OK響應(yīng)的Content-MD5 字段中的主ID。當(dāng)瀏覽器下一次訪問(wèn)該站點(diǎn)(并請(qǐng)求相同的對(duì)象)時(shí), 其由在HTTP GET或HEAD請(qǐng)求中規(guī)定的Content-MD5頭部來(lái)辨認(rèn)。當(dāng)然,上述內(nèi)容僅是說(shuō)明性的例子,其使用給定的HTTP頭部字段來(lái) 傳輸主ID或其它信息以利于本發(fā)明的數(shù)據(jù)收集方法。此技術(shù)也稱為"重 載(overload)"給定的HTTP頭部,因?yàn)榘诮o定頭部字段中的信息不 是原本期望在所述字段中的數(shù)據(jù)。也可使用傳送主ID的其它技術(shù)(例如 在URL中嵌入標(biāo)識(shí)符)。通常,在給定的CDN內(nèi)容域上^f吏用主動(dòng)和/或^f皮動(dòng):技術(shù)。然而,優(yōu)選 地,主動(dòng)和被動(dòng)技術(shù)都不在某些站點(diǎn)上使用,這由提供商或CDN客戶決 定,或由提供商和CDN客戶決定。數(shù)據(jù)修正和轉(zhuǎn)換數(shù)據(jù)分析模塊308將相應(yīng)于用戶與CDN的相互作用的一系列數(shù)據(jù)單 元作為輸入。每個(gè)單元可包括例如°用戶才幾器的互聯(lián)網(wǎng)協(xié)i義(IP)地址°用戶的域ID/主ID。請(qǐng)求的URL (包括查詢串和POST值)。所請(qǐng)求的對(duì)象的參照URL (refering URL )(如果有的話)°請(qǐng)求的時(shí)間。與請(qǐng)求相關(guān)聯(lián)的所有cookie,包括但不限于 由內(nèi)容提供商設(shè)置的cookie 各i或用戶ID cookie ^夸i或用戶ID cookie。與請(qǐng)求相關(guān)聯(lián)的返回給用戶的所有數(shù)據(jù)優(yōu)選的, 一起提供這些單元,使得系統(tǒng)能夠看到隨著時(shí)間的過(guò)去用戶 做了什么。作為第一處理步驟,優(yōu)選的,數(shù)據(jù)被傳遞通過(guò)數(shù)據(jù)移除模塊306。此 模塊將移去 任何個(gè)人可識(shí)別的信息(PII):°用戶名稱。地址和電話號(hào)碼°信用卡信息°社會(huì)保險(xiǎn)號(hào)碼°其它此模塊隨即建立和/或擴(kuò)充與主ID相關(guān)聯(lián)的概要文件。作為過(guò)濾PII 的替換,系統(tǒng)可以僅提取出非PII信息。CDN集群和邊緣服務(wù)器實(shí)現(xiàn)方式圖4說(shuō)明了上述主題的實(shí)現(xiàn)方式。系統(tǒng)包括兩個(gè)主要操作部分?jǐn)?shù)據(jù) 集群400和邊緣服務(wù)402。僅顯示了一個(gè)邊緣服務(wù)實(shí)例;當(dāng)然,此服務(wù)在 CDN邊緣服務(wù)器的全部或一些重要部分上運(yùn)行。(正如這里所使用的,"邊 緣"服務(wù)器不意味著包括任何特定CDN配置或體系結(jié)構(gòu))。邊緣服務(wù)用 于捕獲在線行為數(shù)據(jù),其隨后被提供給數(shù)據(jù)集群400并由數(shù)據(jù)集群400 處理。通常,集群是機(jī)器的集合,所述機(jī)器整理(digest)邊緣服務(wù)器機(jī) 器訪問(wèn)日志數(shù)據(jù)。它接受訪問(wèn)日志數(shù)據(jù)作為輸入,并產(chǎn)生叫做"身份"和 "片段,,數(shù)據(jù)作為輸出,正如將要描述的。集群還提供一個(gè)點(diǎn),在此點(diǎn)上, 內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商、其用戶及其合作者可探究系統(tǒng)的數(shù)據(jù)語(yǔ)料庫(kù), 產(chǎn)生(例如,手動(dòng)地,或以自動(dòng)的方式)報(bào)告,并形成新的和/或精細(xì)的 片段定義。正如下面將更詳細(xì)描述的,為了利于高性能,集群優(yōu)選地被組 織到3個(gè)主要的級(jí)(stage)中數(shù)據(jù)荻取、數(shù)據(jù)處理和存儲(chǔ)以及數(shù)據(jù)檢 索。數(shù)據(jù)獲取級(jí)在日志處理器/下載收到標(biāo)記處理器(Log Processor/Download Receipt Processor , LP)414上實(shí)現(xiàn)。數(shù)據(jù)處理和存 儲(chǔ)在數(shù)據(jù)庫(kù)節(jié)點(diǎn)(DN) 416上實(shí)現(xiàn)。數(shù)據(jù);險(xiǎn)索級(jí)在前端(FE) 418上實(shí) 現(xiàn)。分析節(jié)點(diǎn)AN420通常以"離線"方式的起作用。AN420提供具有SQL 功能的互聯(lián)網(wǎng)接口 ,用于對(duì)整合的系統(tǒng)數(shù)據(jù)集的較大子集進(jìn)行離線分析。
數(shù)據(jù)集群組成部分將在下面更詳細(xì)地被描述。 邊緣服務(wù)
優(yōu)選地,有兩種類(lèi)型的操作出現(xiàn)在邊緣服務(wù)中,即身份操作和片段操 作。這些服務(wù)由圖4所示的身份和片段服務(wù)器404實(shí)現(xiàn)。ISS在其上執(zhí)行 的邊緣機(jī)器406包括HTTP網(wǎng)絡(luò)代理服務(wù)器408和其相關(guān)聯(lián)的服務(wù)器管理 者(ghost )進(jìn)程410,正如之前所描述的。期望使用所描述的系統(tǒng)的CDN 客戶操作源服務(wù)器412,并將實(shí)現(xiàn)站點(diǎn)的身份操作。 一旦這完成了,客戶 也可實(shí)現(xiàn)片段操作。優(yōu)選的,兩種實(shí)現(xiàn)方式都通過(guò)元數(shù)據(jù)來(lái)配置,所述元 數(shù)據(jù)提供給邊緣服務(wù)器管理者進(jìn)程,正如之前所描述的。如在圖4中所看 到的,ISS服務(wù)器404通過(guò)防火墻422 (盡管這不是所要求的)與給定的 集群前端FE實(shí)例418相互作用。
盡管不意味著是限制,但I(xiàn)SS可作為C程序?qū)崿F(xiàn),該C程序設(shè)計(jì)成作為多線程FastCGI進(jìn)程運(yùn)行,傾聽(tīng)來(lái)自本地網(wǎng)絡(luò)服務(wù)器的請(qǐng)求。運(yùn)行ISS 的機(jī)器通常也運(yùn)行邊緣服務(wù)器管理者進(jìn)程。雖然以下描述的功能在兩個(gè)分 立的進(jìn)程中(ISS和ghost)實(shí)現(xiàn),此ISS功能對(duì)于邊緣服務(wù)器管理者進(jìn) 程可以是固有的(native)。
泛泛地說(shuō),使用所請(qǐng)求的對(duì)象或HTTP請(qǐng)求的某個(gè)特征(例如HTTP 頭部或cookie值),根據(jù)多種用戶請(qǐng)求觸發(fā)身份和片段操作。根據(jù)觸發(fā)身 份操作的請(qǐng)求,邊緣服務(wù)器管理者進(jìn)程用重定向到由CDNSP控制的第三 方域(abmr.net)來(lái)響應(yīng)。在此域中,系統(tǒng)設(shè)置規(guī)范的主ID ( AKID ) cookie。對(duì)abmr.net域的請(qǐng)求自身將導(dǎo)致重定向回源客戶域,以獲得最初 所請(qǐng)求的對(duì)象。通常,對(duì)此重定向的唯一添加是,abmr.net中AKID的值 被作為變量/值對(duì)查詢串而嵌入到請(qǐng)求中。邊緣服務(wù)器管理者進(jìn)程隨即將 設(shè)置客戶域特定cookie,其值將與abmr.net中AKID的相同。片段操作不 太復(fù)雜,因?yàn)橛脩魞H進(jìn)行一項(xiàng)請(qǐng)求。在此操作中,該請(qǐng)求導(dǎo)致邊緣服務(wù)器 管理者進(jìn)程發(fā)出轉(zhuǎn)發(fā)請(qǐng)求以獲取用戶的片段信息。對(duì)于此請(qǐng)求的響應(yīng)自身 是重定向,對(duì)此,客戶元數(shù)據(jù)隨即配置成跟隨(chase)。優(yōu)選的,重定向 是特定構(gòu)造的請(qǐng)求,根據(jù)此請(qǐng)求,另一邊緣服務(wù)器管理者進(jìn)程可從該請(qǐng)求 中提取片段信息,并將其包含為對(duì)客戶源服務(wù)器的最終HTTP請(qǐng)求中的頭 部。
身份搡作
為了實(shí)現(xiàn)身份操作,選擇相關(guān)頁(yè)面上的合適的對(duì)象以用作"觸發(fā)"和 /或"執(zhí)行"對(duì)象。雖然不意味著是限制,但好的候選頁(yè)面是那些"著陸 (landing)"頁(yè)面,在對(duì)站點(diǎn)的一般訪問(wèn)中,大多數(shù)一般用戶首先訪問(wèn)所述 著陸頁(yè)面。雖然不意^^未著是限制,但好的候選對(duì)象是出現(xiàn)在主要著陸頁(yè)面 上和/或遍及給定所有物的大部分頁(yè)面上的那些對(duì)象。"觸發(fā),,對(duì)象不是必 需的,但用于防范終端用戶瀏覽器從不接受任何cookie的情況。它們使 系統(tǒng)能夠檢查客戶域中是否存在某個(gè)已知cookie。如果客戶所有物具有一 個(gè)或更多cookie集(或是會(huì)話cookie或是永久cookie ),則觸發(fā)對(duì)象可以 不是必需的。當(dāng)使用觸發(fā)對(duì)象時(shí),邊緣服務(wù)器管理者進(jìn)程元數(shù)據(jù)檢查對(duì)于 觸發(fā)對(duì)象的請(qǐng)求是否包括已知cookie/值對(duì)。如果請(qǐng)求未包括已知cookie/值對(duì),則管理者進(jìn)程將合適的cookie設(shè)置為合適的值。"執(zhí)行"對(duì)象用于 迫使服務(wù)器管理者進(jìn)程重定向終端用戶到abmr.net域。通常,僅當(dāng)(1) 用戶已呈現(xiàn)適當(dāng)?shù)腸ookie(或是設(shè)置在對(duì)"觸發(fā)"對(duì)象的請(qǐng)求上的cookie, 或是已設(shè)置在客戶域中的cookie)以及(2)"執(zhí)行"對(duì)象被請(qǐng)求時(shí),才強(qiáng) 制此重定向。
圖5顯示了對(duì)于執(zhí)行對(duì)象的請(qǐng)求的請(qǐng)求流程,該請(qǐng)求包括必要的 cookie(和值)。標(biāo)記了 CP和ABMR的框是邊緣服務(wù)器進(jìn)程管理者(g-host) 操作,但各框指的是各自的域。在此操作中,邊緣服務(wù)器管理者進(jìn)程向 ISS機(jī)器(其IP可由CDN管理的名字的DNS查詢來(lái)確定)發(fā)出轉(zhuǎn)發(fā)請(qǐng) 求,ISS機(jī)器形成實(shí)際的重定向位置。此重定向位置將用戶指向abmr.net 域,它在查詢串中包括加密的串,加密的串包括最初請(qǐng)求的文檔或?qū)ο蟮?指紋(fmgerprint)、用戶在客戶域中的標(biāo)識(shí)符(如果有)以及客戶域的名稱。 這個(gè)末尾字段,即客戶域,可不同于所有物的名稱,例如CDN可分別地 啟用 "www.example.com"和"my.example.com", 在此情況下,客戶域 是example.com。正如在圖5中所看到的,邊緣服務(wù)器管理者進(jìn)程從ISS 接收響應(yīng),并將此響應(yīng)轉(zhuǎn)發(fā)到終端用戶。
終端用戶接收HTTP302重定向,并跟隨此對(duì)abmr.net域的請(qǐng)求。此 請(qǐng)求包括用戶的當(dāng)前AKID cookie值,如果有的話。abmr.net域的服務(wù)器 進(jìn)程(g-host)元數(shù)據(jù)然后將請(qǐng)求繼續(xù)轉(zhuǎn)發(fā)到ISS機(jī)器(再次地,通過(guò)對(duì)CDN 管理的名字的DNS解析確定IP地址)。ISS機(jī)器采取下列行動(dòng)之一
-重新設(shè)置AKID。如果用戶呈現(xiàn)客戶提供的標(biāo)識(shí)符,則ISS試圖為 此用戶的(CPID, CPDOMAIN)對(duì)檢索AKID。如果集群具有此用戶的 AKID,且此用戶具有
°無(wú)/無(wú)效AKID,或
°比數(shù)據(jù)集群中的AKID更新的有效AKID, 則ISS將用戶的AKID重新設(shè)置為從數(shù)據(jù)集群檢索出的AKID。 否則,ISS將開(kāi)始下面的情況。
重發(fā)相同的AKID。如果用戶呈現(xiàn)有效的AKID,則ISS重發(fā)相同的AKID。否則,ISS將開(kāi)始下面的情況。
產(chǎn)生新的AKID 。此為默認(rèn)行動(dòng)。
優(yōu)選的,ISS發(fā)送"Set (設(shè)置)-cookie"頭部以設(shè)置AKID cookie 的值,具有"從不失效(NeverExpire)"的截止期。ISS還生成重定向位 置,其優(yōu)選地與最初用戶請(qǐng)求一致,只是它包括特定查詢串參數(shù) (argument),其值與ISS剛設(shè)置的AKID值相同。 一旦用戶跟隨此第二 重定向,邊緣服務(wù)器管理者進(jìn)程執(zhí)行為身份搡作設(shè)計(jì)的客戶元數(shù)據(jù)的最終 模式。此元數(shù)據(jù)路徑從查詢串提取AKID值,并以此值設(shè)置特定用戶AKID cookie。這通過(guò)給請(qǐng)求的對(duì)象提供服務(wù)終止了此擴(kuò)展的用戶請(qǐng)求流程。
片段操作
為了實(shí)現(xiàn)片段操作,對(duì)于客戶需要片段信息的源的請(qǐng)求必須首先被確 定。例如,對(duì)于"機(jī)器人緩解",令人感興趣的請(qǐng)求可以是對(duì)在檢驗(yàn)點(diǎn)擊 流(click-stream)中的第一安全頁(yè)面的那些請(qǐng)求。對(duì)于感興趣于使用行為 數(shù)據(jù)用于其它目的(例如以廣告為目標(biāo))的客戶,所有請(qǐng)求可要求片段信 息。實(shí)現(xiàn)片段操作所要求的另一條信息僅是客戶和CDN服務(wù)提供商必須 對(duì)用作消息整理簽名(message digest signature)的共享密鑰的編碼的串取 得一致,消息整理簽名與發(fā)送到源服務(wù)器的所有片段共存。在圖6中示出 此請(qǐng)求流程。
根據(jù)任何合適的請(qǐng)求,片段元數(shù)據(jù)首先檢查客戶請(qǐng)求中是否存在 AKIDcookie。如果值未出現(xiàn),或者它不匹配一些基本有效性測(cè)試,則邊 緣服務(wù)器管理者進(jìn)程通過(guò)給所請(qǐng)求的對(duì)象提供服務(wù)來(lái)完成請(qǐng)求。然而,如 果出現(xiàn)的值看上去是有效的,則元數(shù)據(jù)從請(qǐng)求中提取多條信息,例如,源 主機(jī)用于此請(qǐng)求的客戶源服務(wù)器的主機(jī)名稱,請(qǐng)求主機(jī)最初的請(qǐng)求的 主機(jī)名稱/所有物,請(qǐng)求對(duì)象最初的請(qǐng)求的路徑/文件名稱,查詢串最 初的請(qǐng)求的查詢串,AKID:最初的請(qǐng)求中出現(xiàn)的AKID的值,以及客戶 域最初的請(qǐng)求的客戶域的名稱。邊緣服務(wù)器管理者進(jìn)程隨即將轉(zhuǎn)發(fā)請(qǐng)求 發(fā)送到abmr.net域,且以上信息包含在該請(qǐng)求中的HTTP頭部中。邊緣服 務(wù)器管理者進(jìn)程保持這些HTTP頭部,用于其對(duì)此特定終端用戶請(qǐng)求所進(jìn)行的每個(gè)轉(zhuǎn)發(fā)請(qǐng)求。用于此請(qǐng)求的高速緩存鍵(cache key )優(yōu)選地包括客 戶域和AKID的值。
對(duì)abmr.net的此"片段取出"請(qǐng)求可導(dǎo)致高速緩存命中(cachehit)。 在高速緩存缺失(cache miss)的情況下,邊緣服務(wù)器管理者進(jìn)程將轉(zhuǎn)發(fā)請(qǐng) 求發(fā)送到ISS機(jī)器。ISS將檢索AKID的值并轉(zhuǎn)向,且從集中的數(shù)據(jù)集群 中取出對(duì)此AKID的片段信息。ISS隨即對(duì)響應(yīng)進(jìn)行語(yǔ)法分析,以僅提供 為給定客戶域配置的那些片段。最后,ISS簽署所述片段響應(yīng)(例如 "segment—l=value segment—2=value"形式的編碼的URL的串)。ISS為 管理者進(jìn)程(在abmr.net域中)產(chǎn)生的響應(yīng)通常是空的實(shí)體,具有HTTP 頭部,其包括簽署了的并配置了的片段串,(即
"segment_l%3Dvalue%20segment—2%3Dvalue%20,<signature>',),和 HTTP響應(yīng)代碼(例如,200 OK)。 一旦邊緣服務(wù)器管理者進(jìn)程接收到此 響應(yīng)(或直接來(lái)自對(duì)ISS的轉(zhuǎn)發(fā)請(qǐng)求,或者,如果發(fā)生緩存命中,則來(lái)自 高速緩存),用于abmr.net域的元數(shù)據(jù)將響應(yīng)代碼重新寫(xiě)為臨時(shí)重定向
(HTTP響應(yīng)代碼302)。元數(shù)據(jù)被用來(lái)使用請(qǐng)求主機(jī)、請(qǐng)求對(duì)象和來(lái)自 ISS的響應(yīng)的片段頭部的數(shù)據(jù)構(gòu)建重定向位置??蛻粼獢?shù)據(jù)接收此302, 并被指示為跟隨此重定向。邊緣服務(wù)器管理者進(jìn)程對(duì)主機(jī)名稱
"isdata.abmr.net"進(jìn)行DNS解析,這轉(zhuǎn)換為某個(gè)其它g-host進(jìn)程。管理 者進(jìn)程發(fā)送請(qǐng)求,其再次由abmr.net的元數(shù)據(jù)處理。方便地,隨最初的請(qǐng) 求(即,取出片段信息的請(qǐng)求)發(fā)送到abmr.net的HTTP頭部在對(duì)abmr.net 的此第二請(qǐng)求上也是可用的。設(shè)計(jì)成處理此請(qǐng)求的abmr.net元數(shù)據(jù)使用這 些頭部的內(nèi)容重新產(chǎn)生最初的請(qǐng)求。首先,它提取分配給路徑參數(shù)"SEG" 的值。它將此值作為特殊HTTP請(qǐng)求頭部("X-IS-Server-Seg-Data")包括 進(jìn)來(lái)。然后,它重新產(chǎn)生最初的請(qǐng)求。最后,它將此請(qǐng)求發(fā)送到源服務(wù)器
(如在來(lái)自客戶域的請(qǐng)求主機(jī)HTTP請(qǐng)求頭部中提供的),其現(xiàn)在包括 HTTP請(qǐng)求頭部
"X-IS-Server-Seg-Data:segment—l%3Dvalue%20,<signature>,,
片段操作通過(guò)邊緣服務(wù)器管理者進(jìn)程將來(lái)自源服務(wù)器的響應(yīng)提供給 終端用戶來(lái)結(jié)束。
19數(shù)據(jù)集群
如上所述,集群優(yōu)選地組織為以下級(jí)數(shù)據(jù)獲取、數(shù)據(jù)處理和存儲(chǔ)以
及數(shù)據(jù)檢索。優(yōu)選地,每個(gè)級(jí)是并行的,并可按負(fù)載要求調(diào)整規(guī)?!,F(xiàn)描 述每個(gè)級(jí)。
數(shù)據(jù)獲取
集群獲取數(shù)據(jù)有幾種可能方法。(由邊緣服務(wù)器提供給CDN日志分 發(fā)服務(wù)(LDS) 424)訪問(wèn)日志是集群的主要數(shù)據(jù)源。如上所述,訪問(wèn)日 志在叫做日志處理器(LP ) 414的機(jī)器上處理。日志分發(fā)服務(wù)(LDS )通 過(guò)任何方便的機(jī)制如FTP、電子郵件等將日志傳送到LP。在LP機(jī)器中 操作的第一進(jìn)程(i-ftpd)接受這些日志文件,且當(dāng)LDS完成其FTP PUT 操作時(shí),第一進(jìn)程將完成的文件移動(dòng)到一目錄中,其中在LP機(jī)器中操作 的第二進(jìn)程(i-lp)可找到它。當(dāng)?shù)诙M(jìn)程發(fā)現(xiàn)準(zhǔn)備好被處理的文件時(shí), 第二進(jìn)程打開(kāi)此文件,如果需要?jiǎng)t將其解壓縮,并繼續(xù)對(duì)其進(jìn)行語(yǔ)法分析。 對(duì)于它進(jìn)行語(yǔ)法分析的每個(gè)日志行,第二進(jìn)程優(yōu)選地識(shí)別下列字段所請(qǐng) 求的URL、參照頁(yè)(referer)、請(qǐng)求時(shí)間、源IP地址以及AKID和CPID cookie 的值,如果它們?cè)谡?qǐng)求中被說(shuō)明的話。第二進(jìn)程隨后將這些字段映射到一 個(gè)或更多"行為"。優(yōu)選地,這用行為映射圖(behavior map)來(lái)完成,行 為映射圖是一種配置,對(duì)于每種內(nèi)容提供商代碼,其指定了 (URL,referer) 正則表達(dá)式對(duì)(regular expression pair)與 一個(gè)或更多行為的映射。對(duì)于 每個(gè)識(shí)別了的行為,優(yōu)選地,第二進(jìn)程向數(shù)據(jù)庫(kù)節(jié)點(diǎn)(DN)發(fā)出行為操 作,以記錄事件的發(fā)生。如果指定了 CPID cookie,則LP另外地發(fā)出身 份操作。這些操作在下面將更詳細(xì)地描述。行為操作指定了事件的行為名 稱(它的"behaviorjd")、時(shí)間、AKID以及源IP地址。身份操作指定了 AKID、 CPID和CPDOMAIN。優(yōu)選地,第二進(jìn)程具有內(nèi)部高速緩存,通 過(guò)此高速緩存,它優(yōu)選地將這些操作整合在LRU管理數(shù)據(jù)結(jié)構(gòu)中。在此 模型中,對(duì)于給定的AKID/行為對(duì)的多個(gè)操作/事件可以被整合為單個(gè)操 作,且按照給定的高速緩存逐出策略(evictionpolicy)向DN發(fā)出操作。 這顯著地降低了 DN工作負(fù)荷并降低了 LP/DN網(wǎng)絡(luò)性能要求。
優(yōu)選地,通過(guò)下載收到標(biāo)記處理,系統(tǒng)還支持?jǐn)?shù)據(jù)獲取的在線模型。特別是,對(duì)于某些對(duì)象或內(nèi)容提供商代碼,邊緣服務(wù)器管理者進(jìn)程可配置
為將下載收到標(biāo)記以POST方式提交給下載收到標(biāo)記處理器(DRP)。在 收到標(biāo)記中提供了所請(qǐng)求的URL、參照頁(yè)、訪問(wèn)時(shí)間、源IP地址以及 AKID和CPID cookie值。DRP可將這些收到標(biāo)記/請(qǐng)求映射到行為。
數(shù)據(jù)處理和存儲(chǔ)
如上所述,利用進(jìn)程(i-dn),系統(tǒng)在稱為DN的機(jī)器416上處理和存 儲(chǔ)獲取的數(shù)據(jù)。
為了擴(kuò)展性,系統(tǒng)優(yōu)選地將其語(yǔ)料庫(kù)數(shù)據(jù)分成很多部分,每個(gè)部分由 序列號(hào)來(lái)識(shí)別。分配給DN的每個(gè)序列號(hào)是唯一的,DN經(jīng)常分配有幾個(gè) 序列號(hào)。第三進(jìn)程優(yōu)選地保持兩個(gè)主要的表行為表,其記錄行為數(shù)據(jù); 以及身份表,其記錄身份數(shù)據(jù)。行為表在行為記錄中存儲(chǔ)信息,其記錄了 用于特定(AKID,behavior—id)的隨時(shí)間過(guò)去的行為數(shù)據(jù)(事件數(shù)據(jù))。 行為數(shù)據(jù)優(yōu)選地通過(guò)將事件納入(slot)到多個(gè)連續(xù)的間隔中來(lái)被壓縮。身 份表記錄了 ( CPID, CPDOMAIN)對(duì)和AKID之間的關(guān)聯(lián)。如果用戶刪 去了他或她的cookie,此信息用于重建用戶的身份。正如這里所使用的, 片段通常是基于給定用戶的歷史數(shù)據(jù)的合成"記分"。對(duì)任何給定片段的 主要輸入是用戶的行為記錄。另外,對(duì)于給定用戶,來(lái)自其它片段的記分 也可影響該用戶在某個(gè)片段中的記分。對(duì)于給定用戶,且對(duì)于給定片段, 系統(tǒng)優(yōu)選地存儲(chǔ)最近的記分、記分被更新的最近時(shí)間以及此記分的置信的 表示。為了保持片段信息,DN進(jìn)程保持片段表,其像行為表和身份表一 樣被劃分。特別是,優(yōu)選地,行為和片段數(shù)據(jù)根據(jù)AKID的散列被劃分為 序列號(hào)。身份數(shù)據(jù)根據(jù)(CPID,CPDOMAIN)對(duì)的散列被劃分為序列號(hào)。 DN行為表、身份表和片段表組成分立的DN服務(wù),每項(xiàng)服務(wù)優(yōu)選地具有 其自己的序列號(hào)空間。如果需要,每項(xiàng)服務(wù)可在自身的DN集上運(yùn)行。每 個(gè)表的每個(gè)序列號(hào)優(yōu)選地存儲(chǔ)在其自身的數(shù)據(jù)庫(kù)映像中。
數(shù)據(jù)處理
DN416支持若干個(gè)主要操作行為記錄更新("行為操作")、身份記錄更新("身份操作")、片段查詢以及身份查詢。另一種操作,片段記錄 更新("片段操作")可異步與任何其它操作而發(fā)生?,F(xiàn)描述這些操作。
一旦接收到行為操作,i-dn進(jìn)程取出與該操作相關(guān)的記錄,如果其不 存在就將其產(chǎn)生。在某種處理之后,i-dn進(jìn)程隨即將記錄寫(xiě)回?cái)?shù)據(jù)庫(kù)。此 進(jìn)程隨即調(diào)用叫做i-sn的庫(kù)以更新AKID的片段數(shù)據(jù)。
一旦接收到身份操作,i-dn進(jìn)程取出與該操作相關(guān)的記錄,如果其不 存在就將其產(chǎn)生。此記錄僅記錄關(guān)聯(lián),且不需要進(jìn)一步的處理。DN鏈接 到庫(kù),i-sn,其提供片段更新和片段查詢支持。根據(jù)在i-sn庫(kù)的配置文件 中建立的規(guī)則,此操作導(dǎo)致片段表中的、給定AKID的相關(guān)片段的更新。
一旦接收到身份查詢,i-dn進(jìn)程取出所請(qǐng)求的(CPID, CPDOMAIN) 對(duì)的記錄,并隨即將相應(yīng)的AKID提供給客戶端。 一旦接收到片段查詢, 進(jìn)程i-dn調(diào)用i-sn庫(kù)以取出所請(qǐng)求的AKID的片段串,且隨即將此片段 串提供給客戶端。
數(shù)據(jù)檢索
集群的前端(FE) 418給集群提供HTTP接口 。 CDN可具有一個(gè)或 更多外部網(wǎng)絡(luò),所述網(wǎng)絡(luò)利用此接口從集群取出數(shù)據(jù)。FE避免查詢客戶 端知道數(shù)據(jù)在集群中的哪里被提供(host)(哪些DN被分配了哪些序列 號(hào)),并且他們充當(dāng)負(fù)載緩沖器以使集群免于高查詢(高網(wǎng)絡(luò))負(fù)載。一 旦從邊緣服務(wù)ISS組成部分接收到身份或片段請(qǐng)求(正如將要描述的), FE確定對(duì)哪個(gè)DN查詢此信息,向這個(gè)DN發(fā)出查詢操作,讀取響應(yīng), 對(duì)響應(yīng)加密,以及將加密的數(shù)據(jù)傳送回ISS客戶端。
也如在圖4中看到的,提供數(shù)據(jù)庫(kù)(data library, DL )節(jié)點(diǎn)426用于 長(zhǎng)期存儲(chǔ),以及報(bào)告生成器節(jié)點(diǎn)428用于促進(jìn)基于所收集的數(shù)據(jù)的報(bào)告的 生成。報(bào)告生成器通常與AN協(xié)同操作。CDN客戶以諸如通過(guò)安全通信 鏈接的通常方式訪問(wèn)這些系統(tǒng)。在一種實(shí)施方式中,通過(guò)外聯(lián)網(wǎng)入口 (portal),通過(guò)Web服務(wù),或者以任何其它方便的方式,可得到所收集 的信息。CDN服務(wù)提供商以任何方便的方式,例如根據(jù)使用,根據(jù)用戶代理 VUS,才艮據(jù)訂閱,通過(guò)所追蹤的主ID,通過(guò)頁(yè)面瀏覽量/對(duì)象瀏覽量,通 過(guò)用戶概要文件,通過(guò)片段或類(lèi)似物,對(duì)數(shù)據(jù)系統(tǒng)的使用收費(fèi)。
因此,這里描述的系統(tǒng)具有幾個(gè)主要組成部分
(a) ID管理一用于追蹤站點(diǎn)間的客戶機(jī)用戶代理,并在相關(guān)日志中給 點(diǎn)擊流打上時(shí)間標(biāo)記。此組成部分包括客戶的域中的元數(shù)據(jù)以及產(chǎn)生(和
"重置")ID的邊緣服務(wù)功能,正如以上描述的。盡管如上所述的系統(tǒng)依 靠cookie來(lái)將ID保持在用戶代理cookie存儲(chǔ)器中,但這不是必需的,正 如已經(jīng)描述的其它被動(dòng)方案。
(b) 數(shù)據(jù)收集和處理一負(fù)責(zé)處理日志并建立用戶概要文件。通過(guò)得到 從CDN日志分發(fā)服務(wù)(或其它源)傳送的日志并處理每個(gè)日志行,實(shí)時(shí) 地或近乎實(shí)時(shí)地進(jìn)行此操作,所述處理將URL模式映射到行為。例如, 具有"...cp.com/.*"的行將遞增此用戶代理的"cp_user"行為。
(c) 離線數(shù)據(jù)分析一來(lái)自在線系統(tǒng)的數(shù)據(jù)被收集到離線系統(tǒng)中,在離 線系統(tǒng)中,數(shù)據(jù)可被處理用于其它用戶。 一種使用是通過(guò)AN提供SQL 接口給數(shù)據(jù)。另 一種使用是產(chǎn)生CDN客戶入口的報(bào)告。
(d) 實(shí)時(shí)概要文件檢索一當(dāng)配置成這樣做時(shí),在邊緣的服務(wù)器從數(shù)據(jù) 集群檢索用戶概要文件,并然后將此信息包含在對(duì)客戶源的轉(zhuǎn)發(fā)請(qǐng)求中。 這是客戶用來(lái)根據(jù)行為數(shù)據(jù)采取行動(dòng)的方法。
數(shù)據(jù)系統(tǒng)可用于多種不同類(lèi)型的服務(wù)。
第一種使用情況是"發(fā)行者"服務(wù)。在此實(shí)例中,(使用CDN)操作 一組域或所有物的給定CDN客戶,可使用系統(tǒng)獲得關(guān)于在一組域上操作 的用戶代理的信息。這樣的信息隨后可由客戶(或其他人)使用,用于其 它目的(例如廣告服務(wù)、動(dòng)態(tài)內(nèi)容產(chǎn)生或類(lèi)似物)。作為具體的例子,CDN 客戶可操作兩個(gè)站點(diǎn),A和B,且CDN服務(wù)提供商在所有站點(diǎn)追蹤用戶 代理數(shù)據(jù)。通過(guò)分析數(shù)據(jù),CDN服務(wù)提供商可確定,10%的站點(diǎn)八用戶 代理也訪問(wèn)站點(diǎn)B,但僅3%的站點(diǎn)B用戶代理訪問(wèn)站點(diǎn)A。作為另一個(gè) 例子,系統(tǒng)可用于提供關(guān)于特定的用戶所負(fù)責(zé)的請(qǐng)求的數(shù)量的信息(例如,
233%的用戶負(fù)責(zé)對(duì)站點(diǎn)的所有請(qǐng)求的10%)。在此方式中,CDN客戶可獲 得關(guān)于用戶代理的人口統(tǒng)計(jì)的更加有用的數(shù)據(jù),并因此,可推測(cè)地獲得關(guān) 于觀看這些站點(diǎn)的實(shí)際用戶的更加有用的數(shù)據(jù)。
第二種使用情況是"機(jī)器人緩解"服務(wù)。在此實(shí)例中,操作交易站點(diǎn) (例如,終端用戶購(gòu)買(mǎi)諸如比賽門(mén)票、旅店房間、飛機(jī)座位等等有限的商 品條目所位于的站點(diǎn))的給定CDN客戶可使用本系統(tǒng)來(lái)獲得關(guān)于訪問(wèn)該 站點(diǎn)的用戶代理的信息,特別是關(guān)于特定用戶代理是否很可能是自動(dòng)化實(shí) 體(例如,軟件機(jī)器人或"機(jī)器人")的信息。所述站點(diǎn)可使用此信息來(lái) 向很可能有效的那些用戶代理(即,人類(lèi))提供最佳水平的服務(wù)。此操作 利于緩解機(jī)器人欺作和其它站點(diǎn)欺詐。機(jī)器人緩解功能也可用于機(jī)器人也 很普遍的其它類(lèi)型的站點(diǎn)(例如,基于朋友的社交網(wǎng)站)。
第三種使用情況是"合作者"服務(wù)。在此實(shí)例中,CDN服務(wù)提供商 使用本數(shù)據(jù)系統(tǒng)來(lái)為使用CDN的兩個(gè)或更多實(shí)體提供聯(lián)合服務(wù)。作為例 子,客戶A制造了一系列產(chǎn)品,并具有描述其產(chǎn)品的網(wǎng)站;客戶B是提 供關(guān)于新的和已使用的產(chǎn)品例如A制造的產(chǎn)品的信息服務(wù)的網(wǎng)站??蛻?A和B具有(或可受益于) 一種商業(yè)關(guān)系,在此關(guān)系下它們共享關(guān)于訪 問(wèn)其各自網(wǎng)站的終端用戶的信息。在此實(shí)例中,如果客戶A和客戶B兩 者都使用CDN來(lái)實(shí)現(xiàn)他們的站點(diǎn), 一個(gè)客戶或兩個(gè)客戶都可使用這里的 數(shù)據(jù)系統(tǒng)以利于和擴(kuò)展這樣的數(shù)據(jù)共享,因?yàn)镃DN可使用數(shù)據(jù)系統(tǒng)來(lái)收 集訪問(wèn)兩個(gè)站點(diǎn)的用戶代理的行為信息。作為另一個(gè)例子,客戶A可以 是社交網(wǎng)站,而客戶B提供其期望在客戶A的站點(diǎn)上進(jìn)行促銷(xiāo)的給定的 產(chǎn)品或服務(wù)。如果客戶A和B兩者都使用CDN來(lái)傳送他們的站點(diǎn),則客 戶A可使用這里的數(shù)據(jù)系統(tǒng)來(lái)識(shí)別訪問(wèn)其站點(diǎn)的給定用戶代理是否去過(guò) 了客戶B的站點(diǎn)。此信息隨即可被共享,以利于給定的活動(dòng)(例如,服 務(wù)于給定的廣告,提供給定的交叉促銷(xiāo)利益,或諸如此類(lèi)。)
另一種使用情況是"目標(biāo)化"服務(wù)。在此實(shí)例中,例如通過(guò)產(chǎn)生用戶 代理的用戶概要文件并將所述概要文件提供給廣告服務(wù)引擎,CDN服務(wù) 提供商使用數(shù)據(jù)系統(tǒng)以利于廣告的目標(biāo)化。系統(tǒng)優(yōu)選地執(zhí)行或通過(guò)連接到 片段記分商業(yè)邏輯,從而對(duì)每個(gè)AKID的每個(gè)"活躍,,片段建立興趣積分。給定AKID的行為數(shù)據(jù)可如下映射到片段。對(duì)于與AKID相關(guān)聯(lián)的每個(gè)行 為ID,采用對(duì)于所述行為ID存在事件的最近的時(shí)期。例如,通過(guò)從在其 中發(fā)生那些事件的時(shí)期的中點(diǎn)減去當(dāng)前時(shí)間,確定這些事件的持續(xù)時(shí)間 (age)。將所述時(shí)期中的事件的數(shù)量與時(shí)期的持續(xù)時(shí)間的函數(shù)相乘,以衰 減其值。此AKID的所述片段/行為的"強(qiáng)度"就是此乘法的結(jié)果。廣告 選擇邏輯可對(duì)片段排序,以找到具有最大強(qiáng)度的片段并根據(jù)此片段選擇廣告。
另 一種使用情況是,CDN服務(wù)提供商為提供搜索引擎(或類(lèi)似物) 的客戶而運(yùn)行本系統(tǒng)??蛻舻捏w系結(jié)構(gòu)包括竟價(jià)機(jī)制(bidding mechansim) 或與竟價(jià)機(jī)制相關(guān),通過(guò)竟價(jià)機(jī)制,第三方可對(duì)商品(例如,廣告、關(guān)鍵 字、付費(fèi)文本等等)竟價(jià),所述商品可響應(yīng)于用戶代理查詢,通過(guò)客戶的 搜索引擎被返回。當(dāng)查詢進(jìn)入搜索引擎時(shí),本創(chuàng)造性的數(shù)據(jù)系統(tǒng)被訪問(wèn), 使得CDNSP具有的關(guān)于用戶代理的任何數(shù)據(jù)或概要文件都能作為輸入提 供給竟價(jià)算法。其中客戶訪問(wèn)本數(shù)據(jù)系統(tǒng)的特定方式是可以變化的。例如, 本數(shù)據(jù)系統(tǒng)可具有一個(gè)模塊,所述模塊在內(nèi)容提供商的體系結(jié)構(gòu)中執(zhí)行, 其信息在帶外(out-of-band)傳遞。在任一情況下,都給客戶的竟價(jià)機(jī)制(或 算法)提供了附加信息(例如,用戶概要文件、VUS或其它這樣的數(shù)據(jù)), 使得第三方可更有效地對(duì)商品竟價(jià)。
輸出
在一種實(shí)施方式中,數(shù)據(jù)收集系統(tǒng)的輸出是與給定的主ID關(guān)聯(lián)的一 系列名稱/值對(duì)。這些名稱-值對(duì)可以是表示猜測(cè)的值的形式(例如,男性 =0.9表示很可能是男性,男性=0.5表示無(wú)法猜測(cè),男性=0.1表示很可能 是女性),并且/或可以是可能具有置信記分的通類(lèi)標(biāo)簽(興趣K)lympics, 置信=75%)。這些中的每一個(gè)都可以是"片段"。
這樣,優(yōu)選地,概要文件由給定的本體(ontology)定義;它可以符 合給定的數(shù)據(jù)模式(dataschema)??赡艿膶傩缘拇硇粤斜砣缦?br> -一般興趣(例如,遍及多等級(jí)層級(jí)的相對(duì)的興趣值)
°體育活動(dòng)一棒球、橄欖球、NASCAR、英式足球、水球、籃球;相關(guān)的職業(yè)/大學(xué)體育活動(dòng);運(yùn)動(dòng)隊(duì)
°新聞一國(guó)際、國(guó)內(nèi)、l也區(qū) 。財(cái)經(jīng)
。娛樂(lè)一電影、特定人群
當(dāng)前購(gòu)物興趣
°汽車(chē)
。家居產(chǎn)品
°旅行 人口學(xué)統(tǒng)計(jì)信息
。年齡 °寸生另'J °收入水平
°家庭位置(例如,郵政編碼間隔尺度(ZIP code granularity))
互耳關(guān)網(wǎng)4亍為
。每天在線的時(shí)間量
°已進(jìn)行的網(wǎng)購(gòu)程度
在圖7顯示了代表性的用戶概要文件。這里的數(shù)據(jù)僅是代表性的。應(yīng) 認(rèn)識(shí)到,用戶概要文件不包括任何個(gè)人可識(shí)別信息(PII)。
上述體系結(jié)構(gòu)可包括一個(gè)或更多變化形式。因此,可期望它擴(kuò)展功能 以提供更詳細(xì)的信息過(guò)濾或處理。參照以上內(nèi)容,系統(tǒng)可包括用戶聚類(lèi) (clustering)或相關(guān)功能,以在多個(gè)設(shè)備間追蹤用戶代理。因而,如果給 定的內(nèi)容提供商或廣告服務(wù)實(shí)體將用戶id放入由CDN提供服務(wù)的文件 中,則如前所述的CDN服務(wù)器提供商體系結(jié)構(gòu)優(yōu)選地包括以下能力處 理信息并確定兩個(gè)不同的cookie ID (或其它標(biāo)識(shí)符)表示相同的人或?qū)?體,所述人或?qū)嶓w從兩個(gè)不同的位置(例如,家庭和工作場(chǎng)所),或更通 常地,以兩個(gè)不同的設(shè)備,訪問(wèn)給定的站點(diǎn)(全部或部分地分流到CDN )。系統(tǒng)包括適當(dāng)?shù)墓δ?例如,相關(guān)算法,聚類(lèi)算法或其它類(lèi)似算法),以 使服務(wù)提供商能過(guò)濾出重復(fù)的信息。
如所提到的,CDN服務(wù)提供商(依靠其服務(wù))訪問(wèn)當(dāng)終端用戶瀏覽
站點(diǎn)時(shí)收集的大量數(shù)據(jù),所述站點(diǎn)(全部或部分地)被分流到CDN。然 而,許多這樣的終端用戶不與唯一的IP地址相關(guān)聯(lián),因?yàn)樗麄兲囟ǖ目?戶機(jī)位于防火墻之后。這樣,本發(fā)明可通過(guò)以下方式得到擴(kuò)展通過(guò)使服 務(wù)提供商(a)監(jiān)控給定的數(shù)據(jù)請(qǐng)求流(例如企業(yè)防火墻后發(fā)起的請(qǐng)求) 和(b)對(duì)作為結(jié)果得到的數(shù)據(jù)執(zhí)行聚類(lèi)算法,以試圖提取有用信息,例 如,多少唯一ID與數(shù)據(jù)相關(guān)聯(lián),給定的聚類(lèi)是否相應(yīng)于給定的用戶集或 子集,或諸如此類(lèi)。代表性的聚類(lèi)算法包括,但不限于,K-均值、SVM (使用正演擬合(forward-fitting)或互信息(mutual information)作為特征 選擇算法)或類(lèi)似算法。更常見(jiàn)的,聚類(lèi)算法可用于提取關(guān)于已經(jīng)根據(jù)之 前描述的 一般技術(shù)被識(shí)別的給定用戶的其它信息。
如以上所指出到的,根據(jù)本發(fā)明的數(shù)據(jù)收集技術(shù)也可提供用于辨別與 主ID相關(guān)聯(lián)的特定用戶代理是否是人類(lèi),而不是自動(dòng)的機(jī)器、程序、進(jìn) 程。因此,例如,如果與主ID相關(guān)聯(lián)的"實(shí)體"花了給定數(shù)量的小時(shí)在 線,訪問(wèn)站點(diǎn)X、 Y和Z,并在站點(diǎn)Y上購(gòu)買(mǎi)了東西,則很有可能此實(shí) 體不是自動(dòng)進(jìn)程(例如,具有從給定的網(wǎng)站購(gòu)買(mǎi)音樂(lè)會(huì)門(mén)票以便重新出售 這個(gè)專門(mén)任務(wù)的票務(wù)機(jī)器人)。同樣,如果用戶代理訪問(wèn)"目錄"頁(yè)面(相 對(duì),例如"購(gòu)買(mǎi)"頁(yè)面),則用戶代理很可能與人類(lèi)用戶相關(guān)聯(lián),因?yàn)椴?會(huì)期望機(jī)器人花時(shí)間觀看希望被看到的頁(yè)面??蓪?shí)現(xiàn)適當(dāng)?shù)能浖谐?序,用于提供實(shí)體辨別的這種和其它類(lèi)型(例如,確定實(shí)體是否試圖進(jìn)行 點(diǎn)擊欺詐、"Sybil"攻擊或諸如此類(lèi))。在一種實(shí)施方式中,評(píng)估一組一 個(gè)或更多的因素,以確定用戶代理是否是票務(wù)機(jī)器人。這些因素包括例如 由客戶機(jī)用戶代理訪問(wèn)的CDN域的多樣性、關(guān)于與給定的內(nèi)容提供商域 相關(guān)聯(lián)的一個(gè)或更多頁(yè)面的購(gòu)買(mǎi)頁(yè)面與目錄頁(yè)面比率、自上次瀏覽會(huì)話已 經(jīng)過(guò)去的時(shí)間量、在當(dāng)前瀏覽會(huì)話期間客戶機(jī)用戶代理在線的時(shí)間量和在 給定時(shí)間段內(nèi)與客戶機(jī)用戶代理相關(guān)聯(lián)的IP地址的數(shù)量。這些因素僅僅 是代表性的。通常,希望在多個(gè)站點(diǎn)或域上監(jiān)控用戶代理,以便在很多站點(diǎn)上且也許在給定時(shí)間段上可對(duì)"正常"(看上去象人類(lèi)的)行為做出判 斷。當(dāng)然,通過(guò)更多的數(shù)據(jù),系統(tǒng)可獲得用戶代理與有效用戶相關(guān)聯(lián)的更 多置信。
特別是,并基于所述因素,系統(tǒng)提供用戶代理與人類(lèi)用戶相關(guān)聯(lián)的其
置信的指示。所述指示通常是以有效用戶記分(vus)的形式。vus越 高,用戶代理越可能與人類(lèi)用戶相關(guān)聯(lián)。(當(dāng)然,詞語(yǔ)"越高"是相對(duì)的, "最低"值可能代表較好的記分)。在一種實(shí)施方式中,vus如下計(jì)算。 有來(lái)自網(wǎng)絡(luò)層向上通過(guò)應(yīng)用層的一組數(shù)據(jù)源(如上描述的一個(gè)或更多因 素)。系統(tǒng)分析所確定的屬性,以提取出對(duì)正常人類(lèi)行為的指示符。什么 樣的東西指示"正常人類(lèi)行為"是可以根據(jù)站點(diǎn)變化的,或者甚至在站點(diǎn) 的不同區(qū)域內(nèi)變化。通過(guò)使用加權(quán)的算法來(lái)結(jié)合一個(gè)或更多的屬性,生成
有效客戶記分(vus)以代表此用戶代理與正常人類(lèi)用戶相關(guān)聯(lián)的服務(wù)提
供商的置信。所使用的特定算法權(quán)重將依賴于所述因素、站點(diǎn)類(lèi)型、被認(rèn) 為是正常的活動(dòng)的性質(zhì)以及諸如此類(lèi)。
如果機(jī)器人已經(jīng)被標(biāo)記(flag)出來(lái),則采取減緩行動(dòng)。具體的行動(dòng) 可以相當(dāng)不同。減緩行動(dòng)可包括例如,向客戶機(jī)用戶代理提供假內(nèi)容或其 它內(nèi)容,給客戶機(jī)用戶代理提供低質(zhì)量的服務(wù),將客戶機(jī)用戶代理按路由 到CDN中的服務(wù)器的子集,在那里,其被迫與已經(jīng)(通過(guò)VUS記分) 被辨別為機(jī)器人的其他客戶機(jī)用戶代理竟?fàn)庂Y源,等等。客戶機(jī)用戶代理 的服務(wù)質(zhì)量被降低的程度可以是VUS的函數(shù);因此,例如,響應(yīng)時(shí)間可 通過(guò)多個(gè)VUS來(lái)調(diào)整。相反,如果與客戶機(jī)用戶代理相關(guān)聯(lián)的特定VUS 與系統(tǒng)所認(rèn)為是人類(lèi)用戶的相關(guān)聯(lián),此客戶機(jī)用戶代理可接收優(yōu)選的內(nèi) 容,接收更高質(zhì)量的服務(wù),且被路由到高性能的服務(wù)器集,等等。
應(yīng)認(rèn)識(shí)到,與試圖確定給定的客戶機(jī)用戶代理簽名是否是機(jī)器人相 反,以上描述的機(jī)器人分析功能關(guān)注于確定用戶代理是否與"人類(lèi)"用戶 相關(guān)聯(lián)。目標(biāo)為識(shí)別有效用戶的此方法是有高度優(yōu)勢(shì)的,因?yàn)?一旦機(jī)器 人被識(shí)別出來(lái))機(jī)器人開(kāi)發(fā)者能夠輕易地改變機(jī)器人簽名以掩飾其身份。 這里描述的技術(shù)是基于這樣的前提,即系統(tǒng)給出用戶代理信用,用于以 (從人類(lèi)用戶的視點(diǎn))看起來(lái)正常的方式與給定站點(diǎn)相互作用,不過(guò),通常,VUS將取決于的是,用戶代理被發(fā)現(xiàn)在多個(gè)支持CDN的站點(diǎn)(或域) 上已經(jīng)展示了這樣的"正常"人類(lèi)行為,這也許是在某個(gè)時(shí)間段而言,或 根據(jù)傾向于顯示這樣的正常行為的某個(gè)其它準(zhǔn)則而言。所以,如果用戶代
理在一個(gè)站點(diǎn)上看起來(lái)"正常"(即,人類(lèi)),這不意味著用戶代理與高 VUS相關(guān)聯(lián);而應(yīng)是,此用戶代理應(yīng)該被發(fā)現(xiàn)在多個(gè)站點(diǎn)/域上看起來(lái)"正 常",這可能是在某個(gè)給定時(shí)間段上而言。這樣,隨著用戶代理與一個(gè)或 更多站點(diǎn)/域相互作用,可期望系統(tǒng)增加其對(duì)用戶代理真正與人類(lèi)用戶相 關(guān)聯(lián)的"置信"。在進(jìn)行此判斷時(shí),什么是或不是"正常"(人類(lèi))行為可 在站點(diǎn)/域上不同,因此,對(duì)于站點(diǎn)A, 一組行動(dòng)是正常的,而在站點(diǎn)B, 另一組行動(dòng)是正常的。
"機(jī)器人"減緩功能可用于其它類(lèi)型的站點(diǎn)。因此,例如,"基于朋 友"的社交網(wǎng)站經(jīng)常被感染"朋友-機(jī)器人",其是試圖請(qǐng)求與合法用戶建 立朋友關(guān)系的自動(dòng)實(shí)體。以上描述的機(jī)器人分析和減緩技術(shù)在此情況中也 是有用的。這里,機(jī)器人分析尋找表示朋友-機(jī)器人的某些因素,例如, 一用戶代理,其不進(jìn)行其它操作就只訪問(wèn)(合法)用戶概要文件,從那些 概要文件中挖取用戶ID或其它信息,并隨即將用戶添加到用戶代理的"朋 友"。這樣的"朋友添加"動(dòng)作很可能與朋友-機(jī)器人相關(guān)聯(lián)。因此,CDN 服務(wù)提供商可向社交網(wǎng)站客戶提供VUS (或某個(gè)等價(jià)數(shù)據(jù)),其反映了服 務(wù)提供商對(duì)特定用戶代理是"朋友-機(jī)器人"或某個(gè)其它不期望的自動(dòng)實(shí) 體(例如消息機(jī)器人)的置信。
以上例子說(shuō)明了用于CDN客戶站點(diǎn)的特定機(jī)器人-揭示活動(dòng)將取決 于用戶代理如何試圖與站點(diǎn)相互作用。無(wú)論此如何實(shí)現(xiàn),這里描述的數(shù)據(jù) 系統(tǒng)可用于提供相關(guān)聯(lián)的機(jī)器人減緩。
這里描述的數(shù)據(jù)系統(tǒng)也可僅用于將給定用戶代理標(biāo)記為可疑。在一個(gè) 站點(diǎn)上對(duì)用戶代理收集的數(shù)據(jù)可用于分析和預(yù)測(cè)它們?cè)谄渌军c(diǎn)上的行 為。因此,在票務(wù)機(jī)器人實(shí)例中(不意味著是限制),在票務(wù)站點(diǎn)A,由 其VUS識(shí)別票務(wù)機(jī)器人。獨(dú)立地,可以確定在站點(diǎn)A的高度活躍的用戶 和其它票務(wù)站點(diǎn)的高度活躍的用戶之間存在很強(qiáng)的關(guān)聯(lián)。在這種情況下,
系統(tǒng)建立站點(diǎn)A的這樣的用戶的列表,并隨即使用此列表用于另一票務(wù)站點(diǎn)的才幾器人預(yù)測(cè)。
本數(shù)據(jù)系統(tǒng)也可用于識(shí)別和減緩其它類(lèi)型的在線站點(diǎn)欺詐,例如點(diǎn)擊 欺詐、搜索引擎欺詐等等。
正如同時(shí)注意到的,CDN服務(wù)提供商也可以為了之前已經(jīng)描述的一
個(gè)或更多實(shí)體(例如,內(nèi)容提供商、廣告服務(wù)實(shí)體等等)提供聯(lián)合服務(wù)。 已經(jīng)描述了本發(fā)明,我們現(xiàn)在要求如下權(quán)利。
權(quán)利要求
1. 一種在基于互聯(lián)網(wǎng)的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)中的方法,在所述內(nèi)容分發(fā)網(wǎng)絡(luò)中,參與的內(nèi)容提供商CDN客戶分流給定的內(nèi)容以從由內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商管理的內(nèi)容服務(wù)器分發(fā),所述方法包括在由所述內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商管理的多個(gè)內(nèi)容提供商域上追蹤客戶機(jī)用戶代理;以及使用由所述追蹤產(chǎn)生的信息來(lái)給參與的內(nèi)容提供商提供服務(wù)。
2. 如權(quán)利要求l所述的方法,其中所述服務(wù)提供所述客戶機(jī)用戶代 理的概要文件給所述參與的內(nèi)容提供商。
3. 如權(quán)利要求l所述的方法,其中,所述服務(wù)提供數(shù)據(jù)給所述參與 的內(nèi)容提供商,所述數(shù)據(jù)是所述內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商對(duì)所述客戶機(jī)用 戶代理與人類(lèi)用戶相關(guān)聯(lián)的置信的函數(shù)。
4. 如權(quán)利要求3所述的方法,其中,所述數(shù)據(jù)由一組因素影響。
5. 如權(quán)利要求4所述的方法,其中,所述一組因素包括下列項(xiàng)之一 由所述客戶機(jī)用戶代理訪問(wèn)的CDN域的多樣性、關(guān)于與給定的內(nèi)容提供 商域相關(guān)聯(lián)的一個(gè)或更多頁(yè)面的購(gòu)買(mǎi)頁(yè)面與目錄頁(yè)面比率、自上次瀏覽會(huì) 話已經(jīng)過(guò)去的時(shí)間量、在當(dāng)前瀏覽會(huì)話期間所述客戶機(jī)用戶代理已經(jīng)在線 的時(shí)間量和在給定時(shí)間段內(nèi)與所述客戶機(jī)用戶代理相關(guān)聯(lián)的IP地址的數(shù) 量。
6. 如權(quán)利要求3所述的方法,其進(jìn)一步包括以下步驟及動(dòng),如果所述客戶機(jī)用戶代理被確定為是自動(dòng)化的代理,則采取緩解行
7.如權(quán)利要求l所述的方法,其中,所述服務(wù)向所述參與的內(nèi)容提 供商提供關(guān)于在第二參與的內(nèi)容提供商的內(nèi)容提供商域上追蹤所述客戶 機(jī)用戶代理的信息,其中,所述第二參與的內(nèi)容提供商與所述參與的內(nèi)容提供商具有商業(yè)關(guān)系。
8. 如權(quán)利要求l所述的方法,其中,所述服務(wù)向所述參與的內(nèi)容提供商提供信息,以利于廣告分發(fā)。
9. 如權(quán)利要求l所述的方法,其中,所述服務(wù)向所述參與的內(nèi)容提 供商提供信息,用于對(duì)商品竟價(jià)算法的輸入。
10. 如權(quán)利要求l所述的方法,其中,提供所述服務(wù)給所述參與的內(nèi) 容提供商,以收取費(fèi)用。
11. 一種在基于互聯(lián)網(wǎng)的內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)中的系統(tǒng),在所述 內(nèi)容分發(fā)網(wǎng)絡(luò)中,參與的內(nèi)容提供商CDN客戶分流給定的內(nèi)容,以從由 內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商管理的CDN內(nèi)容服務(wù)器分發(fā),其中,CDN內(nèi)容 服務(wù)器負(fù)責(zé)提供來(lái)自多個(gè)內(nèi)容提供商域的內(nèi)容,所述內(nèi)容提供商域由所述 內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商管理,所述系統(tǒng)包括追蹤機(jī)構(gòu),其與內(nèi)容服務(wù)器相關(guān)聯(lián),用于從所述內(nèi)容服務(wù)器在多個(gè)內(nèi) 容提供商域上追蹤客戶機(jī)用戶代理,所述多個(gè)內(nèi)容提供商域由所述內(nèi)容分 發(fā)網(wǎng)絡(luò)服務(wù)提供商管理;數(shù)據(jù)收集和處理機(jī)構(gòu),用于接收和處理由內(nèi)容服務(wù)器追蹤機(jī)構(gòu)產(chǎn)生的 客戶機(jī)用戶代理追蹤數(shù)據(jù);以及數(shù)據(jù)檢索機(jī)構(gòu),其耦合到所述數(shù)據(jù)收集和處理機(jī)構(gòu),用于提供信息給 第一參與的內(nèi)容提供商。
12. 如權(quán)利要求11所述的系統(tǒng),其中所述數(shù)據(jù)檢索機(jī)構(gòu)提供所述客 戶機(jī)用戶代理的扭克要文件。
13. 如權(quán)利要求11所述的系統(tǒng),其中所述數(shù)據(jù)檢索機(jī)構(gòu)提供記分, 所述記分是所述內(nèi)容分發(fā)網(wǎng)絡(luò)服務(wù)提供商對(duì)所述客戶機(jī)用戶代理與人類(lèi) 用戶相關(guān)聯(lián)的置信的函數(shù)。
14. 如權(quán)利要求11所述的系統(tǒng),其中所述數(shù)據(jù)檢索機(jī)構(gòu)在第二參與 的內(nèi)容提供商的內(nèi)容提供商域上追蹤所述客戶機(jī)用戶代理,其中,所述第 二參與的內(nèi)容提供商與所述第一參與的內(nèi)容提供商具有商業(yè)關(guān)系。
全文摘要
內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)服務(wù)提供商擴(kuò)展內(nèi)容分發(fā)網(wǎng)絡(luò),以在可原子地識(shí)別的網(wǎng)絡(luò)客戶端(稱為“用戶代理”)在由CDN服務(wù)提供商所管理的不同域上與CDN相互作用時(shí),收集有關(guān)這樣的計(jì)算機(jī)實(shí)現(xiàn)的實(shí)體的信息。在一種實(shí)施方式中,一組機(jī)器、進(jìn)程、程序和數(shù)據(jù)構(gòu)成數(shù)據(jù)系統(tǒng)。數(shù)據(jù)系統(tǒng)優(yōu)選地通過(guò)cookie追蹤用戶代理,雖然可使用一種或更多被動(dòng)技術(shù)。用戶代理可以是具有cookie存儲(chǔ)器的有cookie能力的設(shè)備。在用戶代理在站點(diǎn)間瀏覽時(shí),生成了系統(tǒng)用于關(guān)聯(lián)用戶代理的CDN專用唯一標(biāo)識(shí)符。優(yōu)選地,唯一標(biāo)識(shí)符存儲(chǔ)為加密的cookie。唯一的標(biāo)識(shí)符代表一個(gè)用戶代理(并因此代表一個(gè)有cookie能力的設(shè)備的存儲(chǔ)器)。系統(tǒng)在由CDN提供服務(wù)的客戶站點(diǎn)上并在這些站點(diǎn)之間追蹤客戶代理行為,且這些行為被分類(lèi)到可識(shí)別的“片段”中,其可用于產(chǎn)生概要文件。CDN客戶使用數(shù)據(jù)系統(tǒng)來(lái)獲得辨認(rèn)用戶代理的信息。
文檔編號(hào)G06F15/16GK101523379SQ200780038365
公開(kāi)日2009年9月2日 申請(qǐng)日期2007年8月18日 優(yōu)先權(quán)日2006年8月18日
發(fā)明者F·湯姆森·雷頓, 布萊恩·J·曼庫(kù)索, 肯·G·埃瓦莫圖, 蒂莫西·P·約翰遜, 邁克爾·M·阿福根 申請(qǐng)人:阿卡麥科技公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1