在互聯(lián)網(wǎng)中,信息的重復(fù)性是在所難免的。然而,搜索引擎怎樣識(shí)別重復(fù)信息?怎樣判斷哪些網(wǎng)頁的信息是原創(chuàng)的?哪些是復(fù)制的?怎樣認(rèn)為哪些重復(fù)的信息是有價(jià)值的?哪些又是可以舍棄的呢?
在網(wǎng)站中,重復(fù)信息主要包括轉(zhuǎn)載和鏡像內(nèi)容兩大類。搜索引擎對(duì)頁面分析的時(shí)候,必須具備是被重復(fù)信息的能力。因?yàn)榇罅康闹貜?fù)信息不但占用巨大的服務(wù)器資源,而且還增加了用戶尋找信息的時(shí)間,降低了用戶體驗(yàn)。但這并不意味著所有重復(fù)信息都是沒有用的。搜索引擎會(huì)認(rèn)為轉(zhuǎn)載內(nèi)容沒有原創(chuàng)重要,賦予原創(chuàng)內(nèi)容更高的權(quán)重,而鏡像內(nèi)容則幾乎忽略。

轉(zhuǎn)載頁面是指與原創(chuàng)內(nèi)容相同或相近的頁面。然而,搜索引擎如何識(shí)別轉(zhuǎn)載頁面呢?首先,它把網(wǎng)頁正文內(nèi)容分為n個(gè)區(qū)域進(jìn)行比較,如果其中有m個(gè)區(qū)域是相同或相似的,則認(rèn)為這些頁面是互為轉(zhuǎn)載頁面。
在確定頁面的轉(zhuǎn)載關(guān)系后,接下來,搜索引擎在結(jié)合頁面的最后修改時(shí)間,頁面權(quán)重等因素判斷原創(chuàng)頁面與轉(zhuǎn)載頁面。
鏡像頁面是指內(nèi)容完全相同的兩個(gè)頁面。和上述一樣,把內(nèi)容分出n個(gè)區(qū)域,比對(duì)吼n個(gè)區(qū)域完全一樣則互為鏡像頁面。
鏡像網(wǎng)站。下一上完全相同的網(wǎng)站,形成鏡像網(wǎng)站主要有兩種情況。一個(gè)多個(gè)域名或IP指向同一服務(wù)器的物理目錄。另外就是整個(gè)網(wǎng)站內(nèi)容被復(fù)制到使用不同域名或者不同IP的服務(wù)器上。
為了識(shí)別站點(diǎn)間是否互為鏡像網(wǎng)站搜索引擎首先判斷這些網(wǎng)站的首頁是否互為鏡像。然后綜合頁面權(quán)重,建立時(shí)間等諸多因素識(shí)別源網(wǎng)站。這也是為什么搜索引擎對(duì)于鏡像網(wǎng)站收錄極少,甚至不收錄的原因。



皖公網(wǎng)安備 34010202600669



