日本国产欧美视频在线观看-天天干天天操激情四射-亚洲日本一区二区三区在线不卡-亚洲黄色成人不卡视频

深入分析搜索引擎優(yōu)化的去重原理

發(fā)布時(shí)間:2022-07-19
18:01:17
分享到:  

搜索引擎為什么要進(jìn)行去重操作?

不管是那種搜索引擎,百度也好、搜狗也罷希望的都是呈現(xiàn)給用戶新穎且優(yōu)質(zhì)的內(nèi)容,而不是“換湯不換藥”湊數(shù)量的,有句話說(shuō)得好:“群眾的眼睛是雪亮的”。如果一個(gè)搜索引擎都是后面這種類型的文章,久而久之自然不會(huì)再有人使用。

我們?cè)?/span>做搜索引擎優(yōu)化的過(guò)程中,離不開內(nèi)容的編輯,而搜索引擎的知識(shí)點(diǎn)說(shuō)開了就那么點(diǎn),說(shuō)來(lái)說(shuō)去很多人都在用,這就導(dǎo)致了互聯(lián)網(wǎng)中搜索相關(guān)的信息很多都是重復(fù)的。

其實(shí)這都還好,如果只是個(gè)別地方雷同沒(méi)什么大問(wèn)題。如果一個(gè)網(wǎng)站存在大量復(fù)制他人內(nèi)容、惡劣采集內(nèi)容且不加以修改的話,不僅會(huì)影響用戶體驗(yàn)甚至還會(huì)讓搜索引擎認(rèn)為該網(wǎng)站是個(gè)劣質(zhì)網(wǎng)站,從而屏蔽拉黑,且日后不在抓取網(wǎng)站上的任何內(nèi)容。

搜索引擎抓取網(wǎng)站是很重要的過(guò)程,網(wǎng)站收錄、關(guān)鍵詞排名都要依靠抓取,不能輕視,至于為什么這么重要,了解下面的搜索引擎工作原理后就清楚了。

 

1、搜索引擎工作原理

官方話術(shù):搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。

其過(guò)程主要分為四個(gè)步驟:

第一步:爬取

可以將搜索引擎理解為一種通過(guò)特定規(guī)律的軟件或者追蹤頁(yè)面鏈接的工具,,從一個(gè)鏈接爬到另外一個(gè)鏈接,涉及的范圍很廣跟蜘蛛編制的網(wǎng)一樣,所以搜索引擎抓取網(wǎng)站的時(shí)候又被稱為“蜘蛛爬取”,還有一種叫法是“機(jī)器人”。

“蜘蛛”爬取網(wǎng)站后將所識(shí)別的內(nèi)容傳回到搜索引擎中,由搜索引擎進(jìn)行后續(xù)的一系列評(píng)分、判斷優(yōu)劣等等,如果沒(méi)有搜索引擎派出的“蜘蛛”爬取網(wǎng)站,那么搜索引擎可能連你的網(wǎng)站存不存在都不知道。

 

搜索引擎優(yōu)化的原理


第二步:抓取存儲(chǔ)

蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè),并將爬行之后的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)(也就是搜索引擎)。

蜘蛛在爬取頁(yè)面時(shí),會(huì)進(jìn)行比較簡(jiǎn)單的查重處理,像那些存在大量抄襲、采集內(nèi)容的網(wǎng)站,“蜘蛛”會(huì)降低爬取的次數(shù),直至不在爬取任何內(nèi)容。

過(guò)了“蜘蛛”這關(guān)的內(nèi)容數(shù)據(jù),則會(huì)由“蜘蛛”傳到搜索引擎中,由他們進(jìn)行下一步的處理。

 

第三步:預(yù)處理

搜索引擎將蜘蛛抓取回來(lái)的頁(yè)面、文件等各種信息,進(jìn)行各種步驟的預(yù)處理,如:html頁(yè)面文件、pdf、word、wps、xls、ppt、txt文件等。這些文件在搜索結(jié)果中都是可以看見的。

不過(guò)“蜘蛛”也有不能識(shí)別的內(nèi)容,如:圖片、視頻、Flash等這些非文字類腳本或程序(html代碼是可以識(shí)別的)。無(wú)法識(shí)別不代表不會(huì)抓取,同樣的這些識(shí)別不出來(lái)的內(nèi)容還是會(huì)傳到搜索引擎中,如果連搜索引擎也無(wú)法識(shí)別那么就有制造低質(zhì)量?jī)?nèi)容的嫌疑。

 

第四步:排名

在“蜘蛛”將內(nèi)容傳到搜索引擎之后,經(jīng)過(guò)預(yù)處理得出最后的評(píng)分,這評(píng)分關(guān)系著網(wǎng)站的排名情況,當(dāng)用戶在搜索框輸入關(guān)鍵詞后排名程序調(diào)用索引庫(kù)數(shù)據(jù),將排名顯示給用戶。

關(guān)鍵詞排名每日都會(huì)有小的更新,有時(shí)就能看到上午還在前幾位,下午有時(shí)就排在首頁(yè)末尾處了,不過(guò)這種影響不是很大。一般情況下搜索引擎的排名規(guī)則是根據(jù)日、周、月三個(gè)階段進(jìn)行不同程度的調(diào)整。所以有時(shí)候關(guān)鍵詞排名下降了,有可能是搜索引擎調(diào)整的問(wèn)題。

 

2、網(wǎng)頁(yè)去重的代表性方法

搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等(是不是沒(méi)想到搜索引擎還可為分為這么多種類吧?)。

而搜索引擎的去重工作一般在“分詞”之后“索引”之前,搜索引擎會(huì)在頁(yè)面已經(jīng)分出的關(guān)鍵詞中,提取部分具有代表性的關(guān)鍵詞進(jìn)行計(jì)算,從而得出這個(gè)網(wǎng)站中關(guān)鍵詞的特征,目前搜索引擎去重的方法主要有3種:

1)聚類。

這種方式是以網(wǎng)站頁(yè)面內(nèi)容中每6763個(gè)漢字作為定量,在這6763個(gè)漢字中出現(xiàn)的某組或者某個(gè)漢字頻率的高低去計(jì)算相似度,以此確定網(wǎng)站是否有相同的頁(yè)面。

2)排除相同鏈接。

元搜索引擎去重主要采用此方法。通過(guò)“蜘蛛”從不同的地方收集網(wǎng)頁(yè)鏈接進(jìn)行判斷, 鏈接相同,則被認(rèn)為是相同的網(wǎng)頁(yè)。

3)特征碼的方法。

這種方法是利用內(nèi)容中出現(xiàn)的每個(gè)標(biāo)點(diǎn)符號(hào),進(jìn)行判斷重復(fù)率。如以句號(hào)兩邊各5 個(gè)漢字作為特征碼來(lái)進(jìn)行查驗(yàn)內(nèi)容的重復(fù)度。

 

搜索引擎去重所使用的方法


這3種去重方法中,第1種和第2種大多數(shù)還是基于內(nèi)容來(lái)進(jìn)行判斷的,這兩種類型的去重有很明顯的漏洞,所以很多人在做搜索引擎優(yōu)化時(shí)往往會(huì)利用到這點(diǎn)而進(jìn)行偽原創(chuàng),這樣做也不是不可以,但是要保證偽原創(chuàng)的內(nèi)容質(zhì)量要高,才能利于排名、收錄。


熱門標(biāo)簽

撥打電話 復(fù)制微信

微信號(hào):18680393646

添加微信好友,免費(fèi)獲取報(bào)價(jià)
福海县| 莒南县| 平顺县| 晋中市| 南雄市| 鲜城| 卢龙县| 鄂伦春自治旗| 洱源县| 南京市| 南和县| 蒲城县| 丰城市| 峨山| 措美县| 怀来县| 彭山县| 枣强县| 大冶市| 崇州市| 舟曲县| 仲巴县| 凯里市| 化州市| 平度市| 涟水县| 桐庐县| 秦皇岛市| 长治市| 团风县| 肥城市| 七台河市| 台中市| 宁乡县| 贵州省| 麟游县| 浦北县| 柳州市| 平泉县| 建水县| 宜兴市|