日本国产欧美视频在线观看-天天干天天操激情四射-亚洲日本一区二区三区在线不卡-亚洲黄色成人不卡视频

免費(fèi)獲取方案

相關(guān)知識(shí)

產(chǎn)品推薦

深入分析搜索引擎優(yōu)化的去重原理

搜索引擎為什么要進(jìn)行去重操作？

不管是那種搜索引擎，百度也好、搜狗也罷希望的都是呈現(xiàn)給用戶新穎且優(yōu)質(zhì)的內(nèi)容，而不是“換湯不換藥”湊數(shù)量的，有句話說(shuō)得好：“群眾的眼睛是雪亮的”。如果一個(gè)搜索引擎都是后面這種類型的文章，久而久之自然不會(huì)再有人使用。

我們?cè)?/span>做搜索引擎優(yōu)化的過(guò)程中，離不開內(nèi)容的編輯，而搜索引擎的知識(shí)點(diǎn)說(shuō)開了就那么點(diǎn)，說(shuō)來(lái)說(shuō)去很多人都在用，這就導(dǎo)致了互聯(lián)網(wǎng)中搜索相關(guān)的信息很多都是重復(fù)的。

其實(shí)這都還好，如果只是個(gè)別地方雷同沒(méi)什么大問(wèn)題。如果一個(gè)網(wǎng)站存在大量復(fù)制他人內(nèi)容、惡劣采集內(nèi)容且不加以修改的話，不僅會(huì)影響用戶體驗(yàn)甚至還會(huì)讓搜索引擎認(rèn)為該網(wǎng)站是個(gè)劣質(zhì)網(wǎng)站，從而屏蔽拉黑，且日后不在抓取網(wǎng)站上的任何內(nèi)容。

搜索引擎抓取網(wǎng)站是很重要的過(guò)程，網(wǎng)站收錄、關(guān)鍵詞排名都要依靠抓取，不能輕視，至于為什么這么重要，了解下面的搜索引擎工作原理后就清楚了。

1、搜索引擎工作原理

官方話術(shù)：搜索引擎是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息，在對(duì)信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶的系統(tǒng)。

其過(guò)程主要分為四個(gè)步驟：

第一步：爬取

可以將搜索引擎理解為一種通過(guò)特定規(guī)律的軟件或者追蹤頁(yè)面鏈接的工具，，從一個(gè)鏈接爬到另外一個(gè)鏈接，涉及的范圍很廣跟蜘蛛編制的網(wǎng)一樣，所以搜索引擎抓取網(wǎng)站的時(shí)候又被稱為“蜘蛛爬取”，還有一種叫法是“機(jī)器人”。

“蜘蛛”爬取網(wǎng)站后將所識(shí)別的內(nèi)容傳回到搜索引擎中，由搜索引擎進(jìn)行后續(xù)的一系列評(píng)分、判斷優(yōu)劣等等，如果沒(méi)有搜索引擎派出的“蜘蛛”爬取網(wǎng)站，那么搜索引擎可能連你的網(wǎng)站存不存在都不知道。

搜索引擎優(yōu)化的原理

第二步：抓取存儲(chǔ)

蜘蛛跟蹤鏈接爬行到網(wǎng)頁(yè)，并將爬行之后的數(shù)據(jù)存入原始頁(yè)面數(shù)據(jù)庫(kù)（也就是搜索引擎）。

蜘蛛在爬取頁(yè)面時(shí)，會(huì)進(jìn)行比較簡(jiǎn)單的查重處理，像那些存在大量抄襲、采集內(nèi)容的網(wǎng)站，“蜘蛛”會(huì)降低爬取的次數(shù)，直至不在爬取任何內(nèi)容。

過(guò)了“蜘蛛”這關(guān)的內(nèi)容數(shù)據(jù)，則會(huì)由“蜘蛛”傳到搜索引擎中，由他們進(jìn)行下一步的處理。

第三步：預(yù)處理

搜索引擎將蜘蛛抓取回來(lái)的頁(yè)面、文件等各種信息，進(jìn)行各種步驟的預(yù)處理，如：html頁(yè)面文件、pdf、word、wps、xls、ppt、txt文件等。這些文件在搜索結(jié)果中都是可以看見的。

不過(guò)“蜘蛛”也有不能識(shí)別的內(nèi)容，如：圖片、視頻、Flash等這些非文字類腳本或程序（html代碼是可以識(shí)別的）。無(wú)法識(shí)別不代表不會(huì)抓取，同樣的這些識(shí)別不出來(lái)的內(nèi)容還是會(huì)傳到搜索引擎中，如果連搜索引擎也無(wú)法識(shí)別那么就有制造低質(zhì)量?jī)?nèi)容的嫌疑。

第四步：排名

在“蜘蛛”將內(nèi)容傳到搜索引擎之后，經(jīng)過(guò)預(yù)處理得出最后的評(píng)分，這評(píng)分關(guān)系著網(wǎng)站的排名情況，當(dāng)用戶在搜索框輸入關(guān)鍵詞后排名程序調(diào)用索引庫(kù)數(shù)據(jù)，將排名顯示給用戶。

關(guān)鍵詞排名每日都會(huì)有小的更新，有時(shí)就能看到上午還在前幾位，下午有時(shí)就排在首頁(yè)末尾處了，不過(guò)這種影響不是很大。一般情況下搜索引擎的排名規(guī)則是根據(jù)日、周、月三個(gè)階段進(jìn)行不同程度的調(diào)整。所以有時(shí)候關(guān)鍵詞排名下降了，有可能是搜索引擎調(diào)整的問(wèn)題。

2、網(wǎng)頁(yè)去重的代表性方法

搜索引擎包括全文索引、目錄索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、門戶搜索引擎與免費(fèi)鏈接列表等（是不是沒(méi)想到搜索引擎還可為分為這么多種類吧？）。

而搜索引擎的去重工作一般在“分詞”之后“索引”之前，搜索引擎會(huì)在頁(yè)面已經(jīng)分出的關(guān)鍵詞中，提取部分具有代表性的關(guān)鍵詞進(jìn)行計(jì)算，從而得出這個(gè)網(wǎng)站中關(guān)鍵詞的特征，目前搜索引擎去重的方法主要有3種：

1)聚類。

這種方式是以網(wǎng)站頁(yè)面內(nèi)容中每6763個(gè)漢字作為定量，在這6763個(gè)漢字中出現(xiàn)的某組或者某個(gè)漢字頻率的高低去計(jì)算相似度，以此確定網(wǎng)站是否有相同的頁(yè)面。

2）排除相同鏈接。

元搜索引擎去重主要采用此方法。通過(guò)“蜘蛛”從不同的地方收集網(wǎng)頁(yè)鏈接進(jìn)行判斷, 鏈接相同，則被認(rèn)為是相同的網(wǎng)頁(yè)。

3）特征碼的方法。

這種方法是利用內(nèi)容中出現(xiàn)的每個(gè)標(biāo)點(diǎn)符號(hào)，進(jìn)行判斷重復(fù)率。如以句號(hào)兩邊各5 個(gè)漢字作為特征碼來(lái)進(jìn)行查驗(yàn)內(nèi)容的重復(fù)度。

搜索引擎去重所使用的方法

這3種去重方法中，第1種和第2種大多數(shù)還是基于內(nèi)容來(lái)進(jìn)行判斷的，這兩種類型的去重有很明顯的漏洞，所以很多人在做搜索引擎優(yōu)化時(shí)往往會(huì)利用到這點(diǎn)而進(jìn)行偽原創(chuàng)，這樣做也不是不可以，但是要保證偽原創(chuàng)的內(nèi)容質(zhì)量要高，才能利于排名、收錄。

熱門標(biāo)簽

上一篇：如何利用內(nèi)頁(yè)去做SEO優(yōu)化下一篇：優(yōu)化網(wǎng)站關(guān)鍵詞排名的幾個(gè)技巧知識(shí)點(diǎn)

返回列表