從搜索引擎角度分析網(wǎng)頁(yè)蜘蛛抓取內(nèi)容的類別與過(guò)程
從搜索引擎的角度來(lái)看,互聯(lián)網(wǎng)上的網(wǎng)頁(yè)主要分為四類,即被抓取的網(wǎng)頁(yè)、被抓取的內(nèi)容、可抓取的網(wǎng)頁(yè)和暗網(wǎng)。
顧名思義,爬網(wǎng)網(wǎng)頁(yè)是蜘蛛已經(jīng)爬網(wǎng)的網(wǎng)頁(yè)內(nèi)容。要爬網(wǎng)的網(wǎng)頁(yè)尚未爬網(wǎng),但已進(jìn)入等待列表。爬行是一個(gè)尚未被發(fā)現(xiàn)但已經(jīng)存在的網(wǎng)頁(yè)。暗網(wǎng)是一個(gè)網(wǎng)頁(yè),搜索引擎無(wú)法通過(guò)自爬網(wǎng)找到一個(gè)鏈接,需要手動(dòng)提交。
平時(shí)我們分析的頁(yè)面抓取主要是非黑網(wǎng)絡(luò)中的頁(yè)面抓取。每個(gè)搜索引擎在黑暗的網(wǎng)絡(luò)抓取都有自己獨(dú)到的算法。我們不做太多分析。
搜索引擎收錄有兩種主要策略,即廣度優(yōu)先策略和深度優(yōu)先策略。
大多數(shù)網(wǎng)頁(yè)除了有自己的鏈接外,還會(huì)有很多鏈接,如相關(guān)新聞、相關(guān)案例和其他詳細(xì)信息頁(yè)面的鏈接。當(dāng)一個(gè)搜索引擎訪問(wèn)一個(gè)頁(yè)面時(shí),頁(yè)面上的所有鏈接都將被存儲(chǔ)并按順序排列,然后遍歷并抓取發(fā)現(xiàn)的頁(yè)面,然后將新發(fā)現(xiàn)的URL放入存儲(chǔ)并按此邏輯排列等待抓取,抓取是廣度優(yōu)先的策略。讓我們用圖片和文字來(lái)了解自己。
根據(jù)頁(yè)面的一個(gè)鏈接,我們可以逐層抓取它,直到到達(dá)鏈接的末尾,然后返回到初始位置,以同樣的方式抓取其余的鏈接,這是深度優(yōu)先的策略。
無(wú)論是廣度優(yōu)先還是深度優(yōu)先,搜索引擎只要有足夠的時(shí)間就可以捕獲所有的頁(yè)面,但搜索引擎的抓取能量是優(yōu)先的,這不能保證抓取頁(yè)面的全面性。由于搜索引擎受到自身資源的限制,它們不能忽視獲取頁(yè)面優(yōu)先級(jí)的問(wèn)題。還有另外兩種搶奪策略。
判斷網(wǎng)頁(yè)的重要性,搜索引擎主要從自身的質(zhì)量和權(quán)重來(lái)判斷。另一個(gè)重要因素是導(dǎo)入鏈接的數(shù)量。例如,主頁(yè)的導(dǎo)入鏈接必須從頁(yè)數(shù)開(kāi)始,因此主頁(yè)的優(yōu)先級(jí)相對(duì)較高。
很明顯,大網(wǎng)站的優(yōu)先權(quán)是一組搜索者對(duì)大網(wǎng)站有偏好,并且他們自己的權(quán)重相對(duì)較高。這里的不僅在于PR,還在于信任。并不是說(shuō)人的力量很大,而且權(quán)重也很高,搜索引擎很喜歡。很多B2B網(wǎng)站的內(nèi)容量很大,但是搜索引擎不擅長(zhǎng)抓取頁(yè)面內(nèi)容,相對(duì)來(lái)說(shuō),一些比較好的網(wǎng)站可以有很好的主動(dòng)性,所以新聞可以增加主動(dòng)性,而且在發(fā)送到大站的主頁(yè)時(shí)也可以實(shí)現(xiàn)二次接收。
總之,搜索引擎的資源是有限的。在搜索引擎資源有限的情況下,我們應(yīng)該盡可能依靠外部鏈接來(lái)引導(dǎo)蜘蛛,提高網(wǎng)站的權(quán)重,這是SEO搜索引擎優(yōu)化長(zhǎng)期運(yùn)行中很重要的事情。
想了解更多SEO技術(shù)的內(nèi)容,請(qǐng)?jiān)L問(wèn):SEO技術(shù)
本文來(lái)源:http://gagu89.com/seodongtai/14545.html