百度SEO:百度搜索的工作原理
搜索引擎是根據(jù)用戶需求,運(yùn)用特定策略從互聯(lián)網(wǎng)海量數(shù)據(jù)中提取對(duì)用戶有價(jià)值內(nèi)容的一種技術(shù)。對(duì)資源生產(chǎn)方而言可以簡(jiǎn)化為三步:從互聯(lián)網(wǎng)抓取網(wǎng)頁、建立索引數(shù)據(jù)庫、將索引庫中數(shù)據(jù)展現(xiàn)給用戶。
網(wǎng)站抓?。涸诨ヂ?lián)網(wǎng)中發(fā)現(xiàn)、搜集網(wǎng)頁信息;
建立索引:對(duì)信息進(jìn)行提取和組織建立索引庫;
結(jié)果呈現(xiàn):用戶輸入的查詢關(guān)鍵字,在索引庫中快速檢出文檔進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序并將查詢結(jié)果返回給用戶。
一.網(wǎng)站抓取
Spider抓取系統(tǒng)作為整個(gè)搜索系統(tǒng)中的上游,主要負(fù)責(zé)互聯(lián)網(wǎng)信息的搜集、更新環(huán)節(jié),它像蜘蛛一樣在網(wǎng)絡(luò)間爬來爬去,因此通常會(huì)被叫做Spider。例如我們常用的幾家通用搜索引擎蜘蛛被叫做:Baiduspider、Googlebot、Sogou Web Spider等。
Spider抓取系統(tǒng)是搜索引擎數(shù)據(jù)來源的重要保證,它從一些重要的種子URL開始通過頁面上的超鏈接關(guān)系不斷的發(fā)現(xiàn)新URL并抓取,盡最大可能抓取到更多的有價(jià)值網(wǎng)頁。對(duì)于類似百度這樣的大型Spider系統(tǒng),因?yàn)槊繒r(shí)每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能,因此還要對(duì)Spider過去抓取過的頁面保持更新。
當(dāng)Baiduspider無法正常抓取時(shí),會(huì)出現(xiàn)抓取異常。對(duì)于大量?jī)?nèi)容無法正常抓取的網(wǎng)站,搜索引擎會(huì)認(rèn)為網(wǎng)站存在用戶體驗(yàn)上的缺陷并降低對(duì)網(wǎng)站的評(píng)價(jià),抓取、索引、權(quán)重上都會(huì)受到一定程度的負(fù)面影響,最終影響到網(wǎng)站從百度獲取的流量;
抓取過程中Baiduspider會(huì)根據(jù)網(wǎng)站內(nèi)容更新頻率和服務(wù)器壓力等因素自動(dòng)調(diào)整抓取頻次。如果搜索引擎對(duì)站點(diǎn)抓取超過服務(wù)壓力,網(wǎng)站可以通過抓取頻次工具進(jìn)行調(diào)節(jié)。如果有不想被搜索引擎抓取的部分或者指定搜索引擎只抓取特定的部分,可以進(jìn)行Robots設(shè)置;同時(shí)為了提升百度蜘蛛抓取數(shù)據(jù)的效率,我們可以通過收錄工具將資源主動(dòng)提交給百度;
二.建庫索引
前面Spider進(jìn)行了一輪篩選之后,數(shù)據(jù)量依然巨大。這時(shí)候由索引系統(tǒng)對(duì)收集回來的網(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息,根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算得到頁面內(nèi)容中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度或重要性信息,然后利用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫,將有價(jià)值的資源保存下來。
2.1新站的站長(zhǎng)常常會(huì)遇到整站未被索引的情況,這種怎么解決?
站點(diǎn)內(nèi)容頁面需要經(jīng)過搜索引擎的抓取和層層篩選后方可在搜索結(jié)果中展現(xiàn)給用戶。Baiduspider抓了多少頁面并不是最重要的,重要的是有多少頁面被建索引庫即我們常說的“建庫”。眾所周知搜索引擎的索引庫是分層級(jí)的,優(yōu)質(zhì)的網(wǎng)頁會(huì)被分配到重要索引庫,普通網(wǎng)頁會(huì)待在普通庫,再差一些的網(wǎng)頁會(huì)被分配到低級(jí)庫,低級(jí)庫展現(xiàn)的機(jī)會(huì)較小。
2.2那么哪些網(wǎng)頁可以進(jìn)入優(yōu)質(zhì)索引庫呢?
其實(shí)總的原則就是一個(gè):對(duì)用戶的價(jià)值。包括不限于:
1、領(lǐng)域垂直聚焦:當(dāng)內(nèi)容生產(chǎn)者在輸出內(nèi)容時(shí),涉及的領(lǐng)域不應(yīng)該過雜,不應(yīng)該浪費(fèi)精力去生產(chǎn)堆砌不熟悉的內(nèi)容。應(yīng)在專業(yè)領(lǐng)域內(nèi)生產(chǎn)專業(yè)的內(nèi)容,聚焦并把最擅長(zhǎng)的內(nèi)容做好,有利于持續(xù)滿足用戶的同類型需求。
2、內(nèi)容質(zhì)量高:表述清晰閱讀順暢 ,文筆用詞用句舒適,行文嚴(yán)謹(jǐn)考究,能體現(xiàn)這個(gè)行業(yè)的專業(yè)性,實(shí)操性強(qiáng)。
3、高價(jià)值原創(chuàng):百度把原創(chuàng)定義為需花費(fèi)一定成本、大量經(jīng)驗(yàn)積累提取后形成的文章。
4、體驗(yàn)舒適使用流暢:排版布局合理,考慮用戶體驗(yàn),不能阻塞用戶的順暢瀏覽,減少不必要的閱讀權(quán)限設(shè)置等。
具體更多的內(nèi)容可以參照優(yōu)質(zhì)內(nèi)容規(guī)范以及百度APP移動(dòng)搜索落地頁體驗(yàn)白皮書5.0
同時(shí)互聯(lián)網(wǎng)上有一部分網(wǎng)站根本沒有被百度索引,可能存在以下原因:
1、重復(fù)內(nèi)容的網(wǎng)頁:互聯(lián)網(wǎng)上已有的內(nèi)容,百度沒有必要再索引
2、主體內(nèi)容空短的網(wǎng)頁
3、違規(guī)作弊站點(diǎn)等
最后我們可以通過索引量工具查看站點(diǎn)中有多少頁面可以作為搜索候選結(jié)果,就是一個(gè)網(wǎng)站的索引量數(shù)據(jù)。
三、結(jié)果呈現(xiàn)
用戶輸入關(guān)鍵詞進(jìn)行檢索,百度搜索引擎在排序環(huán)節(jié)需要做兩方面的事情,第一是把相關(guān)的網(wǎng)頁從索引庫中提取出來,第二是把提取出來的網(wǎng)頁按照不同維度的得分進(jìn)行綜合排序。“不同維度”包括不限于以下幾個(gè)維度,具體可以通過優(yōu)質(zhì)內(nèi)容規(guī)范了解;
1、相關(guān)性:網(wǎng)頁內(nèi)容與用戶檢索需求的匹配程度
2、權(quán)威性:用戶喜歡有一定權(quán)威性網(wǎng)站提供的內(nèi)容,相應(yīng)的百度搜索引擎也更相信優(yōu)質(zhì)權(quán)威站點(diǎn)提供的內(nèi)容
3、時(shí)效性:時(shí)效性結(jié)果指的是新出現(xiàn)的網(wǎng)頁且網(wǎng)頁內(nèi)承載了新鮮的內(nèi)容。目前時(shí)效性結(jié)果在搜索引擎中日趨重要
4、內(nèi)容質(zhì)量高:表述清晰閱讀順暢 ,文筆用詞用句舒適,行文嚴(yán)謹(jǐn)考究,能體現(xiàn)這個(gè)行業(yè)的專業(yè)性,實(shí)操性強(qiáng)
以上便是百度搜索引擎決定搜索結(jié)果排序時(shí)考慮的一些原則,同時(shí)我們可以通過資源平臺(tái)-【搜索服務(wù)】下工具,如站點(diǎn)子鏈,站點(diǎn)屬性,及網(wǎng)站改版等工具提升網(wǎng)站的展示效果。
想了解更多SEO技術(shù)的內(nèi)容,請(qǐng)?jiān)L問:SEO技術(shù)