如何排除無關(guān)蜘蛛爬蟲干擾高質(zhì)搜索引擎蜘蛛抓取網(wǎng)站？

2019-12-13 13:56:05

推薦訪問：SEO新聞 SEO技術(shù) 網(wǎng)站技術(shù) 網(wǎng)絡(luò)營銷

在搜索引擎優(yōu)化過程中，你是否遇到過這樣的問題：服務(wù)器訪問的CPU利用率接近，頁面加載速度特別慢，似乎受到了DDoS的攻擊。

如何排除無關(guān)蜘蛛爬蟲干擾高質(zhì)搜索引擎蜘蛛抓取網(wǎng)站？(圖1)

經(jīng)過回顧，我發(fā)現(xiàn)原來的目標(biāo)網(wǎng)站經(jīng)常被大量無關(guān)的“爬蟲”抓走，這對(duì)一個(gè)小網(wǎng)站來說可能是一場(chǎng)災(zāi)難。

因此，在進(jìn)行網(wǎng)站優(yōu)化時(shí)，我們需要有選擇地引導(dǎo)特定的蜘蛛。

根據(jù)以往SEO經(jīng)驗(yàn)分享，小編將通過以下幾點(diǎn)來闡述：

一、搜索引擎爬蟲

對(duì)于國內(nèi)的小伙伴來說，我們都知道在SEO的過程中，我們面對(duì)的常見的爬蟲就是搜索引擎的爬蟲，比如百度蜘蛛，還有各種搜索引擎的蜘蛛，比如：

①360Spider、SogouSpider、Bytespider

②Googlebot、Bingbot、Slurp、Teoma、iauarchiver、twiceler、MSNBot

③其他爬行動(dòng)物

如果不故意配置robots.txt文件，理論上，可以對(duì)目標(biāo)頁進(jìn)行爬網(wǎng)和爬網(wǎng)。然而，對(duì)于一些中小型網(wǎng)站來說，它偶爾會(huì)浪費(fèi)自己的服務(wù)器資源。

此時(shí)，我們需要做出有選擇性、合理的指導(dǎo)，特別是一些尷尬的問題，比如：你希望谷歌減少對(duì)網(wǎng)站的爬網(wǎng)，但不能完全屏蔽它，你可能需要一些提示，比如：對(duì)于具體的爬網(wǎng)訪問，反饋不同的文章列表：

①控制更新頻率表

②反饋重復(fù)性強(qiáng)，內(nèi)容農(nóng)場(chǎng)頁面

③善意的“蜘蛛陷阱”，如flash

④如何調(diào)整對(duì)方的SEO管理平臺(tái)，獲取評(píng)論并進(jìn)行適當(dāng)調(diào)整

雖然這樣的策略很可能會(huì)對(duì)頁面聲譽(yù)造成損害，但我可以想出一個(gè)相對(duì)“有效”的方法，合理控制那些不想頻繁爬行但需要不斷爬行的蜘蛛的爬行。

二、鏈接分析爬蟲

從目前來看，一個(gè)SEO外部鏈分析管理工具需要每天花費(fèi)大量的服務(wù)器資源來抓取和檢測(cè)每個(gè)網(wǎng)站的頁面鏈接。

對(duì)于一些資源密集型的網(wǎng)站來說，每天爬行數(shù)千次是可能的，這種爬行動(dòng)物很常見。

如果你不想讓自己的網(wǎng)站參與其中，簡(jiǎn)單的策略是在robots協(xié)議中完全關(guān)閉此類爬蟲程序。

三、內(nèi)容收集爬網(wǎng)程序

但當(dāng)我們面對(duì)一些惡意的內(nèi)容收集爬蟲時(shí)，就相對(duì)尷尬了。另一方經(jīng)常采用“看不見”的狀態(tài)，比如：模擬一個(gè)出名搜索引擎蜘蛛的名字。

要解決這個(gè)問題，只能手工判斷對(duì)方廬山的真?zhèn)?，比如：使用IPPAn解析命令判斷真?zhèn)巍?

①Linux平臺(tái)：主機(jī)IP

②Windows平臺(tái)：nslookupip

從而確定對(duì)方的解析地址是否為相應(yīng)的搜索引擎域名。

四、蜘蛛池爬行動(dòng)物

目前，市面上有很多人做百度蜘蛛池，其主要目的是協(xié)助更多的頁面做百度快速收錄，但由于一些隨意下載蜘蛛池的程序設(shè)計(jì)不規(guī)范。

由于沒有對(duì)不同的蜘蛛進(jìn)行合理的抓取和限制，服務(wù)器資源經(jīng)常被服務(wù)提供商占用，很容易被關(guān)閉。

如果你試圖使用這個(gè)策略來提高你的頁面包含率，那么你可能需要更多的關(guān)注。

想了解更多SEO技術(shù)的內(nèi)容，請(qǐng)?jiān)L問：SEO技術(shù)

本文來源：http://gagu89.com/seodongtai/14376.html

免責(zé)聲明：部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿，本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯，是出于傳遞更多信息之目的，并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真實(shí)性，不承擔(dān)任何法律責(zé)任。