單頁應用(Single Page Application)的搜索引擎優(yōu)化
單頁應用并不是一個全新發(fā)明的技術,而是隨著互聯(lián)網的發(fā)展,越來越受Web開發(fā)者歡迎,單頁應用的體驗可以模擬原生應用,一次開發(fā),多端兼容,效果酷炫,節(jié)省成本。然而,由于單頁應用基本全部使用JS,受制于SEO效果,目前國內使用單頁應頁技術的網站還是少之又少。在已知使用單頁應用的站點中,攜程旅行的SEO效果一直不錯,那么今天,安琦老師為我們分享了單頁應用SEO解決四大方案,其中第四套是攜程旅行曾經采用的技術方案,監(jiān)控數(shù)據(jù)表明效果符合預期:
一、單頁應用?此SPA不是彼SPA…
我們所說的"單頁應用"都為Single Page Application的直譯,基本市面上"單頁面應用"、"One Page Application"、"SPA"及某些語境下的"webapp " 都是指這一類移動站點。
那么典型的SPA是什么樣子?我們用手機看看這條URL,http://cc-ng-z.azurewebsites.net/,可以衍生想象一下乘以N倍的:切換頁面無需加載的效果,Html和JS無法比擬的動畫,以及對原生APP的追求……
*案例采用了angularJS這個鼎鼎大名的框架
關于html5及單頁應用的處境,推薦以下兩篇文章,第二篇實際上是百度UMX寫的,但是現(xiàn)在原文刪掉了,可以對自己的移動站點在技術架構上有個抉擇和處理:
HTML5移動應用開發(fā)的生態(tài)環(huán)境簡介
論Web App、Hybrid App以及Native App的設計差異
二,高科技永遠連累我們干苦力的
為什么這么寫,因為SPA對SEO損傷很大,非常大。
優(yōu)點當然毋庸置疑:效果酷炫,我在視覺和產品面前無從反駁;性能高速度快,全JS嘛當然快,我在運維和產品面前無言以對;運算分散,異步加載,又省硬件又省流量,我在開發(fā)和產品面前徹底投降;JS前后端,一個人干一個站的活兒——關于這一點,我在老板、HR和產品面前哭的像一個孩子。總之,在各路人馬的一番碾壓后,我手里的網站改版了,一個SPA誕生了。
問題接踵而來:我發(fā)現(xiàn)所有頁面都變成了全JS生成;所有URL中參數(shù)前面都被#分割;第三方統(tǒng)計系統(tǒng)無法再正常工作;PC和移動的適配正則全部失效了;所有人都高興了,只有你,做SEO的、做網站優(yōu)化的,欲哭無淚。
實際上我觀察下來,只要使用了SPA架構的站點或多或少收到傷害,當看到有些大站點沒做處理,只有可能搜索對于他們是個微不足道的渠道,比如錘子手機官網甚至不可思議地在PC站點上使用了類似架構,我相信他們的索引是有點問題的。這讓我想到知乎上一個問題,說AMAZON的URL那么亂(當時)是因為他們不注重SEO嗎?答案是不是,是他們更注重tracking。同理,SPA帶來的優(yōu)點勝過SEO,我被PK掉了。
三,求人不如求己
在SPA項目面前,我發(fā)現(xiàn)我被放在了所有人的對立面,無法抗拒這種時髦架構的上線,當然不得不說效果確實比WAP即視感的站點高端和好用太多,不要螳臂當車逆歷史車輪而動。既然反抗也很痛,那么享受吧!我知道,我還和搜索引擎在一起;老板要的是解決方案,當然回滾這種方案會讓我先滾。
讓我們看看一個典型的SPA網站架構,和傳統(tǒng)的服務端生成內容不同,在傳統(tǒng)的網站,當你發(fā)起請求的時候,頁面的組裝是在服務器上完成的,反饋給瀏覽器的是已經完成組裝的HTML內容;而之于SPA,服務端負責了數(shù)據(jù)和素材的存儲,頁面的邏輯執(zhí)行和組裝是在瀏覽器上通過Javascript完成和呈現(xiàn)的,這也就意味著,SPA不需要請求→接受、請求→接受、請求→接受、請求→接受這樣玩了。完全憑借本地數(shù)據(jù),即可完成基本的頁面請求和訪問。
基于此,當某人需要像APP那樣切換頁面但不刷新,并要在此基礎上做文章時,#(井號)這個奇葩的符號粉墨登場,完成了"又要本地傳輸數(shù)據(jù)又不需要刷新頁面"這個奇葩需求的歷史任務,給單頁應用的可抓取性重重一擊。整個SPA的網站,URL不可抓取,頁面內容不可抓取,糟透了。
解決思路倒也簡單,圍繞全JS和URL可用解決問題。
【方案一:盡人皆知的Google抓取AJAX方案】
如何讓搜索引擎抓取AJAX內容?
A proposal for making AJAX crawlable
Google給了官方指導,并在Twitter上做了個最大的case,但后來T家放棄了,我想更多是T戰(zhàn)略上的放棄。騰訊的ISUX博客上也曾經推廣過這種方式,居然是在2014年,如下文:單頁應用的SEO淺談
總的來說,這種方案可以兼容Google,如果資源實在有限,有著能抓多少是多少的心態(tài),可以試試。主要不幸的是,5年前Google已和我們再見了
【方案二:再做一個服務端生成內容的鏡像網站】
說實話,量級不大的網站并且極度依賴搜索引擎這個渠道的情況下,這不失為一種方案,第一,蜘蛛絕對可抓?。坏诙?,URL規(guī)則的完全可控(要知道現(xiàn)在流行的路由方式,在配置URL規(guī)則上相對于URLrewrite是有天生缺陷的);第三,SPA模式URL衍生的所有問題不再是問題。
但是面臨的問題也令我望而卻步:我要說服team再維護一個一模一樣的網站,不是做完了事,是維護,這意味著修Bug要有資源修,改版要有資源改(能說服自己搜索進來然后點兩下看到的網站不一樣嗎?)、所有相關功能的測試、發(fā)布、常規(guī)測試,都要耦合在一起,當站點大到一定程度,流程前所未有地臃腫,推進無休止的爭吵,所有煩惱包圍著我,讓我想靜靜。我預計自己會累垮,即使搞定了所有的資源,網站優(yōu)化人員自身也將面臨著非常繁重的工作,兩個網站怎么融合,適配跳轉怎么設定,是否需要主動判斷蜘蛛展現(xiàn)不同的內容,內鏈入口怎么放,都是耦合,且是硬耦合,網站大了頁面多了,越做耦合越多,以后一碰就是坑。
【方案三:HTML5 history 中的PushState】
還好,開發(fā)大大們總是不少奇巧淫技,這是個很"經典"的用法,配合<noscript>這個擦邊球標簽,既能實現(xiàn)URL的自定義,又能實現(xiàn)還算有效果的內容抓取。蜘蛛、瀏覽器,兩方應對,給蜘蛛不帶井號能抓取的URL,給瀏覽器訪問非井號URL時中間做轉換,這樣的話每張頁面都有了可抓取的URL,且依然使用著高逼格的SPA架構。內鏈可以做了,Sitemap可以做了,適配也輕松了。
但實際上,蜘蛛在這種頁面上還是盲的,所有內容要仰仗于noscript這個標簽里塞的數(shù)據(jù),以及搜索引擎對這個標簽的支持程度。
做到這一步,單就需求而言,搜索引擎的抓取從HTML規(guī)范講完成了,但這種方式沒有任何搜索承認過支持,包括最核心的那個對于noscript標簽的支持。
【方案四:用更高效的方式完成兩套頁面】
再回到那個簡單的架構圖,SPA這種架構,渲染是在客戶端(瀏覽器)完成的,大致流程如下:
蜘蛛無法執(zhí)行JS,相應的頁面內容無從抓取,弊端還是那個弊端。但我們知道,傳統(tǒng)的服務端生成頁面,response里已經是服務器渲染組裝好的HTML代碼,瀏覽器只負責正確地展現(xiàn),蜘蛛負責正確的解析,所以,我們需要給蜘蛛渲染完成的HTML,那么你的框架需要兼容如下流程的功能。
我們看到,當訪問為SEO所需頁面的時候,數(shù)據(jù)傳輸?shù)搅薙EO 服務器完成渲染和組裝然后吐給瀏覽器和蜘蛛,那么蜘蛛拿到的即是完全可見且融合了SPA的頁面——landing頁都是蜘蛛可見的,接下去用戶的點擊都是SPA的頁面。
需要注意的是,如果你是用URL來區(qū)分SPA架構與否,那么內鏈及入口要全部使用SEO URL,只為用戶暴露SPA的鏈接,JS在這里陰差陽錯地成為了優(yōu)勢,那些SPA的鏈接將比較難被抓取的。
其實可以不使用URL來區(qū)分,延伸想想。這樣一個流程,也無多少高精尖元素,其實只是"依照條件"增加了一個服務端自動渲染的步驟,在架構方案上再細細夯實,可以實現(xiàn)一套代碼兩處運行、SEO頁面可單獨自定義功能、、同一張landing人和蜘蛛沒有跳轉,沒有區(qū)別對待、全棧工程師的大量使用、SEO頁面永遠保持最新版等等省時省力的需求功能。
總之,如果你和我一樣,有文章前面部分的抱怨,SPA架構勢在必行,兩套頁面改版不能同步,單獨多做一套可抓取頁面沒有太多資源投入,與此同時還是想以比較保守的方式給蜘蛛展現(xiàn)網站的內容,那么這個思路可以考慮,然后為自己量身定做。
關于單頁應用的網站優(yōu)化,在實踐中我所經歷過的這些吧。優(yōu)化不是按部就班,作為從業(yè)人員要審時度勢地采取不同方案,以結果為導向,上不了線,再好的優(yōu)化也是個方案。
想了解更多SEO技術的內容,請訪問:SEO技術