大家都知道隱藏頁面(Cloaking)是作弊手法的一種。隱藏頁面通常是根據訪問請求的IP地址判斷是搜索引擎蜘蛛還是普通用戶,然後對蜘蛛和普通用戶返回不同的內容。
但是根據IP不同返回不同內容,有的時候又不是作弊。所以這兩者之間的界限,經常比較模糊。 Google站長博客前兩天發了個帖子,對四種情況做了比較明確的定義。下面半翻譯,半評論。
地理定位Geolocation
根據用戶的地理位置,返回不同的針對特定地理位置的內容。判斷這個地理位置可以是訪問的IP地址,也可以是存儲在用戶電腦中的Cookies,也可以是註冊用戶所提供的地址。比如一個足球網站,如果一個已經註冊過的用戶提供的用戶信息中地址填的是北京,當這個用戶訪問網站時,就返回更適合北京用戶的內容,更多報導北京隊的成績等。
IP Delivery IP傳送
不太清楚應該怎樣準確翻譯,姑且叫做IP傳送吧。
IP Delivery是上面所說地理定位的一種。因為IP地址都是分配給不同地區的ISP,根據發送訪問請求的IP地址,就可以判斷出用戶的地理位置,然後返回相應的內容。
IP Delivery只是一種返回更恰當內容的技術手段,不一定就是作弊。像上面例子所說,一個沒有註冊的訪問者來到網站,服務器通過檢測用戶IP地址,發現瀏覽者是來自北京,完全可以返回與來自上海的瀏覽者不同的內容。不但不是作弊,而且是更用戶友好。
隱藏網頁Cloaking
這就屬於作弊了。指的是搜索引擎蜘蛛訪問時返回一套經過優化的內容,而普通用戶訪問時又返回另一套內容。鑑別是否是搜索引擎蜘蛛的方法還是包括通過IP地址判斷,因為IP地址屬於哪個ISP或大的網絡公司是可以查出來的。這也就是隱藏網頁與IP Delivery常常混淆的原因。
首次點擊免費First Click Free
有一些新聞網站內容是要收費的,但是又希望被搜索引擎收錄。 Google提供了首次點擊免費機制,也就是說用戶通過Google搜索結果來到這樣的收費網站,第一次點擊時,用戶可以看到正常內容,也就是 Google蜘蛛所抓取的內容。但是同一個用戶的第二次點擊,將看不到新聞內容,而會被要求登錄或付費。
比較IP Delivery和隱藏頁面就可以知道,IP Delivery是正常的事,隱藏頁面是作弊。搜索引擎所要求的並不是不允許使用IP Delivery,而是不要把搜索引擎蜘蛛特殊處理。假設搜索引擎蜘蛛是來自紐約數據中心,網站返回的內容就應該是同樣來自紐約的普通用戶看到的內容,而不應該返回一套無論來自哪裡的普通內容都看不到的,只有搜索引擎蜘蛛才能看到的內容。
隱藏頁面其實是相當危險的技術。比如說從大家不知道是屬於Google的IP地址,發出與普通瀏覽器一樣的訪問請求,抓取頁面,抓取的內容與來自同一地理位置的正常蜘蛛抓取的內容一比較,就知道是否存在Cloaking。
近兩年,域名信任度在Google排名算法中比重很大。很多時候大型,信任度高的網站,內頁能佔據很多關鍵詞排名,而且毫不費力。域名信任度威力最明顯的就是維基百科。
給予域名信任度這麼大權重,Google是為了對付垃圾網站。這個邏輯的前提是,已經獲得信任的網站,通常都潔身自好,不會有質量太差的內容。做垃圾網站的都是圖短平快,不會花時間把垃圾站做成一個信任度高的網站。
這固然有它的道理,但副作用現在也越來越明顯。比如很多人靠在一些域名信任度高的大網站上創建個內容頁,就能取得個好名次。這種例子在一些競爭度很強,黑帽聚集的關鍵詞中很常見。
無論如何不管好處壞處,這是一個事實,我們做網站的就只能去適應。
我感覺域名信任度最主要的是下面這幾個因素。
來自其他信任度高的網站的鏈接
Google關於TrustRank的最初解釋是,人工選出信任度最高的一批種子網站,估計指的是雅虎,紐約時報,維基百科等這些顯而易見的高質量網站。然後根據這些高質量網站鏈接到哪些其他網站,從而找出次一級的被信任域名。也就是說如果你的域名從雅虎,紐約時報等有鏈接,那麼你的域名就獲得了第二級信任度。
以此類推,第二級信任域名又能帶出一批第三級,第三級又連向第四級。離核心越遠,信任度越低。
這個概念有點類似於PR值,都是以鏈接為標誌,但它不是PR值。
最核心的被信任的網站只有100多個。它們都是人工選出來的,而不是按PR值衡量的。這個域名信任度也不是按頁面計算,而是按域名計算。所以域名信任度並不是取決於鏈接的數目,尤其不是垃圾鏈接的數目。所以以前我就強調,鏈接最看重的是質量,而不是數量。
域名歷史
這包括域名最初註冊時間,第一次被Google抓取頁面的時間。
很顯然,註冊越早的域名,被信任度越高。很簡單,也很有效。如果你有一個註冊已有十年的域名,那是一個威力強大的武器。如果你有一個註冊了15年的域名,不管拿它來做什麼,很可能無堅不摧。
我自己有的最老的域名,也只有6年而已。這也就是為什麼我雖然不滿意SEO每天一貼所在的域名,但我並不打算換。就算是兩三年的歷史,也是新域名無法獲得的,這是不可重複的資源。
網站內容是否原創及更新情況
最核心的100多個被信任的域名挑選是人工所為。我們可以想像對內容原創性要求一定是佔很大比重,而且這些網站一定都是經常更新的。算法可以被糊弄,人可沒辦法糊弄,尤其是這麼重要的事情。
很難想像有採集站會被當做是信任度高的網站,至少在網站開始時,必須是以原創為主。獲得了一定的信任度之後,再加入一些轉載的內容,可能無傷大雅。
當然還有一些其他影響域名信任度的細節,我感覺最主要的就是上面這三個條件。