石榴算法—低質量頁面終結者:2013年5月17日下午,百度網頁搜索反作弊團隊在百度站長平臺發布公告稱:將于一星期后正式推出新的算法“石榴算法”。新算法前期將重點整頓含有大量妨礙用戶正常瀏覽的惡劣廣告的頁面
那么,“石榴算法”中,百度究竟是如何判斷網頁質量呢?網上較多文章對此發表觀點,歸納有以下幾點:
感興趣的受眾群大小
該頁面的稀缺程度(可替代性)
該頁面是否有彈窗
該頁面廣告的多少
由上可見,目前我們的研究重點大部分集中在對網頁的頁面價值的判斷上,缺乏對搜索用戶交互行為的研究與分析。
今天,我們嘗試從搜索用戶交互行為的角度出發,猜測百度如何判斷文章質量。
對于安裝了百度統計的用戶,百度可以根據跳出率、退出率、頁面停留時間幾個關鍵指標,很容易對網頁質量加以判斷。
然而,對大部分沒有安裝百度統計的搜索用戶,百度是不可能跟蹤這些關鍵指標的,百度通過迂回戰術從側面分析關鍵詞的匹配度,匹配度越高,表明文章質量度越高。
百度如何通過搜索行為判斷文章質量?我以為,主要根據以下2點:
一、通過對搜索結果的二次點擊率(或多次)進行判斷
二次點擊率是指:當用戶點擊某結果后,(因不滿意結果)產生第二次點擊(或多次)的比率
如果某頁面二次點擊率非常低,百度搜索引擎有理由相信,此網頁的關鍵詞匹配度非常高,同時文章的質量也有保證。因為,眾多用戶的行為已經為網頁投了關鍵的一票。
二次點擊率是相對上一條點擊而言。百度搜索默認顯示10條搜索結果,我們假設一個這樣的情景:大量用戶點擊到第6條結果,就不再點擊其他結果,從常理來說,第6條結果的網頁,是最匹配的,那么質量度自然較高。如果這種數據表現達到一定程度,百度很可能會把它的排序提高到前面幾位(提高排序權重)。
二、通過兩次點擊之前花費的間隔時間進行判斷
假設百度搜索某個關鍵詞,并按分別順序點擊了A/B/C 3個結果。如下圖:
根據普通用戶習慣,他會先打開并查看A網頁,可能結果不滿意或信息量不足夠,他又回到百度搜索界面,點擊了B網頁,閱讀完B網頁后,他又打開C網頁。
我們可以看到,A->B 時間間隔, B->C 時間間隔 是百度可以獲取的信息。 通過海量用戶的間隔時間的橫向比較分析,百度足夠建立這樣一個關鍵指標。
假設大量數據顯示,A->B 時間間隔為30秒,B->C 時間間隔為 50秒,那么搜索引擎認為,B的質量高于A。 這就是間隔時間判斷的一個重要邏輯。
以上是我們對“百度如何判斷網頁質量”猜測的一些邏輯與思路,實際上百度搜索的算法模型肯定更復雜龐大。尤其現在百度產品已經涉及方方面面,百度統計、百度分享還有最近的百度瀏覽器,相信百度會把這幾方面的數據綜合利用起來,能夠更精準的分析判斷網頁質量。本文原創:新華書店 轉載請注明出處!
申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!