針對這一典型采集泛濫的現象,基于業界領先的安全大數據和大規模機器學習平臺,研 發和上線了“后羿算法”:對低劣的采集站點加以控制,對原創和稀缺性網頁進行保護和提權,同時確保新聞網站之間正常的轉載行為不受影響。
“后羿”算法:
對于內容豐富的優質網頁(如原創、稀缺資源、精心編輯的內容頁等),會增加其在用戶面前展現的機會;對于濫用采集手段的行為(如整站大規模采集,頁面內容拼湊、含有大量廣告干擾用戶閱讀、惡劣彈窗跳轉、大量堆砌無關熱詞、站內搜索結果頁等),會顯著降低其展現機會和網頁收錄量。
“后羿算法2.0”,針對的問題包括但不限于如下類別:
- 頁面標題與正文語義不一致,頁面內容用機器批量構造;
- 站點內容存在淫穢低俗等誘導傾向;
- 頁面排版混亂,存在多幅廣告,巨型廣告、彈窗過多等站點;
- 未經授權的采集和盜圖;
- 導購類和網購類站點的關鍵詞堆砌和采集行為;
- 頁面內容與站點主營業務無關;
- 由建站程序批量制造的垃圾站;
本文由網上采集整理發布,不代表本站觀點和立場,如有侵權請告知本站刪除,本站不負任何責任和承諾。如若轉載,請注明原文和注明出處:http://www.ddcaps.com/seojishu/seosuanfa/360suanfa/2919.html