頭條搜索UA介紹
頭條搜索的爬蟲UA為“Bytespider”首寫字母為大寫,例如:
PC
Mozilla/5.0 (compatible; Bytespider; https://zhanzhang.toutiao.com/) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.0.0 Safari/537.36
Android
Mozilla/5.0 (Linux; Android 5.0) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
iOS
Mozilla/5.0 (iPhone; CPU iPhone OS 7_1_2 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Version/7.0 Mobile Safari/537.36 (compatible; Bytespider; https://zhanzhang.toutiao.com/)
頭條搜索ip字段介紹
頭條搜索的ip字段總共涉及10個ip,具體字段如下:
- 110.249.201.0/24
- 110.249.202.0/24
- 111.225.148.0/24
- 111.225.149.0/24
- 220.243.135.0/24
- 220.243.136.0/24
- 220.243.188.0/24
- 220.243.189.0/24
- 60.8.123.0/24
- 60.8.151.0/24
基本流程
1. 抓取網頁
每個獨立的搜索引擎都有自己的網頁抓取程序爬蟲(Spider)。爬蟲順著網頁中的超鏈接,從這個網站爬到另一個網站,通過超鏈接分析連續(xù)訪問抓取更多網頁。被抓取的網頁被稱之為網頁快照。由于互聯(lián)網中超鏈接的應用很普遍,理論上,從一定范圍的網頁出發(fā),就能搜集到絕大多數的網頁。
2. 處理網頁
搜索引擎抓到網頁后,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引庫和索引。其他還包括去除重復網頁、分詞(中文)、判斷網頁類型、分析超鏈接、計算網頁的重要度/豐富度等。
3. 提供檢索服務
用戶輸入關鍵詞進行檢索,搜索引擎從索引數據庫中找到匹配該關鍵詞的網頁;為了用戶便于判斷,除了網頁標題和URL外,還會提供一段來自網頁的摘要以及其他信息。
Bytespider IP反解析
反查IP
站長可以通過DNS反查IP的方式判斷某只spider是否來自頭條搜索引擎。根據平臺不同驗證方法不同,如linux/windows/os三種平臺下的驗證方法分別如下
- 在linux平臺下,您可以使用host ip命令反解ip來判斷是否來自Bytespider的抓取。Bytespider的hostname以*.bytedance.com的格式命名,非 *.bytedance.com即為冒充
host 111.225.148.250
148.148.225.111.in-addr.arpa domain name pointer bytespider-111-225-148-148.crawl.bytedance.com. - 在windows平臺或者IBM OS/2平臺下,您可以使用nslookup ip命令反解ip來判斷是否來自Bytespider的抓取。打開命令處理器 輸入nslookup? -qt=ptr ?xxx.xxx.xxx.xxx(IP地 址)就能解析ip,來判斷是否來自Bytespider的抓取,Bytespider的hostname以*.bytedance.com 的格式命名,非*.bytedance.com 即為冒充。
- 在mac os平臺下,您可以使用dig命令反解ip來判斷是否來自Bytespider的抓取。打開命令處理器輸入dig -x xxx.xxx.xxx.xxx(IP地址)就能解析ip, 來判斷是否來自Bytespider的抓取,Bytespider的hostname以 *.bytedance.com的格式命名,非 *.bytedance.com即為冒充。
問題反饋
- 如果您的網站發(fā)現(xiàn)有頭條spider的UA Bytespider 抓取存在抓取量過大,導致您的網站出現(xiàn)緩慢、宕機等問題,您可以通過“抓取頻次”功能,對網站進行設置抓取要求,我們會在1天內時間內生效。
- 關于spider有其他問題,可以向zhanzhang@bytedance.com提交反饋,我們會及時處理。