網(wǎng)站的防爬機制一般用這幾種方法

jj 2021-11-26

了解網(wǎng)站的防爬機制,一般網(wǎng)站從以下幾個方面進行反爬蟲:
 

1.通過標頭進行反爬網(wǎng)
 
向用戶請求標頭反爬蟲是最常見的反爬蟲策略。很多網(wǎng)站會檢測到Headers的User-Agent,有些網(wǎng)站會檢測到Referer(有些資源網(wǎng)站的防盜鏈就是檢測Referer)。
 
如果遇到這種反爬蟲機制,可以直接將header添加到爬蟲中,將瀏覽器的User-Agent復制到爬蟲的header中。或者將Referer值修改為目標網(wǎng)站的域名。對于檢測標頭的反爬網(wǎng)程序,可以通過修改或添加爬網(wǎng)程序中的標頭來繞過它。
 
2.基于用戶行為的反爬蟲
 
也有一些網(wǎng)站檢測用戶行為,比如同一個IP短時間內(nèi)多次訪問同一個頁面,或者同一個賬號短時間內(nèi)多次做同樣的操作。
 
大多數(shù)網(wǎng)站都是前一種情況,可以通過使用IP代理來解決。我們可以在檢測后將代理IP保存在文件中,但是這種方法并不可取,而且代理IP失敗的概率很高,所以從專業(yè)代理IP網(wǎng)站上實時抓取是一個不錯的選擇。
 
在第二種情況下,下一個請求可以在每個請求之后的幾秒鐘的隨機時間間隔內(nèi)發(fā)出。一些存在邏輯漏洞的網(wǎng)站可以通過多次請求、注銷、再次登錄、繼續(xù)請求等方式,繞過同一賬號無法在短時間內(nèi)多次提出同一請求的限制。
 
對于cookie,檢查cookie以確定用戶是否是有效用戶。需要登錄的網(wǎng)站經(jīng)常使用這種技術。此外,一些網(wǎng)站的登錄將被動態(tài)更新和驗證。例如,用于登錄驗證的authentication _ token將在Tukuku登錄時隨機分配,authentication _ token將與用戶提交的登錄名和密碼一起發(fā)送回服務器。
 
3.基于動態(tài)頁面的反爬蟲
 
有時抓取目標頁面時,發(fā)現(xiàn)關鍵信息內(nèi)容為空,只有框架代碼。這是因為網(wǎng)站的信息通過用戶帖子的XHR動態(tài)返回內(nèi)容信息。這個問題的解決方案是通過開發(fā)者工具(FireBug等)分析網(wǎng)站流量。),找到單獨的內(nèi)容信息請求(如Json),抓取內(nèi)容信息,得到需要的內(nèi)容。
 
更復雜的是動態(tài)請求的加密,參數(shù)無法解析,所以無法抓取。在這種情況下,可以通過Mechanize、selenium RC調(diào)用瀏覽器內(nèi)核,就像真正的瀏覽器上網(wǎng)一樣,可以最大限度地提高爬行的成功率,但效率會大打折扣。筆者測試過,抓取拉戈30頁招聘信息需要30多秒。而用模擬瀏覽器內(nèi)核抓取則需要2-3分鐘。
 
4.限制一些IP訪問
 
免費代理IP可以從很多網(wǎng)站獲得。由于爬網(wǎng)程序可以使用這些代理IP來爬網(wǎng)網(wǎng)站,因此網(wǎng)站也可以使用這些代理IP反向限制,通過爬網(wǎng)這些IP并將其保存在服務器上來限制爬網(wǎng)程序。

掃一掃,咨詢微信客服
主站蜘蛛池模板: 国产精品成人扳**a毛片| 欧美国产小视频| 国产日韩在线观看视频| 两腿之间的私密图片| 欧美日韩一区二区三区久久| 国产v亚洲v欧美v专区| 77777_亚洲午夜久久多人| 精品深夜av无码一区二区老年| 国产黄色二级片| 中文字幕色婷婷在线精品中| 欧美式free群乱| 加勒比精品久久一区二区三区| 欧美成视频无需播放器| 女人把私密部位张开让男人桶| 久久精品国产一区二区电影| 激情五月婷婷久久| 国产一级在线观看www色| 一级特黄aaa大片在线观看视频| 欧美18性精品| 伊人色综合久久天天| 青青在线国产视频| 国产精品爆乳在线播放第一人称| 不卡高清av手机在线观看| 最新亚洲春色av无码专区| 亚洲黄色网站视频| 色屁屁www影院免费观看视频 | 天天综合网天天综合色| 久久亚洲中文字幕精品有坂深雪| 欧美日韩综合网在线观看| 再深点灬用力灬太大了| 高清欧美性猛交xxxx黑人猛交| 国产美女在线播放| 一区二区三区欧美日韩| 日本无卡码免费一区二区三区| 亚洲国产欧洲综合997久久| 真实的国产乱xxxx在线播放| 国产乱子伦视频在线观看| 老司机激情影院| 在线观看成人网| 中国一级片在线观看| 日韩在线一区视频|