• <table id="5bpl0"></table>

    <td id="5bpl0"></td>
    <td id="5bpl0"><ruby id="5bpl0"></ruby></td>

    <bdo id="5bpl0"></bdo>

    當前位置:首頁 > 短網址資訊 > 正文內容

    FT12短網址教你如何甄別真假百度蜘蛛

    盡管百度的口碑并不好,可是不可否認的是,它一直是中文搜索中的霸主,所以對大多數中小型商業公司而言,都對baidu蜘蛛的抓取做法予以放行,不過還有許多不合法的蜘蛛,它們會經過 User-Agent 把自個偽裝成baidu蜘蛛,此刻如果單純以 User-Agent 來判別是不是是baidu蜘蛛就不適宜了。盡管網上能找到許多現成的baidu蜘蛛 IP 段,可是并不能確認它們的準確性,所以我計劃自個搜集,進而鑒別真假baidu蜘蛛。

    實際上baidu在常見問題解答中給出了鑒其他辦法:當有 User-Agent 是 Baiduspider 的懇求時,咱們能夠經過 host 指令反解 ip 來判別,Baiduspider 的 hostname 以 *.baidu.com 或 *.baidu.jp 的格局命名,其它的則能夠視為不合法的蜘蛛。短網址的后臺也經常見到這些IP的訪問。

    留意:有的baidu蜘蛛服務器并不遵守此規矩,本事例中無視它們。

    為何baidu不自動發布它自個的 IP 段呢?這么咱們就方便了??!答案八成是由于它怕他人封禁短網址,正所謂君子坦蕩蕩,小人常戚戚。比方 AWS 就發布了自個的 IP 段。

    下面咱們將測驗經過 log 歷史數據來找出真實的baidu蜘蛛,假設 log 格局如下;

    1.2.3.4 … “Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”

    簡略 shell 即可完成,經過剖析我的 log,終究能夠拿到幾百個baidu蜘蛛的 IP:

    shell> awk '$0 ~ "Baiduspider" {print $1}' /path/to/log \
        | xargs -n1 -I {} sh -c 'echo -en {} "\t"; host {}' \
        | awk '$NF ~ "\\.baidu\\.(com|jp)\\.$" {print $1}' > baidu
    
    123.125.71.100
    123.125.71.101
    123.125.71.102
    123.125.71.103
    123.125.71.104
    123.125.71.105
    ...

    由于成果集太臃腫了,所以我拍腦袋做了一個 24 位的 CIDR 處理:

    shell> awk -F. -v OFS=. '{print $1, $2, $3, "0/24"}' baidu | sort -u
    
    119.63.195.0/24
    119.63.198.0/24
    123.125.66.0/24
    123.125.71.0/24
    180.76.15.0/24
    180.76.5.0/24
    220.181.108.0/24

    此外,以下 IP 是我經過其他路徑獲取的baidu IP 列表,其間有些數據無法經過 hostname 的辦法來辨認,可是經過FT12短網址的判別,根本能夠判定屬于baidu,咱們能夠自行判別:

    61.135.165.0/24
    61.135.169.0/24
    61.135.190.0/24
    111.206.36.0/24
    112.80.254.0/24
    115.239.212.0/24
    123.125.67.0/24
    220.181.51.0/24
    220.181.165.0/24

    如此成果集就精簡多了,以后短網址和短鏈接的后臺如果發現這些IP,大家就明白了。今后再有 User-Agent 是 Baiduspider 的懇求進來時,咱們只需簡略判別一下 IP 是不是在 CIDR 成果中即可,是則予以放行。當然,這篇文章中baidu蜘蛛的 IP 數據也能夠用在其他地方,比方制止baidu訪問。 ?


    掃描二維碼推送至手機訪問。

    版權聲明:本文由短鏈接發布,如需轉載請注明出處。

    本文鏈接:http://www.virginiabusinesslawupdate.com/article_311.html

    分享給朋友:

    相關文章

    奶奶的“漫漫”

    奶奶的“漫漫”

    昨天下了一天雨,以前習慣跑的路有泥洼,換到馬路上去跑了五公里,看見一路的農家樂,招牌菜居然是烤全羊。跑步回來,我奶奶就向組織報告:“后院棗樹上還有棗,你媽之前打算給你打了放冰箱的,曉得你要漫漫,我讓她給你留了點兒?!彼蚁矚g的浪漫。我回家...

    屈臣氏要開始在網上賣藥了 湊熱鬧還是玩真的?

    屈臣氏要開始在網上賣藥了 湊熱鬧還是玩真的?

    【FT12短網址】屈臣氏在2013年推出了自有電商渠道,在該渠道上能夠搞定你所有需求的平時用品,從洗護用品、彩妝、食品、保健品,再到手機配件、床上用品等包羅萬象。接下來屈臣氏也許想要幫你把藥品及醫療器械的疑問也處理了。有業內人士告訴億邦動力...

    域名解析實踐——HTTPDNS

    幾乎一切需求網絡連接的使用都會依賴域名體系(Domain Name System,DNS)。域名解析效勞一般作為一次網絡連接的先導,將人們便于記憶的計算機名稱解析成計算機合適處理的網絡地址。因而DNS安穩效勞是上述網絡使用正常運轉的條件,地...

    抗震救災,最后我竟然跟災民搶飯吃

    FT12短網址的小編原來也是熱心腸,在聽到地震消息的時候,第一反應就是抗震救災。手機上刷到地震消息的時候,我渾身的熱血就燃起來了。隨之絡繹不絕的災區報道,死難受傷群眾的慘狀更激起了我內心的感動與善良。不說了,我要去為祖國和人民做貢獻了!但是...

    【技術分享】PHP反序列化漏洞

    【技術分享】PHP反序列化漏洞

    前言序列化給我們傳遞對象提供了一種簡單的方法serialize()將一個對象轉換成一個字符串unserialize()將字符串還原為一個對象。此類函數的使用本身沒有危害,但是傳入反序列化函數的字符串用戶可控的時候就會存在漏洞——PHP對象注...

    原來國內外互聯網企業開的實體店都長這樣

    原來國內外互聯網企業開的實體店都長這樣

    【FT12短網址】曾經,咱們都在說要從線下走到線上,現在卻反過來了,不斷添加互聯網公司開端著手規劃實體店。除了有國際電商巨子亞馬遜、阿里、京東們的嘗試之外,國內外還有一大波開線下店的“傳統互聯網公司”。能夠想象一下,這將會給線下零售市場帶來...

    發表評論

    訪客

    ◎歡迎參與討論,請在這里發表您的看法和觀點。
    一本色综合网久久
  • <table id="5bpl0"></table>

    <td id="5bpl0"></td>
    <td id="5bpl0"><ruby id="5bpl0"></ruby></td>

    <bdo id="5bpl0"></bdo>