<bdo id="vljxk"><rt id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt><rt id="vljxk"></rt><noframes id="vljxk"><rt id="vljxk"><delect id="vljxk"></delect></rt><noframes id="vljxk"><rt id="vljxk"></rt><noframes id="vljxk"><noframes id="vljxk"><rt id="vljxk"></rt>

當前位置:首頁 >  站長 >  搜索優化 >  正文

運營筆記:是時候了解蜘蛛爬取原理了!揭秘收錄難題

 2020-04-30 11:09  來源: A5用戶投稿   我來投稿 撤稿糾錯

  阿里云優惠券 先領券再下單

很多人在做SEO的時候,搞不清蜘蛛爬取的原理或者對收錄索引都搞不清關系,這篇文章主要針對實戰來講解蜘蛛和收錄的關系,不講原理,只講干貨和經驗。

首先我們提到蜘蛛可能就可能想到IP,比如以下這些;

220.181.108.89專用抓取首頁IP 權重段,一般返回代碼是304 0 0代表未更新。

220.181.108.94專用抓取首頁IP 權重段,一般返回代碼是304 0 0代表未更新。

220.181.108.97專用抓取首頁IP 權重段,一般返回代碼是304 0 0代表未更新。

220.181.108.80專用抓取首頁IP 權重段,一般返回代碼是304 0 0代表未更新。

220.181.108.77 專用抓首頁IP 權重段,一般返回代碼是304 0 0代表未更新。

是不是很難理解?但是如果做過網絡維護、或者局域網組網的就能明白,其實每個IP對應的就是一臺電腦,每組服務器組對應的就是網段。

比如,220.181.108.x這個網段,我們暫且叫收錄服務器組,這個服務器組下面有電腦ABCDE,對應的IP,每臺電腦上裝著相應的收錄程序。

那么這樣是不是清楚了呢?比如你提交一個鏈接到百度,那么相當于把這個鏈接提交到收錄服務器組的C號電腦。

比如你提交了1、2、3個鏈接,這三個鏈接分別提交到了收錄服務器組的C、D、E號電腦,所以你查看日志的時候會發現,這三條鏈接對應不同的IP,也就是對應著不同的電腦。

那為什么提交3條鏈接會提交到三臺不同電腦呢?我個人猜測,或許提交的數據太多,同一臺電腦處理不了,所以采取了分布處理方式。(個人猜測,并非是研究證明,或許是更高級的處理方式)。

我昨天針對這個做了一個測試,寫了3篇原創文章,發布后,我以最短的時間查看蜘蛛爬取情況,結果這三篇文章,分別爬取的IP是;

116.179.32.135——服務器1

220.181.108.122——服務器2

220.181.108.180——服務器3

第一篇文章寫完后,文章過幾分鐘秒收錄,然后我模仿第一篇寫作框架,繼續寫第二篇,第二篇也過幾分鐘秒收,然后接著寫第三篇,可惜的是,第三篇沒有收錄。

但第二天,這三篇全部收錄,也就是說,第三篇變成了隔天收錄。

我又查看了116.179.32.135這個IP,這個IP屬于山西省陽泉市 聯通,目前很多人都奇怪現在出現了116.179.32.X網段的蜘蛛,現在可以確定 的是,這個網段就是百度蜘蛛,除了nslookup可以驗證外,以下幾點也是證據;

蜘蛛爬身上是報喜?是時候了解蜘蛛爬取原理了!揭秘收錄難題!

另外百度李總裁老家也是陽泉的,所以幾個證據足以說明,搜索服務器一部分也搬到了山西。

結合上面實戰的經驗包括以往收錄爬取的蜘蛛分析,只要是鏈接提交到116.179.32.135,或者220.181.108.122、220.181.108.180等等,那么鏈接必定收錄,所以唯一解開收錄密碼的難點在于,如果控制鏈接提交到這些服務器?

甚至有人戲謔稱,220開頭的是官方蜘蛛,而116開頭是老家蜘蛛,呵呵,希望大佬一起來研究這個問題。

文章首發運營正經說:https://www.yyzjs.cn/zhanzhang/779.html

申請創業報道,分享創業好點子。點擊此處,共同探討創業新機遇!

相關文章

  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長,在關注網站在搜索引擎排名的時候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個自動抓取互聯網上網頁內容的程序,每個搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網站上抓取內容的呢?一起來看看它的工作原理吧

    標簽:
    搜索引擎蜘蛛
  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長,在關注網站在搜索引擎排名的時候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個自動抓取互聯網上網頁內容的程序,每個搜索引擎都有自己的蜘蛛,那么,蜘蛛是怎樣在網站上抓取內容的呢?一起來看看它的工作原理吧

    標簽:
    搜索引擎蜘蛛
  • 七類蜘蛛陷坑 網站優化中必須要躲避

    不少的網站就是沒有優化好這一方面造成了站內存在很多蛛蛛陷坑,到最終壓根兒一個好好的網站被搜索引擎網站屢屢錯判,要不是不給名次,甚至于是造成了數量多頁面都搜索引擎網站拋棄。下面小編就為大家介紹網站優化中必須要躲避的七類蛛蛛陷坑

  • 網站怎么做seo才能吸引蜘蛛收錄更多的頁面?

    網站怎么做seo才能吸引蜘蛛收錄更多的頁面?蜘蛛爬行的次數越多,網頁收錄的名次越高,該怎么做才能吸引蜘蛛收錄更多的頁面呢?下面我們就來看看詳細的教程,需要的朋友可以參考下

    標簽:
    搜索引擎蜘蛛
  • SEO優化:淺談如何避免蜘蛛陷阱

    在SEO優化的過程中如何避免蜘蛛陷阱是非常重要的一件事情,本文主要為大家淺談幾招可以避免蜘蛛陷阱的方法,有興趣的朋友們就來了解下吧

熱門排行

信息推薦