搜索引擎爬蟲研究與探討

來源：SEO369 2017-01-18 關鍵字：爬蟲搜索引擎

seo過程中對于蜘蛛的渴望是非常迫切的，蜘蛛到底是為什么來怎么來的我們很困惑，這里我們簡單探討一下蜘蛛的來去，或許對大家有所幫助。

我們先來看一下它的定義：網(wǎng)絡爬蟲（又被稱為網(wǎng)頁蜘蛛，網(wǎng)絡機器人，在FOAF社區(qū)中間，更經常的稱為網(wǎng)頁追逐者），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。

從以上的定義來看，百度蜘蛛，谷歌機器人都屬于爬蟲的一種，而爬蟲主要是按照一定的規(guī)則，自動抓取信息的腳本或者程序，這個不難理解，有經驗的程序員都能夠獨立的編寫出來一套比較完整的蜘蛛程序，用來收集網(wǎng)絡信息，充實自己的網(wǎng)站。其實很多的信息采集軟件也是采用了這種技術。

那么我們在來看一下蜘蛛到底進行的什么工作：

每一種類型的資源，都有相應的蜘蛛爬蟲來搜集，當然解析的方式也各不相同。我們經常能夠在網(wǎng)站的日志中看到百度的spider和image-spider，不同的爬蟲利用其自身的規(guī)則來對其頁面進行解析。即使是這樣，我們也能夠看到爬蟲在爬去頁面的時候還是有一定的規(guī)律性的，這種規(guī)律性則是來自于搜索引擎效率最大化的取舍。

寬度優(yōu)先遍歷原則：這個原則是從網(wǎng)站自身做起的，根據(jù)網(wǎng)站的層級來抓取。因為我們在做網(wǎng)站的時候都有一個優(yōu)先的考慮，比如我第一個想讓搜索引擎看到的就是首頁，其次的各個目錄頁面，再其次就是內容頁面，蜘蛛也是利用這一點來抓取。

非完全pagerank排序：這個原則就是利用谷歌的pr值來計算的。因為每一個網(wǎng)頁在谷歌中都會有一個評分，根絕這些評分高低來抓取。如果完全計算就比較耗費計算資源，所以它就采用高pr值的網(wǎng)頁傳遞出來的鏈接肯定都是可靠的。

OPIC（online page importance computation在線頁面重要性計算）：這一個原則跟pr值計算相差無幾，在采集的網(wǎng)頁中來計算每一個網(wǎng)頁的重要性，然后在進行優(yōu)先抓取。

大站優(yōu)先策略：這個毋庸置疑了。因為大戰(zhàn)比較符合信賴的原則。

其實我們可以看到，這種原則其實是對抓取的有限性和網(wǎng)頁的無限性的一個折中，即在有限的時間內抓取網(wǎng)絡中更為重要的頁面和資源。當然我們也需要去了解網(wǎng)絡爬蟲工作的原理，這樣的話更有利于我們去做SEO優(yōu)化。

說明：本欄目文章整理自互聯(lián)網(wǎng)，有侵犯權益的地方請聯(lián)系站長刪除。

上一篇：搜索引擎一直不收錄怎么辦
下一篇：網(wǎng)站外鏈建設方法探討

其他人還看了: SEO是什么

點擊排行: 淺談分析友好型的網(wǎng)站結構是怎么樣的？; 什么是垃圾外鏈，對網(wǎng)站有什么危害嗎？; 網(wǎng)站頁面的長度大小和收錄的關系; 減少網(wǎng)站跳出的方法; 搜索引擎爬蟲研究與探討; 一些可以導致網(wǎng)站被k的因素