蜘蛛爬蟲的抓取策略有哪些呢?

 SEO基礎知識     |      2020年07月20日

數據抓取系統是搜索引擎重要組成的系統之一,主要負責互聯網信息的搜集、保存和更新等等,他就像蜘蛛一樣在互聯網中爬來爬去,所以叫做蜘蛛爬蟲。


搜索引擎蜘蛛抓取頁面的時候,會從一些重要的頁面開始,通過內鏈來進入到網站的各個頁面中,不斷的重復這個過程,這樣就會抓取到更多的頁面了。由于互聯網中頁面在不斷的修改、刪除以及更新,所以搜索引擎會不斷的對過去抓取到的頁面進行更新。

蜘蛛爬蟲的抓取策略有哪些呢?

當蜘蛛爬蟲進入到網站的時候,首先會查看根目錄下是否有Robots文件,如果有,就不會進行抓取。如果進入到一些可以抓取的網站后,蜘蛛爬蟲會根據以下的策略進行抓取。


1、深度優先策略


這種策略是以前使用很多的蜘蛛爬行策略,當蜘蛛爬蟲在網站中發現一個連接后,會跟著這個鏈接進入到相應的頁面中,以此類推,直到沒有新鏈接出現的時候,就會停止爬行。


2、寬度優先策略


這種策略就是指蜘蛛爬蟲進入到頁面后,會爬行這個頁面上的所有鏈接,然后再爬行到下一層的頁面鏈接。


3、最佳優先策略


這種策略就是指當蜘蛛爬蟲進入到頁面的時候,會把頁面中所有的鏈接收集到地址庫中,并進行分析,從中選出重要性較高的鏈接進行爬行。


影響鏈接重要性的因素主要有頁面權重、網站規模和反應速度等等,當鏈接頁面權重越高、網站規模越大、反應速度越快的時候,就會被優先的抓取了。


原創·大金SEO http://www.nxndz.com/p/561.html