蜘蛛抓取的流程主要分為四個(gè)過(guò)程:抓取、過(guò)濾,樹(shù)立索引、輸入成果。這便是從用戶(hù)搜索一個(gè)關(guān)鍵詞,到搜索引擎匹配并展現成果的過(guò)程。這個(gè)過(guò)程是復雜而漫長(cháng)的,也是遵循必定規律的。蜘蛛作為一種程序,被形象的比喻為動(dòng)物,便利用戶(hù)了解。接下來(lái)就為站長(cháng)具體描述這個(gè)抓取程序的作業(yè)流程:
抓取網(wǎng)站內容 網(wǎng)站經(jīng)過(guò)2個(gè)方面進(jìn)行抓取。一是網(wǎng)站提交給百度后,蜘蛛便開(kāi)端經(jīng)過(guò)提交的url進(jìn)行抓取,并樹(shù)立一個(gè)表,這些提交的網(wǎng)站url就存在這個(gè)表中。大多數人都以為蜘蛛是隨意抓取,看到什么抓什么。其實(shí)不然,蜘蛛是順著(zhù)錨文本和鏈接進(jìn)行抓取的。這就要說(shuō)到第二個(gè)抓取方法——外鏈。經(jīng)過(guò)外界方式進(jìn)行抓取,也是一種很快的方法?;ヂ?lián)網(wǎng)是由很多點(diǎn)組成的,這些點(diǎn)便是指向鏈接,蜘蛛順著(zhù)這些指向鏈接,并對用戶(hù)的注重程度進(jìn)行不同頻率的抓取。 過(guò)濾 顧名思義,蜘蛛對于提交到列表的url進(jìn)行過(guò)濾。過(guò)濾掉一些奇葩用戶(hù)的網(wǎng)頁(yè),以及一些死鏈接和空白頁(yè)面。蜘蛛的過(guò)濾是有挑選的,假如網(wǎng)站很多存在這些有害頁(yè)面,會(huì )影響到蜘蛛的抓取,降低信賴(lài)度,所以,呈現這些頁(yè)面必定要自動(dòng)提及,做到亡羊補牢,為時(shí)未晚。 樹(shù)立索引 蜘蛛對于網(wǎng)頁(yè)中的關(guān)鍵詞信息進(jìn)行辨認和存儲,并提早做好排名。這些存儲的信息,會(huì )變成一個(gè)虛擬的數據結構,里邊包括很多相關(guān)數據,比如網(wǎng)頁(yè)的tag、title、meta、description、外鏈、抓取記錄等。樹(shù)干和樹(shù)枝脈絡(luò )清晰,用來(lái)具體的展現給用戶(hù)搜索成果,這便是索引庫。 輸出成果 用戶(hù)搜索后,索引庫會(huì )映射出一張匹配表,并在這張表中進(jìn)行篩選。篩選的規則是用戶(hù)輸入關(guān)鍵詞表現的需求和網(wǎng)頁(yè)優(yōu)劣。打分成果呈現后,好的排名就會(huì )被展現在第一頁(yè),供用戶(hù)挑選構成點(diǎn)擊和轉化。 以上四個(gè)過(guò)程便是蜘蛛抓取的全過(guò)程。百度根據鏈接把url加入列表,差遣蜘蛛這個(gè)程序進(jìn)行抓取,符合要求的進(jìn)入索引庫,最后錄入,并組合成結構性的數據,接下來(lái)回來(lái)的搜索成果,便是我們看到的網(wǎng)站排名。 總結 我們在學(xué)SEO時(shí),有必要懂得搜索引擎的原理,比如說(shuō)你去一家飯館吃飯,連吃法都不懂那不是見(jiàn)笑大方了嗎?所以我們在學(xué)習過(guò)程中要學(xué)會(huì )返璞歸真。