當(dāng)前位置: 首頁(yè)最新資訊 IT業(yè)界 → 網(wǎng)絡(luò)爬蟲(chóng)原理 網(wǎng)絡(luò)爬蟲(chóng)是什么

網(wǎng)絡(luò)爬蟲(chóng)原理 網(wǎng)絡(luò)爬蟲(chóng)是什么

更多

最近總聽(tīng)到一個(gè)熟悉而陌生的名詞“網(wǎng)絡(luò)爬蟲(chóng)”,到底什么是網(wǎng)絡(luò)爬蟲(chóng)呢?小編和大家一起來(lái)探究一下“網(wǎng)絡(luò)爬蟲(chóng)”。

網(wǎng)絡(luò)爬蟲(chóng)是什么

網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng)。

網(wǎng)絡(luò)爬蟲(chóng)原理

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

工作流程

1.首先選取一部分精心挑選的種子URL;

2.將這些URL放入待抓取URL隊(duì)列;

3.從待抓取URL隊(duì)列中取出待抓取在URL,解析DNS,并且得到主機(jī)的ip,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。

4.分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。

熱門評(píng)論
最新評(píng)論
發(fā)表評(píng)論 查看所有評(píng)論(0)
昵稱:
表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親
字?jǐn)?shù): 0/500 (您的評(píng)論需要經(jīng)過(guò)審核才能顯示)