網(wǎng)絡(luò)爬蟲(chóng)原理網(wǎng)絡(luò)爬蟲(chóng)是什么

2014/6/27 9:58:51 出處：本站整理人氣：133次字號(hào)：小中大

騎自行車的正確

在校大學(xué)生該如

微信朋友圈怎么

每日一囧

最近總聽(tīng)到一個(gè)熟悉而陌生的名詞“網(wǎng)絡(luò)爬蟲(chóng)”，到底什么是網(wǎng)絡(luò)爬蟲(chóng)呢？小編和大家一起來(lái)探究一下“網(wǎng)絡(luò)爬蟲(chóng)”。

網(wǎng)絡(luò)爬蟲(chóng)是什么

網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛，網(wǎng)絡(luò)機(jī)器人，在FOAF社區(qū)中間，更經(jīng)常的稱為網(wǎng)頁(yè)追逐者)，是一種按照一定的規(guī)則，自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻，自動(dòng)索引，模擬程序或者蠕蟲(chóng)。

網(wǎng)絡(luò)爬蟲(chóng)原理

網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。

工作流程

1.首先選取一部分精心挑選的種子URL；

2.將這些URL放入待抓取URL隊(duì)列；

3.從待抓取URL隊(duì)列中取出待抓取在URL，解析DNS，并且得到主機(jī)的ip，并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái)，存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外，將這些URL放進(jìn)已抓取URL隊(duì)列。

4.分析已抓取URL隊(duì)列中的URL，分析其中的其他URL，并且將URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。

熱門評(píng)論

最新評(píng)論

文章推薦

相關(guān)資訊

本類常用軟件

網(wǎng)絡(luò)爬蟲(chóng)原理 網(wǎng)絡(luò)爬蟲(chóng)是什么

網(wǎng)絡(luò)爬蟲(chóng)原理網(wǎng)絡(luò)爬蟲(chóng)是什么