相關(guān)資訊
- 通信業(yè)身陷困境 網(wǎng)絡(luò)擴(kuò)容為瓶頸
- 嚴(yán)打“僵尸網(wǎng)絡(luò)” 凈化網(wǎng)絡(luò)環(huán)境
- 五一假期臨近 謹(jǐn)防網(wǎng)絡(luò)“釣魚(yú)”
- 金山網(wǎng)絡(luò)立新檻 不拘一格降人才
- 在Android下巧妙使用Socket連接網(wǎng)絡(luò)
- 網(wǎng)絡(luò)音樂(lè)證明大產(chǎn)業(yè)也有不掙錢的
- 騰訊金山強(qiáng)強(qiáng)聯(lián)合 共建網(wǎng)絡(luò)安全好未
- 美國(guó)4G網(wǎng)絡(luò)上線 網(wǎng)速可提升2倍
- 網(wǎng)絡(luò)營(yíng)銷強(qiáng)調(diào)許可與再許可的重要性
- 我們需要最安全的網(wǎng)絡(luò)引導(dǎo)服務(wù)
本類常用軟件
-
福建農(nóng)村信用社手機(jī)銀行客戶端下載下載量:584212
-
Windows優(yōu)化大師下載量:419798
-
90美女秀(視頻聊天軟件)下載量:366966
-
廣西農(nóng)村信用社手機(jī)銀行客戶端下載下載量:365708
-
快播手機(jī)版下載量:325899
最近總聽(tīng)到一個(gè)熟悉而陌生的名詞“網(wǎng)絡(luò)爬蟲(chóng)”,到底什么是網(wǎng)絡(luò)爬蟲(chóng)呢?小編和大家一起來(lái)探究一下“網(wǎng)絡(luò)爬蟲(chóng)”。
網(wǎng)絡(luò)爬蟲(chóng)是什么
網(wǎng)絡(luò)爬蟲(chóng)(又被稱為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)的抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻,自動(dòng)索引,模擬程序或者蠕蟲(chóng)。
網(wǎng)絡(luò)爬蟲(chóng)原理
網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。
工作流程
1.首先選取一部分精心挑選的種子URL;
2.將這些URL放入待抓取URL隊(duì)列;
3.從待抓取URL隊(duì)列中取出待抓取在URL,解析DNS,并且得到主機(jī)的ip,并將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),存儲(chǔ)進(jìn)已下載網(wǎng)頁(yè)庫(kù)中。此外,將這些URL放進(jìn)已抓取URL隊(duì)列。
4.分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。