甘雨乳液狂飙,可以直接看A片的国产网站

Eclipse中配置Heritrix的方法圖文教程

作者：專題點擊：91次評論：0次標(biāo)簽： Eclipse

Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡(luò)爬蟲，用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴展性，方便用戶實現(xiàn)自己的抓取邏輯。不過Heritrix在Eclipse中的應(yīng)該如何配置、運行呢？下面東坡小編就給大家說說Eclipse中配置Heritrix的方法圖文教程。

在 Eclipse 中的配置
首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下載的源代碼包根據(jù)以下步驟來配置這個工程。
1. 導(dǎo)入類庫
Heritrix 所用到的工具類庫都在 heritrix-1.14.4-src\lib 目錄下，需要將其導(dǎo)入 MyHeritrix 工程。
1）將 heritrix-1.14.4-src 下的 lib 文件夾拷貝到 MyHeritrix 項目根目錄；
2）在 MyHeritrix 工程上右鍵單擊選擇“Build Path -> Configure Build Path …”，然后選擇 Library 選項卡，單擊“Add JARs …”，如圖 1 所示。
圖 1. 導(dǎo)入類庫 - 導(dǎo)入前

3）在彈出的“JAR Selection”對話框中選擇 MyHeritrix 工程 lib 文件夾下所有的 jar 文件，然后點擊 OK 按鈕。如圖 2 所示。
圖 2. 選擇類庫

設(shè)置完成后如圖 3 所示：
圖 3. 導(dǎo)入類庫 - 導(dǎo)入后

2. 拷貝源代碼
1）將 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三個文件夾拷貝進(jìn) MyHeritrix 工程的 src 下。這三個文件夾包含了運行 Heritrix 所必須的核心源代碼；
2）將 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷貝到 MyHeritrix\src\org\archive\util 中。該文件是一個頂級域名列表，在 Heritrix 啟動時會被讀��；
3）將 heritrix-1.14.4-src\src 下 conf 文件夾拷貝至 Heritrix 工程根目錄。它包含了 Heritrix 運行所需的配置文件；
4）將 heritrix-1.14.4-src\src 中的 webapps 文件夾拷貝至 Heritrix 工程根目錄。該文件夾是用來提供 servlet 引擎的，包含了 Heritrix 的 web UI 文件。需要注意的是它不包含幫助文檔，如果想使用幫助，可以將 heritrix-1.14.4.zip\docs 中的 articles 文件夾拷貝到 MyHeritrix\webapps\admin\docs（需新建 docs 文件夾）下�；蛑苯佑� heritrix-1.14.4.zip 的 webapps 文件夾替換 heritrix-1.14.4-src\src 中的 webapps 文件夾，缺點是這個是打包好的 .war 文件，無法修改源代碼。
拷貝完畢后的 MyHeritrix 工程目錄層次如圖 4 所示。這里運行 Heritrix 所需的源代碼等已經(jīng)準(zhǔn)備完備，下面需要修改配置文件并添加運行參數(shù)。
圖 4. MyHeritrix 工程的目錄層次

3. 修改配置文件
conf 文件夾是用來提供配置文件的，里面包含了一個很重要的文件：heritrix.properties。heritrix.properties 中配置了大量與 Heritrix 運行息息相關(guān)的參數(shù)，這些參數(shù)的配置決定了 Heritrix 運行時的一些默認(rèn)工具類、Web UI 的啟動參數(shù)，以及 Heritrix 的日志格式等。當(dāng)?shù)谝淮芜\行 Heritrix 時，只需要修改該文件，為其加入 Web UI 的用戶名和密碼。如圖 5 所示，設(shè)置 heritrix.cmdline.admin = admin:admin，“admin:admin”分別為用戶名和密碼。然后設(shè)置版本參數(shù)為 1.14.4。
圖 5. 設(shè)置登陸用戶名和密碼

4. 配置運行文件
在 MyHeritrix 工程上右鍵單擊選擇“Run As -> Run Configurations”，選擇 Java Application, 確保 Main 選項卡中的 Project 和 Main class 選項內(nèi)容正確，如圖 6 所示。其中的 Name 參數(shù)可以設(shè)置為任何方便識別的名字。
圖 6. 配置運行文件—設(shè)置工程和類

然后在 Classpath 頁選擇 UserEntries 選項，此時右邊的 Advanced 按鈕處于激活狀態(tài)，點擊它，在彈出的對話框中選擇“Add Folders”，然后選擇 MyHeritrix 工程下的 conf 文件夾。如圖 7 所示。
圖 7. 添加配置文件

至此我們的 MyHeritrix 工程已經(jīng)可以運行起來了。下面我們來看看如何啟動 Heritrix 并設(shè)置一個具體的抓取任務(wù)。
5.創(chuàng)建網(wǎng)頁抓取任務(wù)
找到 org.archive.crawler 包中的 Heritrix.java 文件，它是 Heritrix 爬蟲啟動的入口，右鍵單擊選擇“Run As Java Application”，如果配置正確，會在控制臺輸出如圖 8 所示的啟動信息。
圖 8. 運行成功時控制臺輸出

在瀏覽器中輸入 http://localhost:8080，會打開如圖 9 所示的 Web UI 登錄界面。

輸入之前設(shè)置的用戶名 / 密碼：admin/admin，進(jìn)入到 Heritrix 的管理界面，如圖 10 所示。因為我們還沒有創(chuàng)建抓取任務(wù)，所以 Jobs 顯示為 0。
圖 10. Heritrix 控制臺

Heritrix 使用 Web 用戶界面來啟動、設(shè)置爬行參數(shù)并監(jiān)控爬行，簡單直觀，易于管理。下面我們以北京林業(yè)大學(xué)首頁 (http://www.bjfu.edu.cn/) 為種子站點來創(chuàng)建一個抓取實例。
在 Jobs 頁面創(chuàng)建一個新的抓取任務(wù)，如圖 11 所示，可以創(chuàng)建四種任務(wù)類型。
圖 11. 創(chuàng)建抓取任務(wù)

Based on existing job：以一個已經(jīng)有的抓取任務(wù)為模板生成新的抓取任務(wù)。
Based on a recovery：在以前的某個任務(wù)中，可能設(shè)置過一些狀態(tài)點，新的任務(wù)將從這個設(shè)置的狀態(tài)點開始。
Based on a profile：專門為不同的任務(wù)設(shè)置了一些模板，新建的任務(wù)將按照模板來生成。
With defaults：這個最簡單，表示按默認(rèn)的配置來生成一個任務(wù)。
這里我們選擇“With defaults”，然后輸入任務(wù)相關(guān)信息，如圖 12 所示。
圖 12. 創(chuàng)建抓取任務(wù)“BJFU”

注意圖 11 中下方的按鈕，通過這些按鈕可以對抓取工作進(jìn)行詳細(xì)的設(shè)置，這里我們只做一些必須的設(shè)置。
首先點擊“Modules”按鈕，在相應(yīng)的頁面為此次任務(wù)設(shè)置各個處理模塊，一共有七項可配置的內(nèi)容，這里我們只設(shè)置 Crawl Scope 和 Writers 兩項，下面簡要介紹各項的意義。
1）Select Crawl Scope：Crawl Scope 用于配置當(dāng)前應(yīng)該在什么范圍內(nèi)抓取網(wǎng)頁鏈接。例如選擇 BroadScope 則表示當(dāng)前的抓取范圍不受限制，選擇 HostScope 則表示抓取的范圍在當(dāng)前的 Host 范圍內(nèi)。在這里我們選擇 org.archive.crawler.scope.BroadScope，并單擊右邊的 Change 按鈕保存設(shè)置狀態(tài)。
2）Select URI Frontier：Frontier 是一個 URL 的處理器，它決定下一個被處理的 URL 是什么。同時，它還會將經(jīng)由處理器鏈解析出來的 URL 加入到等待處理的隊列中去。這里我們使用默認(rèn)值。
3）Select Pre Processors：這個隊列的處理器是用來對抓取時的一些先決條件進(jìn)行判斷。比如判斷 robot.txt 信息等，它是整個處理器鏈的入口。這里我們使用默認(rèn)值。
4）Select Fetchers：這個參數(shù)用于解析網(wǎng)絡(luò)傳輸協(xié)議，比如解析 DNS、HTTP 或 FTP 等。這里我們使用默認(rèn)值。
5）Select Extractors：主要是用于解析當(dāng)前服務(wù)器返回的內(nèi)容，取出頁面中的 URL，等待下次繼續(xù)抓取。這里我們使用默認(rèn)值。
6）Select Writers：它主要用于設(shè)定將所抓取到的信息以何種形式寫入磁盤。一種是采用壓縮的方式（Arc），還有一種是鏡像方式（Mirror）。這里我們選擇簡單直觀的鏡像方式：org.archive.crawler.writer.MirrorWriterProcessor。
7）Select Post Processors：這個參數(shù)主要用于抓取解析過程結(jié)束后的掃尾工作，比如將 Extrator 解析出來的 URL 有條件地加入到待處理的隊列中去。這里我們使用默認(rèn)值。
設(shè)置完畢后的效果如圖 13：

圖 13. 設(shè)置 Modules
設(shè)置完“Modules”后，點擊“Settings”按鈕，這里只需要設(shè)置 user-agent 和 from，其中：
“@VERSION@”字符串需要被替換成 Heritrix 的版本信息。
“PROJECT_URL_HERE”可以被替換成任何一個完整的 URL 地址。
“from”屬性中不需要設(shè)置真實的 E-mail 地址，只要是格式正確的郵件地址就可以了。
對于各項參數(shù)的解釋，可以點擊參數(shù)前的問號查看。本次任務(wù)設(shè)置如圖 14 所示。
圖 14. 設(shè)置 Settings

完成上述設(shè)置后點擊“Submit job”鏈接，然后回到 console 控制臺，可以看到我們剛剛創(chuàng)建的任務(wù)處于 pending 狀態(tài)，如圖 15 所示。
圖 15. 啟動任務(wù)

點擊“Start”啟動任務(wù)，刷新一下即可看到抓取進(jìn)度以及相關(guān)參數(shù)。同時可以暫停或終止抓取過程，如圖 16 所示。需要注意的是，進(jìn)度條的百分比數(shù)量并不是準(zhǔn)確的，這個百分比是實際上已經(jīng)處理的鏈接數(shù)和總共分析出的鏈接數(shù)的比值。隨著抓取工作不斷進(jìn)行，這個百分比的數(shù)字也在不斷變化。
圖 16. 開始抓取

同時，在 MyHeritrix 工程目錄下自動生成“jobs”文件夾，包含本次抓取任務(wù)。抓取下來網(wǎng)頁以鏡像方式存放，也就是將 URL 地址按“/”進(jìn)行切分，進(jìn)而按切分出來的層次存儲。如圖 17 所示。
圖 17. 抓取到的網(wǎng)頁

從圖 17 也可以看出，因為我們選擇了 BroadScope 的抓取范圍，爬蟲會抓取所有遇到的 URL，這樣會造成 URL 隊列無限制膨脹，無法終止，只能強行終止任務(wù)。盡管 Heritrix 也提供了一些抓取范圍控制的類，但是根據(jù)實際測試經(jīng)驗，如果想要完全實現(xiàn)自己的抓取邏輯，僅僅靠 Heritrix 提供的抓取控制是不夠的，只能修改擴展源代碼。

MyEclipse軟件合集
c++編譯器軟件大全
安卓開發(fā)工具
java開發(fā)工具

: (57)MyEclipse軟件合集; java開發(fā)程序MyEclipse是在eclipse的基礎(chǔ)上加上了自己的插件，可以幫助企業(yè)集成更強大的開發(fā)環(huán)境，同時也是JavaEE的集成開發(fā)環(huán)境，東坡這里將所有MyEclipse軟件整理了一個合集分享給大家，有破解版，有相關(guān)插件，還有注冊機等，需要的可以自己選擇下載!
...更多>>

下載
myeclipse10中文破解版10.7.1 官方
04-11 / 902.0M
推薦理由：很多用戶在下載安裝myeclipse10發(fā)現(xiàn)軟件的界面全部都是英文的，為了讓不懂英文的用戶也能夠順利的使用軟件，
下載
MyEclipse6.0破解版簡體中文免費版
04-11 / 444.6M
推薦理由：MyEclipse6.0是對EclipseIDE的擴展，利用它我們可以在數(shù)據(jù)庫和JavaEE的開發(fā)、發(fā)布以及應(yīng)用程序服務(wù)器的整合
下載
myeclipse2014破解版官方中文版【3
04-12 / 1.16G
推薦理由：作為一款非常好用的Java和J2EE的開發(fā)平臺myeclipse擁有非常多的強大功能，東坡為大家提供了myeclipse2014破
下載
myeclipse10漢化補丁漢化插件【附帶
04-11 / 3M
推薦理由：嘗試了幾次myeclipse10中文包的安裝以后小編終于將myeclipse10成功漢化，如果是完全沒有接觸過myeclipse10的
下載
MyEclipse 2015 Stable 2.0完美漢化
04-14 / 1.35G
推薦理由：在大手眼里，MyEclipse歷代版本的破解都不是什么難事兒，但是，更多的是小白用戶，甚至于跟著網(wǎng)上的教程都破
下載
myeclipse 8.5 簡體中文完美破解版
04-07 / 832M
推薦理由：MyEclipse是一個十分優(yōu)秀的用于開發(fā)Java,J2EE的Eclipse插件集合，MyEclipse的功能非常強大，支持也十分廣泛

: (6)c++編譯器軟件大全; ‍c++編譯器是現(xiàn)在學(xué)習(xí)以及需要c++編程的朋友都是離不開一款不錯的c++編譯器的，那么你想知道現(xiàn)在最好使用的c++編譯器是哪些以及適合c++編譯器的都是哪些軟件嗎？下面是小編精心的給有需要使用到c++編譯器的朋友挑選的一些網(wǎng)絡(luò)上評價比較好的c++編譯器，大家趕快來挑選一下吧！
...更多>>

下載
Visual Studio 2017 15.5 正式版中
12-05 / 2.00G
推薦理由：VisualStudio2017年最后一個版本全新上線以及更新，修復(fù)了一些bug問題，同時也是對軟件的性能進(jìn)行了很大的改
下載
GCC 7.1編譯器(GNU編譯器套裝)7.1.
05-04 / 30.7M
推薦理由：為了慶祝GCC30周年，JakubJelinek發(fā)布了30年以來的首個Beta版本GCC7.17.1，它是面向GNU系統(tǒng)開發(fā)打造的開源的
下載
dev c++下載(DEV-C++)5.9.2 多語安
06-03 / 81.8M
推薦理由：Dev-C++最貼近C++標(biāo)準(zhǔn)，支持單文件編譯，采用GCC編譯器，在Windows環(huán)境下可能沒有Cl(微軟的編譯器)快。比較
下載
VC++6.0穩(wěn)定版win10版綠色免安裝【
12-28 / 79.7M
推薦理由：很多win10的用戶使用VC++6.0時都提示不兼容，安裝也安裝不上，東坡這里帶來VC++6.0的綠色穩(wěn)定版，已親測win
下載
Microsoft Visual C++2017綠色免費
05-24 / 271.3M
推薦理由：MicrosoftVisualC++2017是一款非常好用的編程工具，給大家提供最新的2017版本下載，相信很多用戶都用過這款
下載
Microsoft Visual C++ 2013運行庫
10-20 / 48.4M
推薦理由：VC運行庫是系統(tǒng)運行庫里很重要的一個，如果沒有它的支持，很多軟件都運行不了，MicrosoftVisualC++2013是最

: (14)安卓開發(fā)工具; 安卓開發(fā)軟件以及游戲在現(xiàn)在是非常的熱門的行業(yè)的，那么想更好的開發(fā)出各種安卓應(yīng)用以及游戲，就需要有一些不錯的安卓開發(fā)工具軟件來幫助你了！現(xiàn)在有需要下載一些安卓開發(fā)環(huán)境搭建以及安卓開發(fā)視頻教程的朋友就可以來本站這里瞧瞧看看，有哪些是你現(xiàn)在需要使用到的！‍
...更多>>

下載
iTestin(自動化APP測試工具)4.2.4
08-13 / 90.6M
推薦理由：iTestin是一款自動化APP測試工具，iTestin基于Windows平臺，為Android和iOS設(shè)備提供黑盒測試的自動化工具，
下載
Android Studio 下載2017 最新更新
10-19 / 1.80G
推薦理由：AndroidStudio開發(fā)工具是一款基于app開發(fā)的軟件，此版本軟件已經(jīng)非常穩(wěn)定了，不會出現(xiàn)各種bug，此軟件相比E
下載
微軟PowerApps1.0官方綠色版
05-09 / 21.8M
推薦理由：PowerApps是一款SaaS產(chǎn)品，通過類似Office365的環(huán)境，用戶可以輕易地將各種已有的多種云端服務(wù)和企業(yè)內(nèi)部數(shù)
下載
百寶云開發(fā)工具1.003 官網(wǎng)破解vip版
01-06 / 4.7M
推薦理由：百寶云開發(fā)工具主要是針對云服務(wù)定制的一款開發(fā)平臺工具，不需要繁復(fù)的操作，只需要懂簡單的百寶云腳本、服
下載
融云Android SDK2.3.3 全能開發(fā)版
10-21 / 5.5M
推薦理由：融云AndroidSDK，0成本投入，無縫融合，快速集成，服務(wù)穩(wěn)定，提供多平臺SDK及API，只需幾行代碼，即可實現(xiàn)豐
下載
安卓開發(fā)環(huán)境(Android Studio) Win
06-03 / 361.2M
推薦理由：AndroidStudio是谷歌開發(fā)的一個全新的Android開發(fā)環(huán)境，該工具的開發(fā)環(huán)境和模式更加的豐富和便捷，能夠支持

: (11)java開發(fā)工具; java開發(fā)工具是現(xiàn)在一些java工程師們都是需要使用到的開發(fā)工具，但是很多的java開發(fā)工具的功能都是不一樣的，學(xué)習(xí)java的程度不一樣，就會使用到不一樣的java開發(fā)工具！想找到一些適合自己的水平的java開發(fā)工具，就可以來本站為你精心挑選的一些適合初學(xué)者以及大神級的java開發(fā)工具，總會有一款是適合你的！‍
...更多>>

下載
Myeclipse10.7.1破解版【附注冊碼】
09-27 / 852.9M
推薦理由：Myeclipse10.7.1是一款非常不錯的程序開發(fā)軟件，軟件主要用于Java、JavaEE以及移動應(yīng)用的開發(fā)。該軟件功能十
下載
myeclipse 2017 ci8正式版最新版【
09-22 / 29.1M
推薦理由：myeclipse2017ci8是最新版本的myeclipse工具，新版修復(fù)了很多問題，在參數(shù)上面加了高級設(shè)置，可以自動檢測，
下載
myeclipse9.0中文版官方簡體中文版
05-24 / 911.7M
推薦理由：作為一款使用非常廣泛的java開發(fā)平臺，myeclipse的使用非常的廣泛，但是因為沒有官方中文版，導(dǎo)致很多新用戶
下載
javasntm編程軟件1.0 綠色版
09-08 / 16M
推薦理由：javasntm編程軟件一款很不錯的長須調(diào)試編程軟件，這款軟件操作簡單，使用方便，擁有窗口探測、json解析、百
下載
java class反編譯工具(Class反編譯
08-15 / 838KB
推薦理由：對class文件進(jìn)行加密混淆的類文件，一般情況下，我們是看不到其源代碼的。這里為您提供的是javaclass反編
下載
Wijmo新一代JavaScript控件3.0 官網(wǎng)
03-21 / 144.7M
推薦理由：Wijmo是一款JavaScript控件擁有靈活的API，為用戶提供便捷的操作體驗，幫助程序員開發(fā)出精美的產(chǎn)品！歡迎來