批量對(duì)網(wǎng)站的url進(jìn)行采集,全百科關(guān)鍵詞URL采集工具支持不同的搜索引擎,批量自動(dòng)處理,重復(fù)數(shù)據(jù)刪除,使用非常的方便。
軟件優(yōu)勢(shì)
支持多搜索引擎,很方便添加集成。(已內(nèi)置了百度,搜狗,360),結(jié)構(gòu)模塊化,很方便進(jìn)行擴(kuò)展,可以無限添加。
做了兼容性優(yōu)化。
支持自動(dòng)過濾重復(fù)內(nèi)容,支持過濾標(biāo)題中存在指定關(guān)鍵詞的內(nèi)容,支持過濾域名;
從搜索引擎采集到的地址,是真實(shí)網(wǎng)站地址,不是像百度快照那樣的三方地址;
多進(jìn)程同時(shí)采集。每個(gè)搜索引擎都單獨(dú)一個(gè)進(jìn)程;
可靈活的通過配置文件自定義要保存的結(jié)果格式。比如只輸出帶參數(shù)的原始真實(shí)URL,或者只輸出域名,或者同時(shí)輸出標(biāo)題,搜索引擎名稱。
可自定義每頁采集時(shí)間間隔,防止被屏蔽;
URL格式語法
URL由三部分組成:資源類型、存放資源的主機(jī)域名、資源文件名。
也可認(rèn)為由4部分組成:協(xié)議、主機(jī)、端口、路徑
URL的一般語法格式為:
(帶方括號(hào)[]的為可選項(xiàng)):
protocol :// hostname[:port] / path / [;parameters][?query]#fragment
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版