政府網(wǎng)站建設(shè)的網(wǎng)頁內(nèi)容采集頻率和方式
時(shí)間:2022-05-12來源:政府網(wǎng)站建設(shè)
網(wǎng)頁內(nèi)容采集。網(wǎng)頁采集作為政府網(wǎng)頁在線歸檔的第一步,是利用相關(guān)工具,以給定的頻率和方式,及時(shí)選取值得保存的政府網(wǎng)頁內(nèi)容。網(wǎng)頁采集的第一步是確定采集對(duì)象。政府網(wǎng)頁上采集的信息是域名中帶有“gov.cn”的政府網(wǎng)站。為了保證政府網(wǎng)頁的采集質(zhì)量,需要對(duì)目標(biāo)網(wǎng)站進(jìn)行評(píng)估,選擇那些信息規(guī)模大、原生信息豐富、更新頻繁的政府網(wǎng)站作為采集對(duì)象。確定要采集的目標(biāo)政府網(wǎng)站后,還應(yīng)根據(jù)實(shí)際需求選擇相應(yīng)的采集方式。

完整性收集和選擇性收集是目前常用的網(wǎng)絡(luò)資源收集方法。它們各有利弊。為了彌補(bǔ)各自的不足,可以優(yōu)勢互補(bǔ)。采用了結(jié)合兩種方法優(yōu)點(diǎn)的混合收集方法。在收集所有入選政府網(wǎng)站完整性的同時(shí),通過人工干預(yù)對(duì)網(wǎng)站內(nèi)容進(jìn)行篩選,有證據(jù)價(jià)值、歷史價(jià)值和研究價(jià)值的重要網(wǎng)站被有選擇地頻繁收集。這不僅考慮到了政府網(wǎng)站
然而,網(wǎng)頁的收集和抓取最終還是要依靠相應(yīng)的網(wǎng)絡(luò)爬蟲工具。目前網(wǎng)頁存檔的爬蟲工具有很多,其中最常用的是Heritrix和HTTrack。利用這些工具可以批量在線自動(dòng)采集目標(biāo)政府網(wǎng)站的網(wǎng)頁。
地 址:南昌市紅谷灘萬象城置地中心5樓
電 話:400-808-6770
郵 箱:745451506@qq.com

贛公網(wǎng)安備 36010902000279號(hào)
增值電信業(yè)務(wù)許可證:贛B2-20240371