網頁信息表格化提取程序的論文
摘 要:
本文介紹了基于MSHTML設計開發的網頁信息表格化提取程序的原理、程序結構和工作流程,使用網頁信息提取、網頁元素解析、采集配置管理三大功能模塊,實現對網頁及其內部關聯信息的提取、解析、整理和表格化顯示,創新使用了對網頁屬性值和樹路徑值進行確認的二元檢查機制,能夠實現對指定信息的準確提取。本文還舉例說明了程序的操作步驟和實際效果。
引言
當今是網絡高速發展、信息量急劇膨脹的信息時代,人們通過信息來互相交流,認識世界。在信息中存在著大量有價值的信息要素,這些有價值的信息要素大都以網頁的形式存在,其內容和格式千差萬別。如果通過瀏覽器進行瀏覽和閱讀不存在問題,但若需要將感興趣的某類信息及其內部關聯信息保存下來并進行整理,目前常用的工具普遍存在著某些缺點,比如網絡蜘蛛等爬蟲工具無法實現對內部關聯信息的提取。因此,本人作者使用MSHTML語言設計了網頁內部表格化提取的自動程序,可以完成對網頁及內部關聯信息的保存、整理和表格化顯示,能夠明顯提高對信息的利用效率。
1、信息提取原理分析
人們通過瀏覽器所看到的頁面,是由很多的頁面元素組裝在一起的,其中既有常見的圖片和文字,也有專門的結構元素,所有這些頁面元素經過一定的組合形成了我們看到的頁面。對網頁進行進行提取,實質上就是使用一定技術方法將指定的網頁元素進行解析、特征匹配和顯示的過程。
網頁信息的元素可以分為以下三種級別:
頂級元素(Top-level element):共有html、body和frameset三種,屬于高級塊級元素,表現類似塊級元素。
塊級元素(Block-level element):能夠獨立存在且元素之間可以換行分割,常用的塊級元素有p、div、ul、table等。
內聯元素(inline element):依附其他塊級元素存在,緊接于被聯元素之間顯示并且不換行,常用的內聯元素包括img、span、li、br等。
2程序的設計思想
2.1 采集原理
2.2 二元檢查機制
2.3 程序功能設計
3 程序結構及工作流程
3.1主要功能
3.2 運行流程
4程序的主要功能實現方法
4.1采集配置管理
4.2網頁元素解析
5 運行測試
5.1 讀取頁面
5.2 配置采集
5.3 采集網頁信息
5.4查看采集結果
6、結語
隨著網絡化的`快速發展,人們對網頁元素的需求越來越轉向個性化分類和精確提取,以往面向全部內容的野蠻采集方式已經無法滿足目前的需求,對其進行針對性的研究有著積極意義。
網頁信息表格化提取程序通過網頁信息提取、網頁元素解析、采集配置管理三大功能模塊的分工協作,實現對網頁及其內部關聯信息的提取、解析、整理和表格化顯示,不僅克服了以往網頁信息抓取工具不能提取內部關聯網頁信息的不足,使得程序的適用性、擴展性明顯提高,而且程序中創新使用的對網頁屬性值和樹路徑值進行確認的二元檢查機制,能夠實現對指定信息的準確提取,極大提升了程序結果的精確性。
雖然網頁信息表格化提取程序在精確性、適用性和擴展性上取得了進步,但也存在一些不足,希望以后能找到更好的解決方法....
【網頁信息表格化提取程序的論文】相關文章:
信息化建設論文精選02-19
信息化建設論文02-18
信息化技術論文04-05
網頁設計的視覺信息傳達分析論文04-22
信息化與網絡化的建設論文07-03
網絡信息化有關的論文03-12
會計信息化論文03-30
高中信息技術《在網頁中插入表格》說課稿07-14
網頁設計中表格和層排版的使用技巧論文04-19