基于lucene的垂直搜索引擎的研究與設計論文
摘 要:隨著互聯網技術的不斷發展,通用搜索引擎就需要采集的更多的信息和內容,但是面對巨大的搜索結果,用戶要想準確找到他們所需要的信息,這樣將會耗費很大的精力。因此,需要以數據的特定領域為重點,全面進行深入的研究,注重專業化的垂直搜索引擎就產生了,它能夠準確、及時返回用戶需要的信息。本文主要分析垂直搜索引擎的特點和結構,并分析了基于Lucene的垂直引擎的研究和設計,對提高互聯網信息的搜索速度具效率具有重要的意義。
隨著互聯網的飛速發展,互聯網信息迅猛增長,人們已經習慣從互聯網上獲取他們所需的信息。然而,一些通用搜索引擎無法及時準確地反饋給人們需要的信息,不能夠做到有針對性的搜索一些信息,無法滿足人們的基本需求。在進行搜索的過程中,想搜索一件物品,系統將會提供給你很多的搜索結果。但是,這些搜索引擎返回結果中有大量排在前面的信息可能不是我們需要的,這樣就會讓人感覺郁悶,得不到自己想要的信息。而且,60%的搜索引擎沒有機會收錄一些有價值的的信息,需要用戶進行注冊才能夠得到一些更有價值的信息。基于lucene的垂直搜索引擎,能夠及時、準確給用戶反饋出他們需要的信息。
1 垂直搜索引擎的概述
垂直搜索引擎能夠在一些專業領域得到廣泛的應用,為用戶提供更加便捷的搜索服務。垂直搜索引擎能夠在某一特定領域內啟動一些網絡爬蟲,在進行網頁下載的時候,能夠找到和本地網頁庫中相關的信息,然后對這些信息進行處理,將一些數據轉化為結構化數據,最后反饋給用戶的搜索入口。垂直搜索能夠有針對性進行搜索,能夠根據用戶的具體要求進行搜索和檢測,為他們提供具有非常鮮明特色的搜索服務,這種搜索引擎一個非常突出的特點就是深入、詳細。由于通用搜索引擎搜索的范圍十分廣泛,因此,它不能滿足細致的搜索工作,不能夠將準確的信息反饋給需要的特定人群[2]。根據市場需求的多樣化,搜索引擎必須進行細分,給人們提供準確的搜索服務。
2 垂直搜索引擎的特點和框架結構設計
2.1 垂直搜索的特點 垂直搜索引擎能夠有針對性進行搜索,能夠準確提供給人們需要的信息。通用的搜索引擎更加注重數據分離和關鍵詞搜索,垂直搜索更多注重文本的分離,對數據信息進行處理,使得數據能夠滿足人們的'需求,通用的搜索引擎就不需要考慮數據結構。由于相關信息垂直搜索引擎只需要捕捉到一些某個特定的行業,這樣的信息采集方式的使用只需要爬蟲找題相關信息,垂直搜索引擎具有以下特點。一是垂直搜索引擎的爬蟲具有定制性,能夠深入抓取特定行業的一些信息。二是垂直搜索引擎是針對行業的特點來進行抓取信息的,以網站的數據為例,各種人才網數據源的來源于求職的網站,從股票網站中搜索到相關的信息。三是垂直搜索引擎更傾向于抓住一些結構化數據和元數據,例如,在尋找一所房子的過程中,其能夠捕捉到相關的地理位置、價格、小區環境、房地產價格等一些系統的信息[3]。
2.2 垂直搜索引擎的框架設計 垂直搜索引擎的建設需要做好以下幾個方面的工作。一是網站分析。抓捕器需要設置所需的網站信息,并且還要結合特定的行業模板進行抓捕工作。二是站點初始化分析。一些網站需要用戶登錄以后才能夠獲得詳細信息,因此,有必要在垂直搜索引擎中,設置這個注冊和登錄過程,這樣才能夠完善詳細的信息。三是頁面爬蟲。網絡爬蟲主要負責抓取一些web數據。四是數據分析。分析有用的鏈接和數據,并且利用爬蟲來提取這些新的數據。五是建立索引。將爬蟲抓取到的信息進行整理和分析,將這些信息進行選擇并存儲在數據庫中當中,并結合數據庫來建立索引,以便能夠快速獲取信息。六是搜索查詢。設計一個個性化的應用程序,或融合一些其他網站,能夠搜索到其他網站的一些信息。
3 基于Lucene的垂直引擎的設計
3.1 lucene全文搜索框架 Lucene是一個子項目,能夠有效利用開放源代碼來對全文的搜索,它能夠給開發人員提供了大量的外部接口,這是一個易于使用的工具。在垂直搜索引擎的部件當中,建立基于Lucene的索引和查詢,用戶只需要按照該方法來進行操作,就能夠實現對全文進行檢索。因為Lucene是開源的,具有面向全體對象的特點,程序員還能夠在此基礎
【基于lucene的垂直搜索引擎的研究與設計論文】相關文章:
垂直綠化的設計研究論文11-04
垂直搜索引擎核心技術研究及展望論文11-07
基于手持設備的智能球研究與設計論文11-02
關于搜索引擎的研究論文11-04
基于寒冷地區公共空間設計方法研究論文11-01
基于環境科學優化城市公園的設計研究論文04-14