情感詞獲取與分類評級論文
一、研究背景
近年來BBS的迅速發展,主觀性的言論越來越多。如何構建一個高效的系統對如此豐富的信息資源進行分析和處理,成為一個重要的研究問題。而對BBS信息資源的分析和處理,可以通過中心詞和情感詞兩個維度進行處理。對于中心詞的歸類已經有了相對較為完整的分析體系,產生了很多有監督的學習方法以及文本特征表示方法和特征選擇機制。而情感詞的分類和評級以主觀詞為主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。本文主要以中山大學BBS的帖子為研究內容,選擇合適的情感詞分類方法,對情感詞進行細分及評級,從而得出一個滿足中大BBS輿情分析系統的情感詞分類體系。
二、國內外研究現狀分析
目前,基于語義的文本傾向性研究方法主要有兩種:
一種是通過現有詞典構建情感傾向詞典。如,Hiroya利用待測詞與褒義詞、貶義詞的語義距離計算待測詞匯的語義傾向性;Ku等利用WORDNET中的其他與詞匯相關的信息來判斷詞匯的語義傾向性;徐琳宏等采用HOWNET作為基準詞,并在實驗中加入否定詞和副詞的處理,計算待測詞與關聯度確定語義傾向,從語義理解方面對電影評論進行了傾向性識別研究。
另一種是建立一個語義模式庫,采用語義分析技術用于文本傾向性判斷。例如,復旦大學的朱嫣嵐等年提出的基于HOWNET的.詞匯語義傾向計算方法,利用詞語間的相似度來計算詞的褒貶程度。路彬等設計了一種基于語義分析的信息過濾模型,該模型針對不良信息的特點,以自然語句為處理單元,采用主題詞和語義分析的兩級過濾工作模式。
但情感詞的分類和評級以主觀詞為主,因此針對中心詞的選擇機制及方法在情感詞上不能完全加以應用。
三、研究目標
通過對帖子出現的情感的類型與強度進行標引,將情感詞進行分類,把情感詞的強度按正面到負面分成等級進行標引。其中的軟件處理流程類似于中心詞的標引。當新詞(解析字典沒有的詞)發現以后,通過語義相近度計算軟件,比較與字典中詞匯的相近程度,通過人工干預(半自動或全自動)進行中心詞與情感詞的添加。
最后通過對帖子數據的分析和調查,對情感詞的分類和標引,開發一個可以實現將中大bbs的帖子進行實時抓取和自動分類的系統。
四、研究內容
帖子的分類標引以及中心詞的主題分類標引這兩個方面在去年師兄師姐的努力下已經完成了44067個帖子的抓取和分類,因此今年我們主要針對帖子情感詞分類以及評級這一塊開始入手。
情感心理學認為,情感的基本類型可以分為以下四種:即快樂,憤怒,恐懼和悲傷。
為進一步解決這個問題,我們通過對人類情感有關資料的查找發現:人的感情復雜多樣,由于不同事情引起的同一類情感也有許多不同,即使是同一個人對同一件事情在同一個環境下也可能會有不同的情感,而不同的視野角度對情感詞的分類也有所不同。因此通過對BBS中隨機抽取的詞語,我們除去可以分類的,根據無法準確分類的進行歸納,我們利用知網發布的wordsimilarity進行義項查找,發現一項出現頻率較高的情感類型:憐憫。
古人云:人有七情六欲,對于心理學來說,七情分別是:喜怒哀樂驚恐憐。喜怒哀樂驚恐都可以在基本類型中找到位置,而憐似乎放在哪一個類型里面都不完全恰當。
綜上,我們把憐憫列為單獨的一項。情感大類分為:快樂,憤怒,恐懼,悲哀和憐憫五種。
快樂是指一個人期望和追求的目的達到后產生的情緒體驗。由于需要得到滿足,愿望得以實現,心理的急迫感和緊張感解除,快樂隨之而生:
樂:指歡樂,身心愉悅,充滿幸福的一種情感;
喜:包括喜愛、喜悅、喜好、喜歡、高興、快樂等情感。
憤怒是指需求受到抑制或阻礙,愿望無法實現時產生的情緒體驗。憤怒時緊張感增加,有時不能自我控制,甚至出現攻擊行為:
怒:包括憤怒、惱怒、發怒、怨恨、憤恨等情感。
恐懼是當危險狀況出現時,人們企圖擺脫和逃避,而又無力應付時產生的情緒體驗:
驚:指驚咤、驚愕、驚慌、驚悸、驚奇、驚嘆、驚喜、驚訝等情感;
恐:指恐慌、恐懼、害怕、擔心、擔憂、畏懼等情感。
悲哀是指心愛的事物失去時,或者夢想破滅時產生的情緒體驗:
哀:包括悲傷、悲痛、悲哀、憐憫、哀憐、哀愁、哀憫、哀怨、哀思等情感。
憐憫是指對肉體或精神上遭受痛苦的人或者對不幸的人表示同情的情緒體驗:
憐:包括憐憫、哀憐、同情等情感。
為了使分類體系可以更加規范準確的劃分情感詞,我們利用知網發布的wordsimilarity對以上五類情感詞進行義原判斷,得到以下結果:
為了方便分類,我們再把情感詞義原兩兩之間進行距離計算,得到以下結果:
對此,我們可以發現害怕,生氣,悲哀三個負面情感詞兩兩之間的距離和相似度是一樣的;而喜悅,憐憫分別與三個負面義原之間的距離和相似度是一樣的;憐憫與喜悅之間的距離和相似度與憐憫與其他三個負面義原之間的距離和相似度是一樣的。
因此,我們先著手研究負面情感詞三個義原之間的關系,我們先依據義原距離構建一個等邊三角形,三角形的三個頂點分別為三個義原,如圖:害怕→生氣→悲哀→生氣→害怕
為了進一步確認分類體系,我們在上一屆同事的工作基礎上,通過對他們抓取到部分中大BBS帖子(共5578個)人工篩選的情感詞進行驗證,共342個。由4個成員獨立進行情感詞的類型分類,從中取得分類一致的結果,對于有歧義的情感詞,我們對其進行再次分類,刪除無法得出一致結果的詞語。以同樣的步驟對正面情感詞進行操作。
這樣,結合HOWNET發布的,一共得到各類情感詞978個,分類如下表。
即在此基礎上,建立情感詞分類體系如下:
五、結語
本分類體系是根據已有研究成果和從中大BBS帖子中已抽取出并去重后的情感詞詞表的基礎上確立的分類體系,通過人工分類和修正,將情感詞進行有效分類,這個分類比簡單分正面情感詞和負面情感詞更適用于中大BBS的輿情分析系統.對于類別“其他”中的詞匯,應在后續情感詞分類中會根據情感詞的情況對各子類進行必要的添加、去除或修正。
【情感詞獲取與分類評級論文】相關文章:
對信用評級的思考監管論文06-13
環境評級水利水電論文05-29
關于對大機械行業的評級和研判的論文04-05
情感角度詩歌的分類04-12
公允價值獲取技術研究論文04-12
從失誤中獲取機遇議論文07-01
教師評級述職報告11-04
教師評級述職報告10-29
教師評級述職報告11-15