2 March 2022
 
文字探勘(Text mining)是資料探勘(Data mining)的延伸,比起資料探勘以分析具有明確定義及數值的結構式資料為主,文字探勘則是進一步從非結構化的複雜文字資料中提取隱含的資訊,例如:自然語言背後所隱含的知識、意見與情緒,可協助產業將既存文字資料或各類型紀錄文本加以分析,達到提升管理效能、處理異常偵測、維護週期預測、分析輿情…目的。除利用文字探勘發掘語言文字背後的深意外,另一種分析方式則是文本共現(Co-occurrence),透過共現網路了解字詞同時出現的頻率進而評估是否具有關聯性、關聯性高低等等,常見於文獻間的相互引用、影音推薦系統等等。
Python 文字探勘 蔡芸琤 助理教授
 
使用文字探勘技術進行非結構化資料分析時,會經過資料蒐集、資料剖析(parsing)提取關鍵字、資料過濾(filtering)設定字典、資料轉換(transformation)等過程,以獲取初步探勘結果。而在這個過程中,則會一再根據各階段的探勘結果調整過濾的方式、參數及字典,達到建立一個能夠高效大量從文字描述中獲取更深層意義的文字探勘模型。
本課程中先以數據分析套件Pandas進行文檔讀取、建立斷詞字典並以斷詞套件jieba進行斷詞、透過collection進行特徵篩選,最後以文字雲(word cloud)型態完成資料關聯度分析的視覺化。

Python 文本共現網路分析 蔡芸琤 助理教授
 
在資料科學中,字詞間(或知識點)共同出現在所擷取之文本語料單元的現象稱之為「共現(Co-occurrence)」,共現的頻率愈高,代表兩字詞間的關係愈緊密。在文本共現網路圖中,節點間的連線粗細代表兩字詞共同出現的次數多寡;節點的面積愈大則表示該單一字詞出現的次數愈多;如果該字詞與多個其他字詞均有關,則會使該字詞的位置偏向於文本共現網路圖的中心。然而,網路圖並非毫無缺點,其雖分析詳盡但製作頗為繁複,因此在資料量較少的情況下,亦可改採熱點圖進行簡化版的共現分析圖像化。
共現的作成經歷了爬蟲、將非結構化資料轉成結構化資料、製作DataFrame、輸出為CSV檔,建立檢索詞-文獻矩陣(Term Document Matrix,TDM)後,最終透過矩陣轉置相乘得到共現矩陣(Co-occurrence matrix)。共現網路分析可用於文獻推薦、影音推薦系統等;在法律科技層面上,則可透過自定義不同關鍵詞,用於評估不同犯罪間的關聯性、不同量刑因子的關聯性等。

 
 
財團法人理律文教基金會著作權所有,非經同意不得翻印轉載或以任何方式重製. 
© Lee and Li Foundation., All rights reserved.
訂閱理律學堂影音報   取消收閱理律學堂影音報