22 July 2020
 
法律資料分析:從入門到精通(一)
邵軒磊 教授
法律資料分析透過三步驟:電腦模仿人類做決策、告訴人類電腦如何決策、終至主動提供人類不知道的資訊,使法律工作者能更加精確且快速地作成判斷。以法院審酌未成年子女親權為例,在抽絲剝繭數百筆判決並綜合評估學說及法條後,提取重要的法律要素進行資料標註,比如主要照顧者、子女意願、親子
互動…分析其權重關係,並以類神經網路(Artificial Neural Network)模型進行計算,最終機器預測成果與實際判決結果高度相符,甚至能歸納出其他未知資訊。訴訟或仲裁等紛爭解決之機制倘與AI結合得宜,可大幅提升效率,惟若運用不當,恐反而招致加深固有偏見的危機,故須審慎。
 
法律資料分析:從入門到精通(二)
林常青 教授
法實證分析流程包含三步驟:判決書資料擷取、建立模型、分析與預測。然而判決書屬欠缺固定欄位、格式、順序的非結構化資料,在資料處理上有其難度,除了需要領域知識的輔助以精準判讀,更須克服標註的障礙:人工標註成本過高,而利用電腦自動標註,又面臨中文同義詞複雜、法律特殊用語、雙重
否定詞分散於不同語句、個別判決文言或用語迥異等問題。期許更多法律工作者投入資料分析,促成實務改革並推動判決書撰寫結構化,以利將重要審酌因素進行標註、納入決策樹,完成有效之法律分析。
 
法律資料分析:從入門到精通(三)
蘇豐文 教授
自然語言處理(Natural Language Processing,NLP)已有多種運用,例如偵測詐騙郵件、人名辨別、機器翻譯、語音辨識等等。自引入機器學習(Machine Learning)演算法後,以往的程式語言規則轉而趨向以統計機率呈現資料,讓機器理解自然語言特性。隨著自然語言處理進入專業領域,有時學者
會選擇最能減少資料亂度(Entropy,或稱「熵」)的標註,來決定決策樹模型,使機器學會分析句式、理解整個句子的語意。然而在標註過程中,除了中文本質上容易發生斷詞分歧外,新生詞彙、繁複的指代詞、錯綜的句式結構…均構成標註的障礙。標註失準或標註偏見殘留將造成句意中重要因素漏未判斷、悖離現實、加深偏見等錯誤結果。因此斷詞、詞彙的中立化(neutralize)或除偏(debiasing)成為採行自然語言處理必須關注的議題。
 
 
財團法人理律文教基金會著作權所有,非經同意不得翻印轉載或以任何方式重製. 
© Lee and Li Foundation., All rights reserved.
訂閱理律學堂影音報   取消收閱理律學堂影音報