top of page

1. 相關理論、研究回顧

本研究以自然語言處理(Natural Language Processing, NLP)與情感分析(Sentiment Analysis)為核心理論基礎,輔以層面式情感分析(Aspect-Based Sentiment Analysis, ABSA)模型進行實作。

情感分析的理論基礎源於心理語言學與計算語言學,主要目的是判定文本中所表達的情感極性(如正向、負向或中立)。在傳統的分類式方法中,研究者多以詞典(Lexicon-based)為基礎,如 Loughran & McDonald (2011) 所建立的財務專屬情感詞典,即針對英文財報語料進行情緒標註,藉以判定公司年報與投資風險之間的關聯。

層面式情感分析(Aspect-Based Sentiment Analysis, ABSA)進一步細分文本中的意見目標與情緒對象,將句子拆解為「主題(Aspect)」、「面向(Category)」、「觀點(Opinion)」與「情緒(Sentiment)」四個層次。這種細粒度的分析能更準確地辨識出文本中不同主題的情緒傾向。本研究採用的 ABSA 方法,參考 SemEval(Semantic Evaluation)競賽所提供的資料結構與標註方式,並以多語言模型 MT5 進行微調(Fine-tuning),以適應中文財報文本的語意特徵。

在財務領域的應用方面,Loughran & McDonald (2011) 的研究開啟了以文字語氣分析企業財務狀況的先河。Li (2010) 則指出企業年報中的語言長度與用詞複雜度與盈餘管理有顯著關聯;Engelberg (2008) 進一步發現公司管理層在財報中所使用的語氣能預測股價反應。

綜合前述理論,本研究基於 NLP、ABSA 與財務文本分析的學術基礎,嘗試將深度學習模型應用於台灣上市公司財報文本中,建立適用於繁體中文語料的財報情緒辨識模型,並驗證情感趨勢與企業經營績效之間的潛在關聯。

 

2. 研究架構

根據前述研究動機與文獻回顧,本研究的整體架構如圖 2-1 所示(可於報告中自行插入研究架構圖),主要分為四個階段:資料蒐集、資料前處理與標註、模型建構與訓練、模型評估。研究流程如下所述:

1.資料蒐集階段:

本研究以台灣上市公司之財報文本與股東報告書為主要資料來源,從公開資訊觀測站及公司年報中擷取文字內容,涵蓋金融、科技、製造等不同產業別,確保語料多樣性。

2.資料前處理與標註階段:

將原始文本進行斷詞(Tokenization)、清理(Normalization)與格式化(Segmentation),排除數字、符號與重複語句後,再由研究團隊依照 ABSA 四元組格式(Aspect, Category, Opinion, Sentiment)進行人工標註,以建立高品質訓練資料集。

3.模型建構與訓練階段:

採用 MT5 模型進行微調訓練,輸入財報句子後,模型輸出對應的四元組情緒標籤。為提升準確率,本研究亦引入資料增強技術(Data Augmentation),將部分人工標註資料透過語意改寫與隨機替換產生新樣本,以擴充訓練集規模。

4.模型評估階段:

以 Precision、Recall 與 F1-score 作為主要評估指標,比較不同模型與參數設定的效能差異,並透過人工驗證檢視模型預測結果的合理性。

綜合而言,本研究的研究架構以 NLP 技術為核心,結合 ABSA 模型與人工標註資料,建立一套完整的財報情緒分析流程,期能在學術與實務上皆展現創新性與應用價值。

bottom of page