N30 專業實習 編號ZV3
1. 研究結論
本研究以自然語言處理(NLP)與層面式情感分析(ABSA)為核心方法,針對台灣上市公司之財報文本進行情緒結構化標註與模型建置。研究的主要結論如下:
(1)財報文本確實包含可挖掘之情緒資訊。
透過人工標註可以觀察到,企業在報告書中常出現與營運成果、成本結構、需求變化等相關的語意訊號。這些語意內容具有一定情緒傾向,顯示財報文字除了傳達資訊之外,也反映管理階層對經營狀況的態度。
(2)人工標註結構有助於後續模型的訓練。
本研究以 (Aspect, Opinion, Category) 的三元素方式標註資料,再搭配後續情緒極性的推斷與模型預測,證明細粒度的 ABSA 架構能讓模型學習到企業文本中的語義關係。然而,由於財報語句專業性高,標註仍需人工審查,顯示 AI 與人工合作是必要流程。
(3)完整研究流程具可行性,並可擴展至不同產業文本。
雖然模型表現有限,但研究證實本研究建立的流程(標註 → 訓練 → 預測 → 評估)可正常運作,且財報文本的語意結構具一定共通性,因此未來具有擴展至製造業、金融業甚至 ESG 報告之潛力。
2. 研究限制
本研究雖成功建立財報情緒分析的基本流程,但在資料、方法與模型面仍存在若干限制,需要於未來研究中進一步改善。以下整理本研究的主要限制:
(1)資料量有限,無法充分支援深度學習模型。
本研究的人工標註資料僅約316筆,而 ABSA 層面的任務屬於細粒度抽取式問題,需要大量多樣化語句才能讓模型有效學習。資料量不足也導致模型的召回率偏低,影響整體 F1-score。
(2)人工標註未包含情緒極性,需仰賴後續規則式推斷。
由於情緒極性(Sentiment)較難統一判斷,本研究未在人工標註階段直接標示情緒,而是依靠生成器與模型自行判定。此作法容易使模型受到錯誤情緒標籤影響,降低訓練品質。
(3)資料增強方法偏向模板化,語意多樣性不足。
雖然生成器成功產生大量合成資料,但模板句型重複度高,語意自然度有限,使模型容易學到模板特徵,而非真正的語意關係,此為模型「學壞」(data drift)的主要原因之一。
3. 實務建議
本研究主要從財報文本中萃取情緒資訊,雖然模型效能仍有限,但仍能提出以下實務層面的應用建議,供企業與投資決策者參考。
(1)企業應善用財報語氣作為對外溝通策略的一部分。
財報中的語氣與用詞不僅反映經營者的態度,也會被外部分析師或投資人解讀成市場信心指標。企業可定期檢視自身語句使用是否過度保守或不一致,以提升對外溝通的透明度與一致性。
(2)投資決策可將「財報情緒」納入輔助分析工具。
雖然模型精準度仍有待提升,但財報文字中的情緒變化確實能反映管理階層的預期,例如市場需求、營運風險等方向。投資人可將情緒指標視為輔助訊號,搭配基本面資料進行綜合評估。
(3)企業資訊部門可逐步導入 NLP 工具,提升報告分析效率。
大量財報、法說會內容若完全依靠人力閱讀,耗時且不易維持一致性。導入 NLP 模型可協助初步分類、摘要與情緒分析,減少人工負擔,並提升財務分析流程的標準化程度。
4. 未來研究建議
根據本研究的實作過程與模型結果,未來研究可從以下方向持續改進,以提升財報情緒分析的準確度與應用價值:
(1)擴大人工標註語料規模,提升語意多樣性。
本研究僅標註約 440 筆財報句子,資料量偏小,且多集中於特定公司或章節。若能蒐集更多年度、更多產業、更多公司之財報文本,並建立更大規模的人工標註語料庫,將能有效提升模型的泛化能力。
(2)在標註階段加入情緒極性,提高四元組品質。
目前的人工資料僅包含三元素(Aspect、Opinion、Category),情緒極性由模型或規則式方法補齊,容易造成誤差。未來可於人工標註階段直接加入 Positive/Negative/Neutral,以提升訓練資料的完整性與一致性。
(3)改善資料增強策略,引入語意改寫模型(Semantic Augmentation)。
本研究的生成器雖能快速擴充語料,但模板化程度高。未來可透過 T5、Llama 3、ChatGPT 等生成式模型進行語意改寫、句型轉換與語氣替換,讓語料更接近真實財報語句,以避免模型「學壞」。
(4)導入更大型或財務專屬的語言模型進行訓練。
MT5-small 參數量較低,無法完全捕捉財報語意。未來可考慮使用:
-
MT5-base / MT5-large
-
BloombergGPT、FinGPT 等財務領域 LLM
-
Llama 3 或專用微調模型
以提高語意理解能力與情緒預測正確率。
(5)引入句法結構(Syntax)或上下文資訊(Context),提升抽取式能力。
財報語句多為複句或隱含情緒的敘述,僅依靠單句預測容易誤判。未來可嘗試:
-
句法樹(Dependency Parsing)
-
段落級上下文
-
文件級情緒流變分析(Sentiment Flow)
以更貼近財報中「漸進式情緒」的特性。