top of page

4.1 資料概況與描述性統計

本研究所使用的資料來源包含人工標註之財報語料,以及後續由生成器產生的合成資料。為了協助模型理解財報文本中的語意特徵,本節首先整理資料量、情緒分布與標註內容之概況。

(一)人工標註資料量與內容比例

本研究最初從多家上市公司財報中擷取句子,經過 AI 初步擷取搭配人工審查後,共整理出 300 多句可用財報語料。

在這些句子中,共標註出 約 316 組有效三元素 (Aspect, Opinion, Category)。

下圖(三)為人工標註資料的基本統計:

截圖 2025-11-17 凌晨12.51.47.png
截圖 2025-11-17 凌晨12.52.02.png
截圖 2025-11-17 凌晨12.52.14.png

(二)合成資料(生成器 v4)統計為補足人工資料量不足,本研究開發「Financial ABSA Generator v4」生成合成文本。該生成器採用模板式語句結構、隨機插入數值與時間詞,並搭配規則式情緒判斷函數自動產生情緒標籤。最終共產生 2,000 筆合成資料,並確保正向、負向、中立情緒的分布相對平衡,如圖 4 所示。(三)整體資料量統計如圖 5 所示。

(四)三大情緒分布(合成資料)

生成器會依規則自動平衡情緒,因此合成資料的情緒比例大致如圖 6 所示:

此分布使模型在情緒分類任務上能避免偏向單一情緒類別。

截圖 2025-11-17 凌晨12.52.23拷貝.png
截圖 2025-11-17 凌晨12.52.36.png

4.2 人工標註資料分析本節針對本研究之人工標註資料(資料 444.jsonl)進行統計與分析。

人工資料共 316 行句子,雖然整體標註量不大,但內容涵蓋營收、獲利、產品、市場等財報文本常見主題,能提供模型初步學習財務語意結構的基礎。

(一)標註資料整體概況如下圖(七)所示:

  (二)Aspect(主題)分布分析如下圖(八)所示。

 

從圖 8 中可觀察到:

1.財務績效類(EPS、營收、毛利率、淨利)最為集中

→ 反映財報文本主要以獲利狀況為重點。

2.市場所需指標比例高(出貨量、市佔率、需求)

→ 展現企業在產品銷售與市場動能上的描述。

3.科技產業特有名詞也明顯出現(如雲端業務)

→ 顯示語料包含科技股常用敘事。

(三)Opinion(意見詞)分布分析圖(九)

 

從圖 9 中可觀察到:

1.財報專用比較詞最常見:季增、年減

→ 為台灣上市公司季報、年報常用的變化詞彙。

2.「優於/低於市場預期」比例高

→ 顯示原始文本大量描述企業績效相對市場預期的差異,

屬於財報中典型的管

理層語氣。

3.正向詞(成長、增加、提升)與負向詞(年減、低於預期)分布均衡

→ 表示語料包含正負向情緒,有助於模型判斷情緒極性。

4.3 生成資料分析與人工資料比較

為補足人工標註資料量不足,本研究使用自行開發之「Financial ABSA Generator v4」產生 2,000 筆合成語料。本節從生成資料的語意特性、情緒分布與模板結構三方面進行分析,並與人工標註資料做比較,以探討兩者差異對模

型訓練之影響。

(一)人工資料 vs 生成資料比較

如圖 13 所示:

截圖 2025-11-17 凌晨12.54.08.png
截圖 2025-11-17 凌晨12.52.52.png
截圖 2025-11-17 凌晨12.55.13.png

從圖 13 中可觀察到: 1.人工資料=語意正確 + 自然語氣 + 品質高 → 但數量少,無法支撐深度模型訓練。 2.生成資料=量大 + 均衡情緒 + 易學 → 但模板化明顯,缺乏語意多樣性。 兩者互補,才能讓 MT5-small 進行初步訓練。

(二)資料差異對模型的影響結合模型訓練與後續誤差分析,生成資料與人工資料差異帶來以下影響:

優點(有助於訓練)

1.大幅提升訓練資料量(316 → 2,316)。

2.情緒分布均衡,避免模型偏向正向。

3.提供模型多種句型片段、固定語法可快速學習。

缺點(造成後續模型表現偏弱)

1.模板化句型 → 模型容易「記句型」而不是學語意。

2.部分模板語義不自然 → 造成模型 drift。

3.Category 與 Opinion 來源受限 → 多樣性不足。

4.和真實財報的語氣差異大 → 影響泛化能力

4.4 模型訓練結果

本節呈現 MT5-small 模型於測試資料上的預測表現。本研究分別評估五項

任務:

1.Aspect 抽取

2. Category 預測

3. Opinion 判讀

4. Sentiment(情緒極性)

5. 嚴格四元組 (A, C, O, S) 預測

模型效能以 Precision、Recall 與 F1-score 進行衡量,結果如圖 14 所示。

 

(一).模型整體表現概述

整體而言,模型呈現 「Precision 高、Recall 低」 的典型小樣本現象:

在 Aspect 與 Category 任務上,Precision 皆達 0.96,顯示模型能「準確」

預測部分元素。

然而,Recall 僅約 0.11,表示模型能抓到的真正標註很少,導致最終 F1-score

落在 0.20 左右。

最困難的任務是 嚴格四元組 (A, C, O, S),因需同時四項都正確,因此 F1 只

有 0.0738。

此結果反映模型在語意擷取上的能力有限,尤其在句子含有隱含語意、長句

或財務語境較複雜時,模型易出現遺漏。

(二).各任務表現重點

1. Aspect / Category 的高 Precision 現象

(1)因為這兩類標籤集中於固定字詞(如:營收、需求、成本等),模型較容易

在文本中辨識。

(2)但遇到較抽象的詞(如「營運效率」、「市場動能」)時,召回率仍偏低。

2. Opinion 辨識能力弱

(1)財報語句中的情緒動詞多樣(成長、下滑、改善、持穩等),模型未形成足

夠語意連結。

(2)模型容易標錯 Opinion 或整段忽略。

3. Sentiment(極性)F1-score 偏低

(1)財報文風相對委婉、間接(如「持穩」、「微幅下滑」),情緒不如一般評

論明顯。

(2)情緒極性與數值、上下文強相關,模型在小樣本情況下難形成穩定判斷。

4. 嚴格四元組難度最高

(1)因為四項只要錯一個就算錯。

(2)模型最常出錯的組合是:

 Aspect 抽對但 Opinion 抽錯

 Category 與 Aspect 不匹配

 Sentiment 極性判斷錯誤

本研究使用 MT5-small 進行 ABSA 四元素預測,結果顯示模型在固定名詞

(Aspect、Category)表現良好,但在 Opinion 與 Sentiment 任務中仍具明顯

挑戰,整體 Recall 偏低,導致四元組任務的整體 F1-score 落在 0.07~0.20。

模型訓練結果反映資料量不足、語意複雜度高、生成資料模板化等限制,相關原

因將於下一節誤差分析中詳細說明。

截圖 2025-11-17 凌晨12.55.23.png
bottom of page