top of page

3.1 研究流程概述

本研究的整體流程如圖 1 所示,主要包含五個階段:(1) 財報資料蒐集;(2) 文本前處理;(3) 三元素標註資料建構;

(4) 模型訓練;(5) 模型評估與誤差分析。

 

截圖 2025-11-17 凌晨12.51.05.png

3.2 資料來源與蒐集方式本研究的資料來源主要包含以下三類:

(1)公開資訊觀測站(MOPS)本研究蒐集 2020 至 2024 年間上市公司年度報告與股東會年報摘要,特別聚焦於「管理層討論與分析(MD&A)」與「營運概況」章節,因其多以主觀語氣敘述營運成果與展望。

(2)產業涵蓋範圍為避免資料偏向單一產業,本研究選取電子、金融、製造、傳產與服務業之公司,確保語料具多樣性與跨產業性。

(3)資料清理流程蒐集後進行多輪清理,包括:1.移除無文字內容(如表格、編號、附錄)2.排除過短(少於 6 字)或過長(超過 50 字)的句子3.去除重複句或明顯無情緒資訊的句子4.最終共整理出約 1,000 句可用財報文本 作為本研究初始語料。

3.3 資料前處理與人工標註

(1)AI 句子擷取與前處理

由於財報文本內容龐大,

本研究採用 AI 工具協助句子擷取,包括:

1.自動句子斷詞與分段

2.關鍵詞比對(如成長、下降、回升、挑戰等)

3.初步判斷是否涉及財務表現或市場資訊

接著由研究成員逐句審核,排除以下句型:

1.與營運無關(如公司沿革、社會責任口號等)

2.文意不完整

3.重複或無法辨識情緒方向

此流程能提升後續標註品質,兼具效率與可控性。

(2)標註架構設計(Aspect, Opinion, Category)

本研究參考 SemEval-2016 Task 5 架構,

並依照財報特性制定「情緒標註準則 」

。如圖 2 所示。

(3)標註規則摘要

以下為本研究制定的核心規則:

1.Aspect 必須是被 opinion 修飾、語意完整的名詞。

2.不可截用不完整詞,

如「營運」若語意過泛則不標。

3.Opinion 限定為語意明確的動詞或形容詞。

4.不含副詞、時間字或數值,如「持續提升 5%」→ 標註為「提升」。

5.Category 必須從固定名單選取,不得自創。

同一句可標註多組,若多重情緒彼此衝突,保留主要意義者。

(4)人工審查

1.Aspect 與 Opinion 不對應

2.Category 使用錯誤

3.意見詞過度冗長

4.標註不一致

截圖 2025-11-17 凌晨12.51.27.png
bottom of page