研究方法 | My Site

3.1 研究流程概述

本研究的整體流程如圖 1 所示，主要包含五個階段：(1) 財報資料蒐集；(2) 文本前處理；(3) 三元素標註資料建構；

(4) 模型訓練；(5) 模型評估與誤差分析。

3.2 資料來源與蒐集方式本研究的資料來源主要包含以下三類：

（1）公開資訊觀測站（MOPS）本研究蒐集 2020 至 2024 年間上市公司年度報告與股東會年報摘要，特別聚焦於「管理層討論與分析（MD&A）」與「營運概況」章節，因其多以主觀語氣敘述營運成果與展望。

（2）產業涵蓋範圍為避免資料偏向單一產業，本研究選取電子、金融、製造、傳產與服務業之公司，確保語料具多樣性與跨產業性。

（3）資料清理流程蒐集後進行多輪清理，包括：1.移除無文字內容（如表格、編號、附錄）2.排除過短（少於 6 字）或過長（超過 50 字）的句子3.去除重複句或明顯無情緒資訊的句子4.最終共整理出約 1,000 句可用財報文本作為本研究初始語料。

3.3 資料前處理與人工標註

（1）AI 句子擷取與前處理

由於財報文本內容龐大，

本研究採用 AI 工具協助句子擷取，包括：

1.自動句子斷詞與分段

2.關鍵詞比對（如成長、下降、回升、挑戰等）

3.初步判斷是否涉及財務表現或市場資訊

接著由研究成員逐句審核，排除以下句型：

1.與營運無關（如公司沿革、社會責任口號等）

2.文意不完整

3.重複或無法辨識情緒方向

此流程能提升後續標註品質，兼具效率與可控性。

（2）標註架構設計（Aspect, Opinion, Category）

本研究參考 SemEval-2016 Task 5 架構，

並依照財報特性制定「情緒標註準則」

。如圖 2 所示。

（3）標註規則摘要

以下為本研究制定的核心規則：

1.Aspect 必須是被 opinion 修飾、語意完整的名詞。

2.不可截用不完整詞，

如「營運」若語意過泛則不標。

3.Opinion 限定為語意明確的動詞或形容詞。

4.不含副詞、時間字或數值，如「持續提升 5%」→ 標註為「提升」。

5.Category 必須從固定名單選取，不得自創。

同一句可標註多組，若多重情緒彼此衝突，保留主要意義者。

（4）人工審查

1.Aspect 與 Opinion 不對應

2.Category 使用錯誤

3.意見詞過度冗長

4.標註不一致