**目前我使用的生成式 AI / Agent 技術**
1. **Codex Agent 作為總控代理**
- 負責讀取資料夾、規劃流程、執行工具、整合逐字稿/PPT/PDF/影片證據。
- 產出評分規準、評語、Word 報告、追蹤修訂。
2. **語音轉文字 ASR**
- 使用本機 `faster-whisper small` 模型。
- 將兩段 MP4 抽音訊後轉成逐字稿,保留時間碼。
- 目前逐字稿可用於流程判讀,但英文專有名詞錯誤較多。
3. **影片與影像處理**
- 使用 FFmpeg/FFprobe。
- 抽取音訊、影片資訊、5 分鐘畫面接觸表。
- 用來建立時間碼證據與課程進度判斷。
4. **文件與教材解析**
- 解析 PPTX 投影片文字、字級、頁數。
- 解析 PDF 講義文字與頁面內容。
- 對照教師講解、投影片與講義。
5. **LLM 評分與回饋生成**
- 依據評分量表與時間碼證據,生成:
- 評分向度
- 得分/扣分理由
- 明確依據
- 改善建議
- 教師可理解的回饋語句
6. **Word 報告生成與追蹤修訂**
- 使用 `python-docx` / OOXML 操作建立 Word。
- 可做追蹤修訂,例如你後來要求只修改黃色標示的字詞。
**目前流程**
1. 資料盤點
讀取特定資料夾,確認影片、PPT、PDF。
2. 影片前處理
抽音訊、確認影片長度與解析度、每 5 分鐘抽畫面。
3. 逐字稿產生
用 ASR 產生時間碼逐字稿,輸出 `.md/.csv/.srt/.json`。
4. 教材分析
分析 PPTX 投影片與 PDF 講義,判斷主題流、可讀性、認知負荷。
5. 評分規準建立
先做自建授課評分,再讀取「知識講授評分量表」,重整成適合本課程的精簡與整合量表。
6. 評分與依據對應
用時間碼、教材證據、逐字稿摘要支撐各向度分數。
7. 回饋報告生成
產出多份 Word / Markdown:
- 整合評量報告
- 追蹤修訂版
- 深入授課歷程評論與回饋報告
**目前限制**
- ASR 對英文專有名詞不穩,會影響細節判讀。
- 錄影主要是螢幕畫面,無法可靠評估教師眼神、姿態、學生反應、課堂互動。
- 目前評分仍由 Agent 綜合判斷,尚未做到多評分者一致性檢驗。
- Word 視覺渲染 QA 在本機 LibreOffice 多次卡住,所以只能做結構檢查,無法完整頁面圖檢查。
**改善建議**
1. **建立人工校正逐字稿流程**
尤其校正英文術語、專有名詞。這會大幅提高評分可信度。
2. **建立「證據資料庫」**
每個評分項目都固定連到:
- 時間碼
- 投影片頁碼
- 逐字稿句子
- 評分理由
這樣後續報告會更可追溯。
3. **分成多個專門 Skiils**
ASR/逐字稿 Skill
固定處理音訊抽取、轉錄、時間碼、低信心標記、專有名詞提醒。PPT/PDF 教材分析 Skill
固定檢查教材結構、認知負荷、圖文清晰度、章節邏輯、take-home message。影片時間軸 Skill
固定產出每 5 或 10 分鐘段落摘要、教學活動、證據時間碼、可評論片段。評分 Skill
固定套用評分量表、權重、扣分依據、證據對應,避免評分漂移。教師回饋語言改寫 Skill
固定把批判性語句改成教師能理解、可接受、可執行的回饋語言。PPT/講義修改建議生成
4. **加入第二評分者或重複評分**
讓 Agent 先獨立評兩次,或用不同提示評分,再比較差異,提升一致性。
5. **建立教師友善版與研究版雙報告**
- 教師版:少分數、多建議、語氣溫和。並且提供修改後講義/PPT,以供受評者參考。
- 研究版:保留量表、分數、證據、限制。
6. **未來若可取得教室全景或學生聲音**
就能補評目前無法評的項目:互動設計、回饋品質、學生理解檢核、學習氣氛。
整體來說,目前流程已經可作為「AI 輔助教學錄影評量」雛形;下一步若要研究化,重點是把逐字稿校正、證據對應、評分一致性做得更嚴謹。
沒有留言:
張貼留言