2026年5月30日 星期六

多模態教學評量 Agent 流程(評量講者/老師之表現)---半自動、研究助理型流程

**目前我使用的生成式 AI / Agent 技術**

1. **Codex Agent 作為總控代理**

   - 負責讀取資料夾、規劃流程、執行工具、整合逐字稿/PPT/PDF/影片證據。

   - 產出評分規準、評語、Word 報告、追蹤修訂。

2. **語音轉文字 ASR**

   - 使用本機 `faster-whisper small` 模型。

   - 將兩段 MP4 抽音訊後轉成逐字稿,保留時間碼。

   - 目前逐字稿可用於流程判讀,但英文專有名詞錯誤較多。

3. **影片與影像處理**

   - 使用 FFmpeg/FFprobe。

   - 抽取音訊、影片資訊、5 分鐘畫面接觸表。

   - 用來建立時間碼證據與課程進度判斷。

4. **文件與教材解析**

   - 解析 PPTX 投影片文字、字級、頁數。

   - 解析 PDF 講義文字與頁面內容。

   - 對照教師講解、投影片與講義。

5. **LLM 評分與回饋生成**

   - 依據評分量表與時間碼證據,生成:

     - 評分向度

     - 得分/扣分理由

     - 明確依據

     - 改善建議

     - 教師可理解的回饋語句

6. **Word 報告生成與追蹤修訂**

   - 使用 `python-docx` / OOXML 操作建立 Word。

   - 可做追蹤修訂,例如你後來要求只修改黃色標示的字詞。

**目前流程**

1. 資料盤點  

   讀取特定資料夾,確認影片、PPT、PDF。

2. 影片前處理  

   抽音訊、確認影片長度與解析度、每 5 分鐘抽畫面。

3. 逐字稿產生  

   用 ASR 產生時間碼逐字稿,輸出 `.md/.csv/.srt/.json`。

4. 教材分析  

   分析 PPTX 投影片與 PDF 講義,判斷主題流、可讀性、認知負荷。

5. 評分規準建立  

   先做自建授課評分,再讀取「知識講授評分量表」,重整成適合本課程的精簡與整合量表。

6. 評分與依據對應  

   用時間碼、教材證據、逐字稿摘要支撐各向度分數。

7. 回饋報告生成  

   產出多份 Word / Markdown:

   - 整合評量報告

   - 追蹤修訂版

   - 深入授課歷程評論與回饋報告

**目前限制**

- ASR 對英文專有名詞不穩,會影響細節判讀。

- 錄影主要是螢幕畫面,無法可靠評估教師眼神、姿態、學生反應、課堂互動。

- 目前評分仍由 Agent 綜合判斷,尚未做到多評分者一致性檢驗。

- Word 視覺渲染 QA 在本機 LibreOffice 多次卡住,所以只能做結構檢查,無法完整頁面圖檢查。

**改善建議**

1. **建立人工校正逐字稿流程**

   尤其校正英文術語、專有名詞。這會大幅提高評分可信度。

2. **建立「證據資料庫」**

   每個評分項目都固定連到:

   - 時間碼

   - 投影片頁碼

   - 逐字稿句子

   - 評分理由  

   這樣後續報告會更可追溯。


3. **分成多個專門 Skiils**

 

  1. ASR/逐字稿 Skill
    固定處理音訊抽取、轉錄、時間碼、低信心標記、專有名詞提醒。

  2. PPT/PDF 教材分析 Skill
    固定檢查教材結構、認知負荷、圖文清晰度、章節邏輯、take-home message。

  3. 影片時間軸 Skill
    固定產出每 5 或 10 分鐘段落摘要、教學活動、證據時間碼、可評論片段。

  4. 評分 Skill
    固定套用評分量表、權重、扣分依據、證據對應,避免評分漂移。

  5. 教師回饋語言改寫 Skill
    固定把批判性語句改成教師能理解、可接受、可執行的回饋語言。

  6.  PPT/講義修改建議生成







4. **加入第二評分者或重複評分**

   讓 Agent 先獨立評兩次,或用不同提示評分,再比較差異,提升一致性。


5. **建立教師友善版與研究版雙報告**

   - 教師版:少分數、多建議、語氣溫和。並且提供修改後講義/PPT,以供受評者參考。

   - 研究版:保留量表、分數、證據、限制。


6. **未來若可取得教室全景或學生聲音**

   就能補評目前無法評的項目:互動設計、回饋品質、學生理解檢核、學習氣氛。


整體來說,目前流程已經可作為「AI 輔助教學錄影評量」雛形;下一步若要研究化,重點是把逐字稿校正、證據對應、評分一致性做得更嚴謹。

2026年5月26日 星期二

AI agent協助臨床技能評估會議

 一、目的 

  • 討論以AI agent與「影音檔/逐字稿分析技術」應用於專業技能、教學或臨床互動影片評估之潛力與後續方向 

  • 清短期優先工作,包括評量表與回饋架構、測試場域、資料來源、影片與音訊品質,以及可操作工具 

 

二、主要討論事項 

  • 技術可行性:AI影片與影像分析技術仍會持續進步,成本亦有下降趨勢;短期關鍵不在技術本身,而在如何定義可評估的內容與回饋方式,以及我們的影片資源/應用情境何在 

  • 評量表與回饋架構:團隊核心競爭力在於評量表、判與可具體修正的回饋架構;評量表持續改良,並可依不同應用情境擴充細項 

  • 應用情境選擇:educational impacts以及影片資源為主要考量不宜侷限OT域,可延伸至臨床互動、專業人員與個案互動、心理師或醫師互動,以及教學場域;其中教學情境與學習者回饋被認為較具初期可行性 

  • 資料與驗證管道:目前仍需找到足夠影片資料、可測試對象與具影響力的場域;若單一管道不可行,可同步探索兩至三個管道BBN教學/影片為確認標的之 

  • 既有影片與品質控管:討論提OSCE考試相關影片、教學錄影檔,以及部分影片可能受使用限制;需確認影像解析度、錄音品質、攝影機配置與是否可改善設備(確保不受系統因素影響,且盡量避免隨機因素影響)。 

 

三、決議 

  • 短期優先事項為建立與修正評量表及回饋架構,而非等待影片分析技術完全成熟。先以BBN為主,思考其它資源。 

  • 應優先挑選具足夠資料、可驗證資源且具影響力的應用情境 

  • 需確認可用影片來源、使用限制、錄音品質、影像解析度與設備改善可能性 

  • 持續測AI agent關工具 (Codex, antigravity…) 

 

四、待辦事項 

項次 

待辦事項 

內容說明 

1 

確認可驗證之資料與場域 

盤點可用的教學、臨床互動、OSCE或其他專業技能影片來源,並評估資料量、可使用性與影響力 

2 

確認影片使用限制 

清國家考試、OSCE或既有教學錄影是否可供研究或測試使用 

3 

確認錄影與錄音品質 

確認攝影機配置、影像解析度、錄音清晰度與設備是否需改善;先排除系統性品質問題 

4 

修訂評量表與回饋架構 

聚焦評估項目、判、細項擴充與具體修正建議,建立可被AI agent套用的評量架構(尤其是BBN與溝通/同理相關之評量表) 

5 

測試AI工具流程 

持續使用antigravityCodex或相關AI agent工具進行流程測試與技術驗證