謝清麟教學/研究 blog: OSCE真人考官 vs AI 考官之回饋內容與品質比較

2025年7月2日星期三

不能比速度！！

那能比較內容與品質嗎？

先說如何提升回饋品質！！

先以2～3個AI (e.g., ChatGPT+Gemini+Cluade）依據評估表給予回饋，彙整後，再請專家確認。

最後可以產生三種AI回饋版本：1. AI+專家確認之完整版（未限制AI）；2. AI完整版（未限制AI）；3.以真人考官回饋之字數版本（限制AI回饋字數版）。上述3版本再與真人考官之回饋比較。

評估表可為國際現有知名量表如 GKCSAF或我們自行發展的量表（COT或REST）。

-------------------------------------------------------------------

以下是Claude AI的評論：

這個研究構想很有實用價值，針對醫學教育中的客觀結構式臨床考試(OSCE)回饋機制進行創新探索。讓我分析這個設計的優勢與可能的改進方向：

研究設計優勢

多層驗證機制 您採用的「AI初步評估→專家確認→多版本比較」流程很周全，能有效控制AI回饋的品質與可靠性。

版本控制策略 三個版本的設計巧妙地區分了不同變因：

評估標準化

AI協作最佳化

專家參與深度

評估一致性 真人考官間的回饋品質本身可能存在變異，建議：

情境適應性 不同OSCE站別可能需要不同的回饋策略，可考慮：

這個研究架構為醫學教育的數位轉型提供了實證基礎，有望為未來的混合式評估模式奠定基礎。