謝清麟 教學/研究 blog
從2009年7月生涯第1次研究休假開始撰寫 blog,以跟同學、好友交流教學/研究,甚至臨床之心得。
以下是我的座右銘:
Try hard enough, you can get what you want!
Talent is the desire to practice.
Slow and Steady wins the game.
Better to light one candle than to curse the darkness.
你現在的努力 要感動未來的你!
只有藉由他人的視野,才能看到自己思考上的盲點。
2025年7月6日 星期日
數據/稿件的起死回生!?
音檔轉逐字稿與校對--SOP
先用雅婷逐字稿將音檔轉成逐字稿(正確率最高)
再用 Gemini 校對/更正(顯而意見)錯誤(適用長篇逐字稿,可設定 Gem 以自動化校對重點/輸出格式)
再以 NotebookLM 彙整重點(較不會生成新內容)
2025年7月2日 星期三
OSCE真人考官 vs AI 考官之回饋內容與品質比較
不能比速度!!
那能比較內容與品質嗎?
先說如何提升回饋品質!!
先以2~3個AI (e.g., ChatGPT+Gemini+Cluade)依據評估表給予回饋,彙整後,再請專家確認。
最後可以產生三種AI回饋版本:1. AI+專家確認之完整版(未限制AI);2. AI完整版(未限制AI);3.以真人考官回饋之字數版本(限制AI回饋字數版)。上述3版本再與真人考官之回饋比較。
評估表可為國際現有知名量表如 GKCSAF或我們自行發展的量表(COT或REST)。
-------------------------------------------------------------------
以下是Claude AI的評論:
這個研究構想很有實用價值,針對醫學教育中的客觀結構式臨床考試(OSCE)回饋機制進行創新探索。讓我分析這個設計的優勢與可能的改進方向:
研究設計優勢
多層驗證機制 您採用的「AI初步評估→專家確認→多版本比較」流程很周全,能有效控制AI回饋的品質與可靠性。
版本控制策略 三個版本的設計巧妙地區分了不同變因:
- 版本1控制專家介入的影響
- 版本2評估純AI能力
- 版本3控制回饋長度對品質的影響
提升回饋品質的建議
評估標準化
- 建立明確的回饋品質評估指標(如具體性、建設性、可操作性)
- 設計評分量表供後續比較分析使用
AI協作最佳化
- 考慮使用不同AI模型的專長領域分工(如GPT-4處理溝通技巧、Claude處理臨床推理)
- 設計AI間的交互驗證機制
專家參與深度
- 明確專家確認的範圍(僅修正錯誤 vs 全面改寫)
- 記錄專家修改的類型與頻率,作為AI改進依據
潛在挑戰與解決方案
評估一致性 真人考官間的回饋品質本身可能存在變異,建議:
- 增加多位真人考官的回饋作為對照
- 建立考官間信度測試
情境適應性 不同OSCE站別可能需要不同的回饋策略,可考慮:
- 按臨床技能類別分組分析
- 針對溝通技巧 vs 技術操作設計不同評估重點
這個研究架構為醫學教育的數位轉型提供了實證基礎,有望為未來的混合式評估模式奠定基礎。
2025年6月29日 星期日
發展「精神病患職能治療團體帶領表現評估表」--適用於團體帶領逐字稿或錄影檔
「治療團體帶領」之準備、執行、成果與檢討---這些過程極為複雜!!
我們已挑簡單的先下手--計畫書之評估與回饋,目前已可使用 ChatGPT 協助評估與回饋!!
之前我們已累積諸多團體帶領的錄影檔(如前一貼文所示)...
故我們下一階段 似可 推動以下研究計畫 A, B, C, & D:
A. 發展精神病患職能治療團體帶領表現評估表
研究目的:
1. 以 Cole 團體帶領7步驟為理論架構,發展精神病患職能治療團體帶領表現評估表
2. 驗證其內容效度與表面效度
適用情境:團體帶領/執行錄影之「逐字稿」或「錄影檔」
註解:錄影檔之評估,不論專家或AI皆很費力(或需要高階AI效能)... 逐字稿簡單多了,故可作為初步驗證之情境!
B. 以ChatGPT協助精神病患職能治療團體帶領品質之分析與回饋效能
研究目的:
1. 依據A計畫之評估表,發展治療團體帶領技巧評論之ChatGPT工具,再驗證其信效度
2. 依據上述B1之評估結果,發展治療團體帶領技巧回饋之ChatGPT工具,再驗證其信效度
3. 驗證上述工具之教學效能(預期學員於接受上述評估與回饋3次之後,即有明顯進步!)
-------------------------------------------------------
C. 以ChatGPT協助精神病患職能治療團體帶領之Yalom治療因子分析與回饋效能
研究目的:
1. 依據Yalom團體治療之11項治療因子,發展針對「團體帶領逐字稿」治療因子ChatGPT分析工具,再驗證其信效度
2. 依據上述C1之分析結果,發展治療團體治療因子回饋之ChatGPT工具,再驗證其信效度
3. 驗證上述工具之教學效能(預期學員於接受上述分析與回饋3次之後,即有明顯進步!)
-------------------------------------------------------
D. 以ChatGPT協助精神病患職能治療團體帶領與計畫書所提治療原理之一致性分析與回饋效能
研究目的:
1. 依據團體帶領計畫書所提治療原理,發展針對「團體帶領逐字稿」治療原理之ChatGPT分析工具,再驗證其信效度
2. 依據上述D1之分析結果,發展治療團體治療原理回饋之ChatGPT工具,再驗證其信效度
3. 驗證上述工具之教學效能(預期學員於接受上述分析與回饋3次之後,即有明顯進步!)
2025年6月18日 星期三
團體帶領的評估與回饋
我們在臨床收集到的團體錄影檔,應該超過100個團體/錄影檔。
現有AI的技術至少可以分析其音檔/逐字稿(順道做成錄影檔的字幕),且速度快!!
所以我們已啟動「主持人帶領團體表現」之評估與回饋研究計畫!!
另,臨床教學時,後續臨床帶領的團體影音檔,我們應可於2天之內及完成評估與回饋!!
也可交給帶領者自行操作,以快速獲得評分與回饋!!
加上之前計畫書的評分與回饋,即可更完整!!
我相信後續應可證實這些評估與回饋可讓團體帶領的品質與成果「顯著提升」!!
---------------------------------------------------------
上述教學或研究的關鍵在於:「治療師帶領團體表現評估表」之良寙!
2025年6月8日 星期日
Deep Research 的表現應已(遠)超過碩班水準
早上測試 ChatGPT vs Gemini vs Claude 之 Deep Research 表現 (June 8, 2025)。
我的 prompt: "請彙整2023年迄今,以大型語言模型發展虛擬病人或虛擬考官之實證論文,且可於 PubMed 或 Scopus 資料庫可查詢到的實證論文"
三者皆自動解讀 prompt,列出特定執行流程與範疇,以供使用者確認。
如 Gemini:
----------------------------------------------------------------------------
(1) 針對 PubMed 與 Scopus 資料庫,設定關鍵字組合進行檢索,關鍵字包含「大型語言模型」(Large Language Model, LLM)、「生成式AI」(Generative AI)、「虛擬病人」(virtual patient)、「標準化病人」(standardized patient)、「虛擬考官」(virtual examiner) 及「客觀結構式臨床測驗」(OSCE) 等,並將發表日期限定在2023年1月1日迄今。
(2) 篩選搜尋結果,識別出屬於「實證研究」性質的論文,排除純理論探討、評論或會議摘要等非實證文章。
(3) 針對每一篇符合條件的論文,詳細摘要其核心內容,包括:
(a) 研究使用的具體大型語言模型(例如 GPT-4, Llama 等)。
(b) 虛擬病人或考官的應用情境(例如:醫學教育、臨床技能訓練、能力評估)。
(c) 研究方法與設計,包含系統開發流程與評估方式。
(d) 主要研究發現、數據結果與成效。
(4) 綜合所有論文的資訊,分析當前以大型語言模型發展虛擬病人或考官的技術趨勢、主要挑戰(如:回答的準確性、安全性、倫理問題)以及未來研究方向。
(5) 比較不同研究在方法學上的異同,例如提示工程(prompt engineering)的技巧、評估虛擬角色表現的指標,以及衡量的教育成效。
---------------------------------------------------------------------------
我確認或修改後,他們就開始執行!!
約10分鐘後(可去喝茶/咖啡),就彙整出來了,包含參考文獻(正確率很高,皆可連結/驗證)!
效能一定超越碩班畢業生水準,因為時間效率(應是50:1--碩班畢業生至少要花50倍的時間,品質就不說了;博班生或是20:1)。
ChatGPT vs Gemini vs Claude 三者表現差異呢? 我覺得差不多!!
2025年6月6日 星期五
很多精神科EPAs都是生成式AI的立即研究議題
如 4. 擬定適當且完整治療計畫。
5. 記錄與報告病人的臨床事件。
6. 記錄與報告精神疾病病人的臨床資料。