2025年7月6日 星期日

數據/稿件的起死回生!?

數據不好的研究結果,為何可以改變其命運(結果變得比較好,且發表於著名期刊):一個特例!

今年我們發表二篇論文,皆大致發現:GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.(心理&生理領域)(二篇論文皆有 inter-rater reliability 驗證,但ICC結果皆差,二文結論也如此定位--poor inter-rater reliability!我應發表>50篇類似論文了,資料分析與解釋,絕對經驗豐富!)(Note: GKCSAF 是國際著名的溝通技巧評估工具)

因為上述2論文皆有錄音/逐字稿,故我們去年提出新的研究構想:設計 ChatGPT 使用 GKCSAF 以評估逐字稿中學員的溝通技巧,再跟前述2篇論文專家 raters 的評估結果比較。

我們初稿的重點(牛肉)放在「發展 ChatGPT rater」 以及「ChatGPT評估結果跟專家評估結果無顯著差異(如 Figure 1所示:ChatGPT評估的總分大多在專家評估總分之間)」,後者我們的解釋為:代表 ChatGPT rater 或可替代專家評估。那時,我們未驗證效度.... 且ChatGPT與專家評估結果之ICC差(如同已發表論文之結論)...
Figure 1. Total scores of the ChatGPT rater (blue) and human raters (gray).

審稿後,有位審查委員認為我們既沒有驗證效度,主題就勿稱為 "validation", 另一個委員建議我們繪製下圖(各種raters 之評分總分比較) 

Figure 2. 所有 raters 之評分總分比較

Figure 2 讓我們更清楚:各raters 評分結果真的差別有限(總分皆在很窄的區間)!!若此為真(當然要相信數據,但哪一項統計指標的數據?), inter-rater reliability 真的不好嗎?且我們可否將多位專家 raters評分的平均值,當成效標,以驗證效度(concurrent validity)!? 

所以在修改稿件時,我們就增加 "mean absolute error" 以及 "mean absolute error %"二統計指標(這比是否統計顯著,可呈現更直觀的總分差異大小), 再將多位專家 評分的平均值,當成效標,驗證效度!! 我們發現GKCSAF總分在"mean absolute error" 以及 "mean absolute error %"結果不錯(inter-rater reliability & concurrent validity二驗證皆類似),所以支持 ChatGPT rater 總分的 inter-rater reliability & concurrent validity至少是 acceptable!! 我們也說明ICC因為總分差異小(如 Figure 2 所示),故可能造成ICC值被低估。

就這樣(事實上,主筆者--玉正努力了許久/被我嚴厲折磨...)稿件被 (Medical Teacher主編) 接受了!!

此稿件已成為我自認的代表性著作:Ju YJ, Wang YC, Lee SC, Liu CH, Lee ML, Hou CY, Yang CW, Hsieh CL. Development and validation of a GPT-based Rater for Assessing Communication Skills Using the Gap-Kalamazoo Communication Skills Assessment Form. Medical Teacher. 1st July, 2025. Accepted for publication. 

有興趣者可參考玉正的反思與心得

衍生的議題:如這貼文第2段所提--今年我們發表二篇論文,皆大致發現:... poor inter-rater reliability, 這解釋可能有誤阿!!已請玉正個別分析之,再思索是否寫信給主編更正解釋 或 撰寫 letter-to-editor.....以還 GKCSAF 公道!還有自我修正!!

感謝 reviewers 的評論, 讓我們成長,還有接受我們的論文!!

音檔轉逐字稿與校對--SOP

先用雅婷逐字稿將音檔轉成逐字稿(正確率最高)

再用 Gemini 校對/更正(顯而意見)錯誤(適用長篇逐字稿,可設定 Gem 以自動化校對重點/輸出格式)

再以 NotebookLM 彙整重點(較不會生成新內容)

2025年7月2日 星期三

OSCE真人考官 vs AI 考官之回饋內容與品質比較

不能比速度!!

那能比較內容與品質嗎?

先說如何提升回饋品質!!

先以2~3個AI (e.g., ChatGPT+Gemini+Cluade)依據評估表給予回饋,彙整後,再請專家確認。

最後可以產生三種AI回饋版本:1. AI+專家確認之完整版(未限制AI);2. AI完整版(未限制AI);3.以真人考官回饋之字數版本(限制AI回饋字數版)。上述3版本再與真人考官之回饋比較。

評估表可為國際現有知名量表如 GKCSAF或我們自行發展的量表(COT或REST)。

-------------------------------------------------------------------

以下是Claude AI的評論:

這個研究構想很有實用價值,針對醫學教育中的客觀結構式臨床考試(OSCE)回饋機制進行創新探索。讓我分析這個設計的優勢與可能的改進方向:

研究設計優勢

多層驗證機制 您採用的「AI初步評估→專家確認→多版本比較」流程很周全,能有效控制AI回饋的品質與可靠性。

版本控制策略 三個版本的設計巧妙地區分了不同變因:

  • 版本1控制專家介入的影響
  • 版本2評估純AI能力
  • 版本3控制回饋長度對品質的影響

提升回饋品質的建議

評估標準化

  • 建立明確的回饋品質評估指標(如具體性、建設性、可操作性)
  • 設計評分量表供後續比較分析使用

AI協作最佳化

  • 考慮使用不同AI模型的專長領域分工(如GPT-4處理溝通技巧、Claude處理臨床推理)
  • 設計AI間的交互驗證機制

專家參與深度

  • 明確專家確認的範圍(僅修正錯誤 vs 全面改寫)
  • 記錄專家修改的類型與頻率,作為AI改進依據

潛在挑戰與解決方案

評估一致性 真人考官間的回饋品質本身可能存在變異,建議:

  • 增加多位真人考官的回饋作為對照
  • 建立考官間信度測試

情境適應性 不同OSCE站別可能需要不同的回饋策略,可考慮:

  • 按臨床技能類別分組分析
  • 針對溝通技巧 vs 技術操作設計不同評估重點

這個研究架構為醫學教育的數位轉型提供了實證基礎,有望為未來的混合式評估模式奠定基礎。

2025年6月29日 星期日

發展「精神病患職能治療團體帶領表現評估表」--適用於團體帶領逐字稿或錄影檔

「治療團體帶領」之準備、執行、成果與檢討---這些過程極為複雜!!

我們已挑簡單的先下手--計畫書之評估與回饋,目前已可使用 ChatGPT 協助評估與回饋!!

之前我們已累積諸多團體帶領的錄影檔(如前一貼文所示)...

故我們下一階段 似可 推動以下研究計畫 A, B, C, & D:

A. 發展精神病患職能治療團體帶領表現評估表

研究目的:

1. 以 Cole 團體帶領7步驟為理論架構,發展精神病患職能治療團體帶領表現評估表

2. 驗證其內容效度與表面效度

適用情境:團體帶領/執行錄影之「逐字稿」或「錄影檔」 

         註解:錄影檔之評估,不論專家或AI皆很費力(或需要高階AI效能)... 逐字稿簡單多了,故可作為初步驗證之情境! 

-------------------------------------------------------

B. 以ChatGPT協助精神病患職能治療團體帶領品質之分析與回饋效能

研究目的:

1. 依據A計畫之評估表,發展治療團體帶領技巧評論之ChatGPT工具,再驗證其信效度

2. 依據上述B1之評估結果,發展治療團體帶領技巧回饋之ChatGPT工具,再驗證其信效度

3. 驗證上述工具之教學效能(預期學員於接受上述評估與回饋3次之後,即有明顯進步!)

-------------------------------------------------------

C. 以ChatGPT協助精神病患職能治療團體帶領之Yalom治療因子分析與回饋效能

研究目的:

1. 依據Yalom團體治療之11項治療因子,發展針對「團體帶領逐字稿」治療因子ChatGPT分析工具,再驗證其信效度

2. 依據上述C1之分析結果,發展治療團體治療因子回饋之ChatGPT工具,再驗證其信效度

3. 驗證上述工具之教學效能(預期學員於接受上述分析與回饋3次之後,即有明顯進步!)

-------------------------------------------------------

D. 以ChatGPT協助精神病患職能治療團體帶領與計畫書所提治療原理之一致性分析與回饋效能

研究目的:

1. 依據團體帶領計畫書所提治療原理,發展針對「團體帶領逐字稿」治療原理之ChatGPT分析工具,再驗證其信效度

2. 依據上述D1之分析結果,發展治療團體治療原理回饋之ChatGPT工具,再驗證其信效度

3. 驗證上述工具之教學效能(預期學員於接受上述分析與回饋3次之後,即有明顯進步!)


 

2025年6月18日 星期三

團體帶領的評估與回饋

我們在臨床收集到的團體錄影檔,應該超過100個團體/錄影檔。

現有AI的技術至少可以分析其音檔/逐字稿(順道做成錄影檔的字幕),且速度快!!

所以我們已啟動「主持人帶領團體表現」之評估與回饋研究計畫!!

另,臨床教學時,後續臨床帶領的團體影音檔,我們應可於2天之內及完成評估與回饋!!

也可交給帶領者自行操作,以快速獲得評分與回饋!!

加上之前計畫書的評分與回饋,即可更完整!!

我相信後續應可證實這些評估與回饋可讓團體帶領的品質與成果「顯著提升」!!

---------------------------------------------------------

上述教學或研究的關鍵在於:「治療師帶領團體表現評估表」之良寙!

2025年6月8日 星期日

Deep Research 的表現應已(遠)超過碩班水準

早上測試 ChatGPT vs Gemini vs Claude 之 Deep Research 表現 (June 8, 2025)。

我的 prompt: "請彙整2023年迄今,以大型語言模型發展虛擬病人或虛擬考官之實證論文,且可於 PubMed 或 Scopus 資料庫可查詢到的實證論文"

三者皆自動解讀 prompt,列出特定執行流程與範疇,以供使用者確認。

如 Gemini:

----------------------------------------------------------------------------

(1) 針對 PubMed 與 Scopus 資料庫,設定關鍵字組合進行檢索,關鍵字包含「大型語言模型」(Large Language Model, LLM)、「生成式AI」(Generative AI)、「虛擬病人」(virtual patient)、「標準化病人」(standardized patient)、「虛擬考官」(virtual examiner) 及「客觀結構式臨床測驗」(OSCE) 等,並將發表日期限定在2023年1月1日迄今。

(2) 篩選搜尋結果,識別出屬於「實證研究」性質的論文,排除純理論探討、評論或會議摘要等非實證文章。

(3) 針對每一篇符合條件的論文,詳細摘要其核心內容,包括:

(a) 研究使用的具體大型語言模型(例如 GPT-4, Llama 等)。

(b) 虛擬病人或考官的應用情境(例如:醫學教育、臨床技能訓練、能力評估)。

(c) 研究方法與設計,包含系統開發流程與評估方式。

(d) 主要研究發現、數據結果與成效。

(4) 綜合所有論文的資訊,分析當前以大型語言模型發展虛擬病人或考官的技術趨勢、主要挑戰(如:回答的準確性、安全性、倫理問題)以及未來研究方向。

(5) 比較不同研究在方法學上的異同,例如提示工程(prompt engineering)的技巧、評估虛擬角色表現的指標,以及衡量的教育成效。

---------------------------------------------------------------------------

我確認或修改後,他們就開始執行!!

約10分鐘後(可去喝茶/咖啡),就彙整出來了,包含參考文獻(正確率很高,皆可連結/驗證)!

效能一定超越碩班畢業生水準,因為時間效率(應是50:1--碩班畢業生至少要花50倍的時間,品質就不說了;博班生或是20:1)。

 ChatGPT vs Gemini vs Claude 三者表現差異呢? 我覺得差不多!!

2025年6月6日 星期五

很多精神科EPAs都是生成式AI的立即研究議題

 

出處:《醫療品質雜誌》 16卷1期 (2022/01) Pp. 70-75

綠色字部分(準備文本紀錄或計畫等任務):

4. 擬定適當且完整治療計畫。

5. 記錄與報告病人的臨床事件。

6. 記錄與報告精神疾病病人的臨床資料。

這是 LLMs 即可搞定/幫大忙的任務!!若僅以專家驗證信效度,則IRB頂多簡審!!

紅色字:訪談/諮詢部分,毋須(或較少)觀察, My GPTs 也可搞定!!

後續可行的研究題材超多!!

另一發現是,國內精神科醫學教育的研究成果極少!!