謝清麟教學/研究 blog: Research-研究能力培養-研究設計

顯示具有 Research-研究能力培養-研究設計 標籤的文章。顯示所有文章

2025年7月2日星期三

OSCE真人考官 vs AI 考官之回饋內容與品質比較

不能比速度！！

那能比較內容與品質嗎？

先說如何提升回饋品質！！

先以2～3個AI (e.g., ChatGPT+Gemini+Cluade）依據評估表給予回饋，彙整後，再請專家確認。

最後可以產生三種AI回饋版本：1. AI+專家確認之完整版（未限制AI）；2. AI完整版（未限制AI）；3.以真人考官回饋之字數版本（限制AI回饋字數版）。上述3版本再與真人考官之回饋比較。

評估表可為國際現有知名量表如 GKCSAF或我們自行發展的量表（COT或REST）。

-------------------------------------------------------------------

以下是Claude AI的評論：

這個研究構想很有實用價值，針對醫學教育中的客觀結構式臨床考試(OSCE)回饋機制進行創新探索。讓我分析這個設計的優勢與可能的改進方向：

研究設計優勢

多層驗證機制 您採用的「AI初步評估→專家確認→多版本比較」流程很周全，能有效控制AI回饋的品質與可靠性。

版本控制策略 三個版本的設計巧妙地區分了不同變因：

版本1控制專家介入的影響
版本2評估純AI能力
版本3控制回饋長度對品質的影響

提升回饋品質的建議

評估標準化

建立明確的回饋品質評估指標（如具體性、建設性、可操作性）
設計評分量表供後續比較分析使用

AI協作最佳化

考慮使用不同AI模型的專長領域分工（如GPT-4處理溝通技巧、Claude處理臨床推理）
設計AI間的交互驗證機制

專家參與深度

明確專家確認的範圍（僅修正錯誤 vs 全面改寫）
記錄專家修改的類型與頻率，作為AI改進依據

潛在挑戰與解決方案

評估一致性 真人考官間的回饋品質本身可能存在變異，建議：

增加多位真人考官的回饋作為對照
建立考官間信度測試

情境適應性 不同OSCE站別可能需要不同的回饋策略，可考慮：

按臨床技能類別分組分析
針對溝通技巧 vs 技術操作設計不同評估重點

這個研究架構為醫學教育的數位轉型提供了實證基礎，有望為未來的混合式評估模式奠定基礎。

2022年8月4日星期四

大數據，如何取得？

1. 自己建立是其一，但辛苦/費資源，且不易形成大樣本！

「在美國只要是去識別化的數據便不屬於個人數據，All of US的創舉便是研究人員只能看到經過處理去識別化的數據，達到保護個資。在英國會將各醫院資料收集彙整後再給各院，如此一家醫院可用到所有醫院的資料。如何在開放、合理的平台上進行合作與交換，在台灣可由政府透過非營利法人再進行協調，才能物盡其用。」來源：聯合報-民意論壇

2. 依賴他人或機構，輕鬆多了，但不易期待其內容/品質。

對特定主題/樣本有興趣者，宜建立長期追蹤之資料庫，雖然辛苦，但值得！！若以臨床人員為主，可先依據資源（臨床與資金）做到初步規畫，再持續調整之。若以研究人員為主，資金或是最關鍵，才能長期持續收案。

我最近擬規劃中風個案之中期收案計畫（發病初期至半年，至少4時間點，若經費充裕再延至1年），研究主題包含評估工具之改良，特定功能恢復型態之探究與預測...

也想擬定精神疾患的中長期收案計畫（包含認知/社會認知/體識能//ADL之中長期追蹤，約每半年至一年評估一次），研究主題包含評估工具之改良，特定功能恢復型態之探究與預測... 這需要臨床單位的配合，我們團對或許已掌握此資源。

待續

2019年7月19日星期五

如 open window 9 宮格所示: 學習與應用【標準設計】是主要基礎。療效驗證/RCT之研究設計SOP應是最完整/明確，相對也是最簡單學習/設計。

評估工具發展之研究設計，就比較多元，少有 gold standard之研究設計

以近年團隊投入的【溝通技巧】評估工具發展而言，我大致採用多年工具研發之心得，以執行該工具之發展。

昨天準備研究計畫時，看到一篇目的類似論文：Development of a Patient-Doctor Communication Skills Model for Medical Students. Korean J Med Educ 2010 Sep; 22(3): 185-195.
作者所採用的研究方法：
1. The authors extracted common communication skill competencies by comparing the Kalamazoo Consensus Statement, SEGUE framework communication skills, the Calgary Cambridge Observation Guides, and previous communication skills lists that have been used by the authors.
2. The content validity, with regard to clinical importance and feasibility, was surveyed by both faculty physicians and students.
還有結果：
The first version of the model consisted of 36 items under 7 categories: initiating the session (8 items), building a relationship (6), gathering information (8), understanding a patient's perspectives （類似同理心） (4), sharing information (4), reaching an agreement (3), and closing the session (3). It was used as a guide for both students and teachers in an actual communication skills course. At the end of the course, student performance was assessed using two 7-minute standardized patient interviews with a 34-item checklist. This assessment tool was modified from the first version of the model to reflect the case specificity of the scenarios. A patient-doctor communication model... was finally developed.

竟然跟我們的方法/結果非常相似。。。

這也確認我們的方法/研究設計的 robustness，但也降低了我們研究成果的創新性

老實講，我們有關溝通技巧之評估與介入，至少落後國外10年。。。
所以創新與否，對我而言，並非關鍵，因為我們還是 beginners....
我們能夠持續多久//走得多元，才是關鍵。

這也牽涉到後續【驗證】【修改/再驗證】之研究設計，因為基本上，第1版 model 都需要某種程度改良，甚至多次改良!! 有關評估工具【驗證】【修改/再驗證】之研究設計，我們團隊可是經驗豐富。。。所以，路遙知馬力!!

我到 Google 查一下上述論文被引用之篇數與內容 (這也是方法學之應用)。哈哈，應未被好好驗證，更未看到新版。所以我們只要持續，就追得上，且可做得更好!! 3~5年，看看我們發表幾篇論文就知道端倪了!!

2015年7月14日星期二

研究設計之典範: examining responsiveness

研究設計若未遵循典範，研究結果就很難獲致明確的結論或令人信服。

如療效驗證，若未設計 RCT，結果難獲採信。

以 responsiveness (or MID) 之研究設計而言

應用於中風病人，responsiveness 研究設計很簡單/可行，只要追蹤評估急性或亞急性期個案即可。沒有人會懷疑中風病人在急性或亞急性期不會進步/恢復。

小兒需要久一點的時間【至少半年以上】，因為【發展】與【介入】之成效較慢

Psych 就比較麻煩，急性病人因為病情【起伏】，較為複雜，且急性時期也不易配合評估。慢性病人因為病情穩定，較不可能。So, 驗證評估工具應用於 psych 病人之 responsiveness 的研究，就相對很少!!

菀薈彙整幾種方法，詳其 blog http://bcatinstroke.blogspot.com.au/2015/07/psych.html

理論上，慢性病人因為病情變差，由機構住進急性病房，或是較佳的反應性驗證對象【設計】

但國內因為【健保之故】，不少病人是被刻意安排住進病房的。。。。若依據 consecutive sampling，則有反應【變化】的個案比例應該低落。。。if so, 那結果實在很難解釋。故在台灣，此難以成為 responsiveness 設計的典範

so 如何設計驗證用於 psych 病人工具的反應性??

若能想出來，也獲得支持，很多工具的反應性才能獲得驗證!!

2010年11月16日星期二

研究設計的考量

研究設計直接影響研究結果的 [有效性]
然而通常沒有完美的研究設計
但可以致力於設計 [最佳化] 的研究，也就是兼顧 [品質] 與 [可行性] 之研究

舉例而言: 3 個 raters 之 inter-rater/test-retest reliability 比 2 個 raters (inter-rater) 及1個rater (retest)佳

如果時間人力充裕，則選 3 raters. If not, 盡力做到 2.

人力/資源/時間，在此決定品質!

國外的研究團隊，如 Dr. 賴金雪所屬，規模是我們10倍以上。台灣的職業棒球隊就是打不過美國大聯盟的任何球隊阿。

訂閱：文章 (Atom)

謝清麟教學/研究 blog

2025年7月2日星期三

OSCE真人考官 vs AI 考官之回饋內容與品質比較

研究設計優勢

提升回饋品質的建議

潛在挑戰與解決方案

2022年8月4日星期四

大數據，如何取得？

2019年7月19日星期五

研究設計/研究方法之功力

2015年7月14日星期二

研究設計之典範: examining responsiveness

2010年11月16日星期二

研究設計的考量

網誌存檔

2025年7月2日 星期三

OSCE真人考官 vs AI 考官之回饋內容與品質比較

研究設計優勢

提升回饋品質的建議

潛在挑戰與解決方案

2022年8月4日 星期四

大數據，如何取得？

2019年7月19日 星期五

研究設計/研究方法之功力

2015年7月14日 星期二

研究設計之典範: examining responsiveness

2010年11月16日 星期二

研究設計的考量

2025年7月2日星期三

2022年8月4日星期四

2019年7月19日星期五

2015年7月14日星期二

2010年11月16日星期二