謝清麟教學/研究 blog: 數據/稿件的起死回生!?

2025年7月6日星期日

數據/稿件的起死回生!?

數據不好的研究結果，為何可以改變其命運（結果變得比較好，且發表於著名期刊）：一個特例！

今年我們發表二篇論文，皆大致發現：GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.（心理＆生理領域）（二篇論文皆有 inter-rater reliability 驗證，但ICC結果皆差，二文結論也如此定位--poor inter-rater reliability！我應發表>50篇類似論文了，資料分析與解釋，絕對經驗豐富！）(Note: GKCSAF 是國際著名的溝通技巧評估工具)

因為上述2論文皆有錄音/逐字稿，故我們去年提出新的研究構想：設計 ChatGPT 使用 GKCSAF 以評估逐字稿中學員的溝通技巧，再跟前述2篇論文專家 raters 的評估結果比較。

我們初稿的重點（牛肉）放在「發展 ChatGPT rater」以及「ChatGPT評估結果跟專家評估結果無顯著差異（如 Figure 1所示：ChatGPT評估的總分大多在專家評估總分之間）」，後者我們的解釋為：代表 ChatGPT rater 或可替代專家評估。那時，我們未驗證效度.... 且ChatGPT與專家評估結果之ICC差（如同已發表論文之結論）...

Figure 1. Total scores of the ChatGPT rater (blue) and human raters (gray).

審稿後，有位審查委員認為我們既沒有驗證效度，主題就勿稱為 "validation", 另一個委員建議我們繪製下圖（各種raters 之評分總分比較）

Figure 2. 所有 raters 之評分總分比較

Figure 2 讓我們更清楚：各raters 評分結果真的差別有限（總分皆在很窄的區間）！！若此為真（當然要相信數據，但哪一項統計指標的數據？）， inter-rater reliability 真的不好嗎？且我們可否將多位專家 raters評分的平均值，當成效標，以驗證效度(concurrent validity)！？

所以在修改稿件時，我們就增加 "mean absolute error" 以及 "mean absolute error %"二統計指標（這比是否統計顯著，可呈現更直觀的總分差異大小）, 再將多位專家評分的平均值，當成效標，驗證效度！！我們發現GKCSAF總分在"mean absolute error" 以及 "mean absolute error %"結果不錯（inter-rater reliability & concurrent validity二驗證皆類似），所以支持 ChatGPT rater 總分的 inter-rater reliability & concurrent validity至少是 acceptable!! 我們也說明ICC因為總分差異小（如 Figure 2 所示），故可能造成ICC值被低估。

就這樣（事實上，主筆者--玉正努力了許久/被我嚴厲折磨...）稿件被 (Medical Teacher主編) 接受了！！

此稿件已成為我自認的代表性著作：Ju YJ, Wang YC, Lee SC, Liu CH, Lee ML, Hou CY, Yang CW, Hsieh CL. Development and validation of a GPT-based Rater for Assessing Communication Skills Using the Gap-Kalamazoo Communication Skills Assessment Form. Medical Teacher. 1st July, 2025. Accepted for publication.

有興趣者可參考玉正的反思與心得。

衍生的議題：如這貼文第2段所提--今年我們發表二篇論文，皆大致發現：... poor inter-rater reliability, 這解釋可能有誤阿！！已請玉正個別分析之，再思索是否寫信給主編更正解釋或撰寫 letter-to-editor.....以還 GKCSAF 公道！還有自我修正！！

感謝 reviewers 的評論, 讓我們成長，還有接受我們的論文！！

謝清麟教學/研究 blog

2025年7月6日星期日

數據/稿件的起死回生!?

沒有留言:

張貼留言

網誌存檔

2025年7月6日 星期日

數據/稿件的起死回生!?

沒有留言:

張貼留言

2025年7月6日星期日