謝清麟教學/研究 blog: 稿件的起死回生!?

2025年7月6日星期日

稿件的起死回生!?

不好的研究發現，如何改變其命運（結果變得比較好，且發表於知名期刊）

今年我們發表二篇論文，皆大致發現：GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.（心理＆生理領域）（二篇論文皆有 inter-rater reliability 驗證，但ICC結果皆差，二文結論也如此定位！）(Note: GKCSAF 是國際著名通技巧評估工具)

去年我們以 ChatGPT 使用 GKCSAF 以評估逐字稿，再跟前述2篇論文的 raters 的評估結果比較。

我們初稿的重點放在「發展 GPT rater」以及「GPT評估結果跟專家評估結果無顯著差異」，後者我們的解釋為：代表 GPT rater 可替代專家評估。那時，我們未驗證效度.... 且GPT評估結果跟專家評估結果之ICC差...

Figure 1. Total scores of the GPT rater (blue) and human raters (gray).

有位審查委員認為我們既沒有驗證效度，主題就不要稱為 "validation", 另一個委員建議我們繪製下圖（各種rater 之評分總分比較）

Figure 2. 各 rater 之評分總分

Figure 2 讓我們更清楚：各raters 評分結果真的差別有限！！若此為真， inter-rater reliability 真的不好嗎？且我們可否將多位專家 raters評分的平均值，當成效標，以驗證效度！？

所以在修改稿件時，我們就增加 "mean absolute error" 以及 "mean absolute error %"二統計指標, 再將多位專家評分的平均值，當成效標，驗證效度！！我們發現總分在"mean absolute error" 以及 "mean absolute error %"結果不錯（inter-rater reliability & concurrent validity二驗證皆類似），所以支持 GPT rater 總分的 inter-rater reliability & concurrent validity至少是 acceptable!! 也說明ICC因為總分差異小（如 figure 2 所示），故可能造成ICC值被低估。

就這樣（事實上，玉正努力了許久...）被(Medical Teacher主編)接受了！！

可參考玉正的反思與心得。

衍生的議題：今年我們發表二篇論文，皆大致發現：GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.（心理＆生理領域）（二篇論文皆有 inter-rater reliability 驗證，但ICC結果皆差，二文結論也如此定位！）---上述poor inter-rater reliability 解釋可能有誤阿！！

感謝 reviewers, 讓我們成長！！

謝清麟教學/研究 blog

2025年7月6日星期日

稿件的起死回生!?

沒有留言:

張貼留言

網誌存檔

2025年7月6日 星期日

稿件的起死回生!?

沒有留言:

張貼留言

2025年7月6日星期日