2025年7月6日 星期日

稿件的起死回生!?

不好的研究發現,如何改變其命運(結果變得比較好,且發表於知名期刊)

今年我們發表二篇論文,皆大致發現:GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.(心理&生理領域)(二篇論文皆有 inter-rater reliability 驗證,但ICC結果皆差,二文結論也如此定位!)(Note: GKCSAF 是國際著名通技巧評估工具)

去年我們以 ChatGPT 使用 GKCSAF 以評估逐字稿,再跟前述2篇論文的 raters 的評估結果比較。

我們初稿的重點放在「發展 GPT rater」 以及「GPT評估結果跟專家評估結果無顯著差異」,後者我們的解釋為:代表 GPT rater 可替代專家評估。那時,我們未驗證效度.... 且GPT評估結果跟專家評估結果之ICC差...

Figure 1. Total scores of the GPT rater (blue) and human raters (gray).

有位審查委員認為我們既沒有驗證效度,主題就不要稱為 "validation", 另一個委員建議我們繪製下圖(各種rater 之評分總分比較) 

Figure 2. 各 rater 之評分總分

Figure 2 讓我們更清楚:各raters 評分結果真的差別有限!!若此為真, inter-rater reliability 真的不好嗎?且我們可否將多位專家 raters評分的平均值,當成效標,以驗證效度!? 

所以在修改稿件時,我們就增加 "mean absolute error" 以及 "mean absolute error %"二統計指標, 再將多位專家 評分的平均值,當成效標,驗證效度!! 我們發現總分在"mean absolute error" 以及 "mean absolute error %"結果不錯(inter-rater reliability & concurrent validity二驗證皆類似),所以支持 GPT rater 總分的 inter-rater reliability & concurrent validity至少是 acceptable!! 也說明ICC因為總分差異小(如 figure 2 所示),故可能造成ICC值被低估。

就這樣(事實上,玉正努力了許久...)被(Medical Teacher主編)接受了!!


衍生的議題:今年我們發表二篇論文,皆大致發現:GKCSAF displays acceptable intra-rater but poor inter-rater reliability in occupational therapy clinical scenarios.(心理&生理領域)(二篇論文皆有 inter-rater reliability 驗證,但ICC結果皆差,二文結論也如此定位!)---上述poor inter-rater reliability 解釋可能有誤阿!!

感謝 reviewers, 讓我們成長!!




沒有留言:

張貼留言