謝清麟教學/研究 blog: 10月 2025

2025年10月27日星期一

GKCSAF GPT rating 的困境

區辨力有限--我們即使給GPT不同溝通能力（含專家評估高中低溝通能力）的逐字稿，GPT 評分結果仍趨向集中，SD變小（比專家評分的SD小很多）（圖）。

圖：專家與GPT評估GKCSAF之分數分布趨勢與差異（專家評分[灰色]由高至低；GPT評分[天藍色]分數較為集中）

可能的解決方法之一，或是給予GPT高中低溝通能力的逐字稿，提醒 GPT 盡力區辨個別差異...

-------

以下是 Claude AI 的建議：

這個「分數集中化」現象確實是GPT評分系統的重要限制，反映了幾個關鍵問題：

問題分析

1. 迴歸均值傾向

GPT可能過度學習了訓練資料中的平均表現，導致：

對極端表現（特別優秀或特別差）的辨識不足
傾向給出「安全」的中間分數
缺乏對細微差異的敏感度

2. 缺乏真實臨床判斷經驗

GPT缺少實際觀察不同能力層級治療師的經驗
無法像人類專家那樣累積對「優秀」vs「普通」vs「需改進」的直覺判斷
可能過度依賴表面的語言特徵而非深層的溝通品質

3. 評分標準的理解限制

GPT可能僅理解評分標準的文字描述，但缺乏對實際應用時細微差別的把握
對於什麼構成「卓越」或「不足」的溝通，可能缺乏具體的內在標準

改善建議

短期策略

1. Few-shot prompting with anchoring examples

在prompt中提供明確的高、中、低分範例
特別強調極端案例的特徵
要求GPT先識別屬於哪個能力層級，再進行細部評分

2. 評分校準機制

建議prompt架構：
- 先要求GPT識別3-5個關鍵溝通事件
- 對每個事件評估其品質（優/可/差）
- 基於事件分布決定整體分數範圍
- 最後才給出具體分數

3. 強制分布考量

明確告知GPT期望看到分數的變異性
要求GPT在評分前先排序多個案例（如果同時評多個）

中長期策略

1. Fine-tuning with expert-annotated data

收集專家一致認定的高、中、低分案例
特別標註關鍵差異點
使用這些資料進行模型微調

2. 開發階層式評分系統

第一層：分類（優秀/良好/待改進）
第二層：在類別內細分（如優秀中的高/中/低）
第三層：給出具體分數

3. 結合多個評估策略

使用不同的prompt策略多次評分
分析評分的一致性和變異性
可考慮ensemble方法

驗證建議

1. 診斷性測試

創建明確的對比案例（如同一情境的優劣版本）
測試GPT是否能識別關鍵差異
記錄哪些特徵GPT容易忽略

2. 敏感度分析

系統性地修改逐字稿中的關鍵元素
觀察分數變化是否合理
識別GPT的「盲點」

3. 與專家評分的差異分析

不只看總分，更要分析哪些案例GPT給分特別保守
找出專家認為差異大但GPT認為相似的案例對
理解背後的評判邏輯差異

實務考量

如果短期內無法解決這個問題，建議：

調整使用定位：將GPT評分器定位為「初步篩選工具」而非「精確評分工具」
結合人工複審：對GPT評分集中的案例，特別進行人工複審
透明溝通：向使用者說明目前的限制，特別是在區分能力層級方面的不足

這個問題突顯了目前LLM在專業判斷任務上的根本限制——它們擅長識別「是否符合標準」，但在判斷「符合程度」的細緻差異上仍有很大改進空間。

2025年10月25日星期六

規模或格局？

有點哀怨

商業化或產業化，才有的規模或格局，學術界可做到哪？我可以做到哪兒？

集群、專精且有實務需求，應是必要條件！

我若好好架構醫學教育研究... 研究議題/人才集群，可做到哪個程度？

2025年10月18日星期六

以GPT分析學員於FIFE訪談之同理表現，並設計理想的模擬對話

主要prompt如下：

您是一位 FIFE 與 NURSE 專家，請依據使用者之要求，執行以下任務：

當使用者上傳FIFE訪談逐字稿，且輸入1時：請分析FIFE 訪談中，適用 NURSE 之所有對話情境。

當使用者輸入2時：請分析上述適用 NURSE 之最佳對話情境4~8項，且依適用性，排列之（最適用者排前）。

當使用者輸入3時：請分析上述適用 NURSE 之最佳對話情境，評論訪員執行NURSE之程度，各項評分為0-1-2-3（3為最佳）。需引用逐字稿，並說明評分理由。

當使用者輸入4時：請將上述適用 NURSE 之最佳對話情境，且平均評分最差的2～3種情境，依據NURSE概念，說明訪員如何執行NURSE以徹底執行NURSE。

補充指令（for 模擬對話）：請依據上傳逐字稿與上述建議，模擬上述情境A，學員與個案完整執行NURSE之互動對話。

成果如連結所示

註解：NURSE 是一個用於教導醫療人員如何回應病患情緒的助記詞（Acronym）。NURSE 代表 Name（命名）、Understand（理解）、Respect（尊重）、Support（支持）、Explore（探索）。

2025年10月6日星期一

評論學員評估ADL/IADL表現之My GPTs

2025年3～4月發展

BI 評估考官：邀請、時間範圍與概念評估

彙整/評論 BI/ADL 評估表現（概念與評估時間範圍）

IADL OSCE (溝通技巧)

之前已有一些OSCE影音檔與逐字稿，故可測試/改良。

稿件/計畫撰寫相關之My GPTs

從2024開始，陸續設計的，頗多重複，但沒空彙整....

依據時序排列如下：

期刊論文主要章節之閱讀與寫作評論寫作與評析原則之整合（最新設計）

論文寫作原則複習與測驗論文寫作原則之複習/測驗，確認後，使用者可用以評論論文/稿件各章節之寫作

稿件審查意見回應之評論與回饋提供回應原則，協助修改回應

評論研究計畫評論計畫、主持人表現以及彙整

研究計畫/論文「個別或多個段落」評論--內容/語法寫作評論

論文/研究計畫各章節評論依據JCE(2013)系列論文所設計

Proposal Reviewer （最早設計）

訂閱：意見 (Atom)

2025年10月27日 星期一