至少在 20 年前就已經看到/讀過 "generalizability theory" 了。那時只是初步瞭解它的一些概念,但我一直沒有深入瞭解它,遑論應用(發表論文)。也沒又特別跟學生講!我很少看到實際應用的論文,這也是被我忽略的原因之一。但我記得很清楚之前有位碩班生,在碩論有提過!
直到大約兩個禮拜前(April, 2026),有人問我如何使用Generalizability theory (G-Theory)於EPAs資料與發表論文 。他也提供我醫學教育領域的相關應用文獻。為了回應,我才開始好好再學習,再瞭解它的概念與應用。
這也讓我打開一個之前沒有探究的領域,同時開啟我後續/更多論文發表的議題。
有興趣者再看以下 G-theory 簡介:
-----------------------------------------------------------------------------------------------
G-Theory 是一種把評量誤差拆成多個來源,並判斷評量結果是否足夠可靠(reliable)的方法(也就是 relibaility 的分析方法)。
更白話一點:
它不只是驗證「可靠不可靠」,而是驗證「到底是哪裡不可靠,以及要怎麼改進」。
可以把 G-Theory想成:
一種用來分析「評量分數到底穩不穩」的方法。
它和一般 reliability 最大的不同是:
- 一般
reliability 常把誤差看成一整包
- G-Theory
會把誤差拆開來看
例如,一個PGY OT 的特定臨床技能能力/分數不穩定,可能是因為:
- 不同老師評分標準不一樣
- 不同 EPAs 難度不同
- 不同時間、不同場所表現不同
G-Theory 就是在回答:
分數的不穩定,主要是來自哪裡?
最簡單的核心概念
G-Theory 主要做兩件事:
1. 找出誤差來源
例如把分數變異拆成:
- 人本身的差異
- 評分者差異
- 題目或 EPA 差異
- 時間或場所差異
2. 判斷要收集多少評量才夠
例如可以回答:
- 需要幾位老師評分?
- 需要幾次觀察?
- 需要幾個 EPA?
- 這樣的評量結果夠不夠可靠?
簡單例子
如果一位 OT 今天被評得高、明天被評得低,原因可能不是能力真的差很多,而是:
- 換了不同老師
- 評的是不同 EPA
- 臨床情境不同
G-Theory 可以幫您判斷:
- 哪一種因素影響最大
- 應該增加老師數,還是增加觀察次數
最常見的應用
G-Theory 很適合用在:
- PGY OT EPA 評量
- OSCE
- 臨床技能評估
- 口試
- 多位老師評分的表現評量
因為這些評量通常都不是只有一個誤差來源。
一句話總結
G-Theory 是一種把「評量誤差」拆成多個來源,並判斷「評量結果/分數」是否足夠可靠的方法。
如果要再更白話一點:
它不只是問「可靠不可靠」,而是問「到底是哪裡不可靠,以及要怎麼改進」。
---------
感謝生成式 AI 能夠快速 讓我理解這些複雜的概念與應用!!
我或許會再補充如何分析以及應用?也就是會有更多的研究題材以及研究成果!!
-------------------------------------------
以下舉例說明,可能之應用(套用於已有之資料/研究):
一、原先研究之 Inter-rater Reliability 設計與結果(已發表論文:Inter- and Intrarater Reliability of the Gap-Kalamazoo Communication Skills Assessment Form Among Occupational Therapy Interns)
該研究以 25 位實習生、49 位個案的 50 份訪談逐字稿為材料,由 3 位受訓評分者各自對每份逐字稿評分 2 次,兩次間隔至少 3 個月;分項以 weighted kappa、總分以 ICC 檢驗一致性。結果顯示 9 個溝通項目的 inter-rater weighted kappa 僅 .08–.30,總分 ICC=.22,屬明顯偏低;這表示單一評分者分數不宜直接用於高風險判斷。
二、若改以 G-Theory 分析,可發展的主題如下:
這份資料適合做 G-Theory,因為同一批逐字稿被多位評分者、跨兩次 sessions 重複評分,可把 transcript/intern performance 視為 object of measurement,將 rater 與 occasion/session 視為 facets,估計 rater variance、occasion variance、以及 performance×rater 的交互作用。
可發展的研究主題/目的包括:① 哪個誤差來源最大;② 單一評分者下的 generalizability / dependability 有多低;③ 若從 1 位增加到 2、3、4 位評分者,可靠度可提升多少;④ 哪些分項最需要修訂評分規準。這會比單純 ICC/kappa 更能回答「為何不一致」與「如何改進」。