2012年11月30日 星期五

有獎徵答: 如何以 Rasch analysis 驗證評估工具之 discriminative property?

提示:跟信度相關!

參考文獻: Norman GR.Discrimination and reliability: equal partners? Health Qual Life Outcomes. 2008 Oct 16;6:81.

請以「留言」張貼您的見解於此 post.

截止日期: Nov. 30, 2012

以下是 2012/12/30 下午 4:20 張貼:

我的看法是 SE 小,個案間的差別就區隔出來了,故區辨力大
因為Rasch 的信度,由 SE 推估獲得 。
因此我會用個別個案估計值之 SE 當成判斷 discriminative property 的指標。

如果受試樣本每位個案之 SE 皆小於 0.32, 則「個案層級」之 discriminative property is good! 如果有些個案的 SE 超過 0.32, 那代表項目不足(通常是欠缺較難或較簡單的項目)。

另外,如果 SE 小,通常 evaluative & predictive properties 將跟著好!!
這也是為何 IRT 學者那麼重視SE了!!

7 則留言:

  1. 以下是我目前想到的可能方法...還沒100%覺得可行,之後再跟大家一起切磋切磋~

    基於discrimination的概念是要確實區分出不同能力的個案,其關鍵在於是否能將個案個別真正的差異從評量誤差中分出來。但是要區分測量誤差與真實的差異必須要至少2次以上的評量才能加以判斷。
    目前想到的方法如下,利用一組理論上沒有變化的個案,在短時間內由同一個rater評估2次,則理論上2次評量的差異來自測量誤差。
    再利用Rasch分析推估每個人各自的SE,並得到2次評量因誤差造成之分數差異的分布,取其分布之標準差,由此推估測量誤差造成的分數差異大小。
    將sample所得之個案能力範圍(highest Rasch score - lowest Rasch score)除以測量標準誤,以測量標準誤為單位,看個案能力可被區分為多少等級,作為區辨力的指標。

    回覆刪除
  2. Reliability vs. Discrimination

    根據古典測驗理論信度的定義: 真分數=觀察分數-誤差分數
    假設誤差分數的大小不會受到真分數大小影響,則Var(X)=Var(T)+Var(E),而信度的計算式則為: Var(T)/Var(X),即測驗(總)變異中,有多少真分數的變異。
    信度的計算式可進一步改為: (真分數標準差)^2/(觀察分數標準差)^2=(觀察分數標準差)^2-(誤差分數標準差)^2/(觀察分數標準差)^2

    Rasch analysis當中的person reliability代表重複相同的測驗可以得到相同的個案能力排序的可能性(穩定性),也可寫為(觀察分數標準差)^2-(誤差分數標準差)^2/(觀察分數標準差)^2,而不同能力估計值有不同的誤差分數標準差。

    當我們要說明個案能力的分布情形或分散程度(person separation),可用係數G (真分數標準差/誤差分數標準差)表示。此係數可視為以誤差分數標準差為單位,來衡量真實分數(個案能力)的分散程度。

    reliability和separation之間有個轉換的公式: reliability=G^2/(1+G^2)
    依據個案能力的分布情形(separation)延伸,strata代表統計上可將個案能力分布區分成幾群:
    strata=(4G+1)/3
    Ex: Rasch reliability=0.8 => G=2 => strata=9/3=3
    估計個案能力的信度若為0.8,統計上可將個案能力分布區分為3群。

    估計個案能力的信度越高,個案能力分布區分成越多群,即不同能力的個案越能被區辨 (discrimination)。

    回覆刪除
  3. Rasch analysis之person reliability = true person variance/ observed person variance。
    true person variance是個體間之變異,意指變異來自個體間之不同反應分數。
    observed person variance為個體間之變異和誤差和。
    Person reliability意指評估工具可測量個體間差異之程度。個體間之變異越大,表示每個個體間之分數差異分佈越廣泛,越可區辨每個個體間之分數。此指標為評估工具區辨個體之能力。
    此指標之判斷標準為>0.90

    回覆刪除
  4. 在羅序分析當中能夠代表區辨效度的指標應該是person reliability。
    因為person reliability是person separation index,可用於區辨個案的能力,person reliability數值越大,表示越能區辨個案的能力。
    person reliability=0.9 可將個案分成3-4群,
    person reliability=0.8 可將個案分成2-3群,
    person reliability=0.5 可將個案分成1-2群。
    參考網頁:http://www.winsteps.com/winman/index.htm?reliability.htm

    至於為什麼信度與區辨效度有關,個人認為是當測量工具越穩定,
    施測者越能夠判斷:當兩次測量結果不同的時候,分數的變化是測量誤差造成的或是個案真實能力改變(區辨不同能力的個案)。
    因此測量工具越穩定,測量誤差越小,也就越能區辨個案的程度。

    回覆刪除
  5. 簡答:
    在Rasch analysis下,是以person reliability來代表評估工具的信度(精準度)。根據信度的定義: Var(T)/Var(X),即測驗(總)變異中,有多少真分數的變異。person reliability越高,代表真分數的變異(標準差)越大,即個案能力的分布越廣,越能依不同能力分群 (discriminative property)。

    回覆刪除
  6. Rasch analysis之person reliability可驗證工具之discriminative property in individual level。person reliability係數越高,表示越能區辨不同個體間之能力。
    Rasch analysis之person separation index (PSI)可驗證工具之discriminative property in group level。例如:當PSI為2時,即表示可將受測者之能力分成3群(i.e., 輕度、中度、重度)。

    回覆刪除
  7. (一)可參考Rasch分析的person reliability 結果來判斷評估工具是否具有區辨能力。Rasch檢定能將所有題目之受因素影響程度(也就是難度)排序,並對照個案的得分(程度),以了解該評估工具是否具有各種難度的題目。良好的評估工具,題目難度應該平均分散,最難至最簡單的題目都需具備,這樣才能確保各種程度之個案,都能夠藉由該評估工具判別出其確切的能力,也就是說可藉由此評估工具區辨出不同程度的個案。例如,評估工具如果缺乏較難的題目,則可能50人當中20位個案都得到了滿分,這樣就無法判別這20位個案的程度差別。
    (二)此外,Rasch 分析中針對個案能力所驗證的信度,指的是:重複相同的測驗可以得到相同個案能力排序的可能性(穩定性),相當於傳統的測驗信度,若從傳統ICC公式來看:Reliability= Variance (Subjects)/[Variance(Subjects) +Variance (error)];
    Variance (Subjects),也就是between subjects的variation,當between subjects的variation大,並控制error值,則其量表的reliability值也會大,由此推論:在受試者程度本身無改變的情況下(error固定),若reliability值大的話,則表示此評估工具區辨個案間程度的能力較佳。

    回覆刪除