2012年5月19日 星期六

Hobart 所提的 individual level responsiveness 的關鍵在於 SE 大小

5/19 補充,詳下方綠色字。

Standard Error (SE) 也可視為區辨力(區辨個案間之能力差異)
如圖所示:
BI 與 FIM 的 SE,在不同ADL功能者之差異顯著。

未來分析 S-STREAM vs STREAM 以及 S-FM vs FM,若皆只考慮符合 model assumptions 項目(STREAM 27, FM 37),則短版與長版 individual responsiveness 有無顯著差異之關鍵就在於 SE 差距。

Hobart 的 individual responsiveness 指標為進步量 > 1.96 SEdiff 代表有顯著進步,然而此種切割法,可能造成 sample dependent 的問題。如果大多數的個案進步量未超過 1.96 SEdiff 則比較不出評估工具反應性差異。相對地,如果大多數的個案進步量皆超過 1.96 SEdiff,也比較不出高低。

因此我想以個案進步量為幾個 MDC值,再比較不同工具可呈現個案進步MDC數值差異,應更為合適。


5/19: 再提修改補充:
依據 Hobart > 1.96 SEdiff 之標準,他的樣本乃依據一群「有變化」的個案,並非MDC源自一群理論上應無變化的樣本。所以如果使用有變化的個案(如14 - 30 天,或復健住院及出院期間)以計算SEdiff那二者就更像了。而且毋須先要有MDC數值才能計算。

Note 1: 就上圖所示, FIM 之SE幾乎加大於 0.4,也就是說 reliability (1- SE-square) 不到 0.85。
Note 2: 若關鍵在於SE(信度或區辨力),那信度或區辨力 = 反應性!?這也是為何 Rasch reliability 稱為 "separation index" 的原因。
Note 3. correction: SE 改成 SEdiff at 15th of May. Thanks for En-Chi's comments.

33 則留言:

  1. 不過就圖形來看... FIM在中等能力的個案 (say ability around -2~+2),要以SE來區辨較不容易,SE的差異較小;BI似乎較容易區辨 → BI區辨力優於FIM?(中等能力者)
    但在能力較好者又是FIM優於BI了。

    但BI的SE比FIM來得大→ BI信度比FIM差?

    我的感覺是似乎區辨力較接近反應性,且在不同程度的個案,工具的區辨力(or反應性)不同...不知道老師覺得呢? :)

    回覆刪除
  2. Karine:
    1. SE 至少差距 0.2 (e.g., 0.4 vs 0.6), 那信度分別是多少? 公式列於 Note 1.
    3. 就IRT而言,SE(信度)於中間能力較佳。若 note 2 成立,則信度及反應性同步。

    回覆刪除
    回覆
    1. 設SE1=a, SE2=a+0.2; difference of reliability=0.4a+0.04;
      SE=0.4 reliability=0.84, SE=0.6 reliability=0.64, difR=0.2;
      SE=0.3 reliability=0.91, SE=0.5 reliability=0.75, difR=0.16;

      SE越低, reliability越高; 二個SE比較,在SE越小的狀況下,reliability差異越小。

      刪除
    2. [問題1修正] FIM整體SE較BI低,故區辨力優於BI(信度亦較佳)。而FIM最可以區辨個案的範圍(中間段)比BI廣(arbitrary saying)
      所以,在各能力程度之個案,FIM的區辨力皆優於BI。

      Note 2的解釋有比較懂了~~

      刪除
  3. 老師,請問:
    1.此篇是指評估工具之SE較小,則individual level responsiveness較好嗎?
    2.信度與反應性原為不同的概念,於Note2老師是指IRT理論中,兩者相似嗎?(就公式看起來兩者好像相關)

    回覆刪除
  4. 1. 概念不一樣,結果「似乎」一樣
    2. 我未列 responsiveness 公式

    回覆刪除
  5. 1.請問BI的SE比FIM大,會不會是BI題目較少造成的呢?
    2.個人覺得信度和反應性不太一樣。信度的概念與誤差的大小較接近,反應性的概念則是偵測改變。但是這兩者之間應該是有關係的,因為誤差越小,測量結果所得到的改變量就有越高的比例會是真實能力改變所致。這是我的想法,再請老師指導囉!

    回覆刪除
  6. 1. 如果就IRT的角度而言,項目數是否影響 SE?
    2. 二者概念當然不一樣。討論的焦點在於 SE(或信度)跟反應性是否為一體二面 ?

    回覆刪除
  7. 我覺得項目數可能會影響SE。。。因為就IRT的角度,SE=√(1/TI)(TI為試題所能提供的訊息量),當項目數較少,所能提供對個案能力估計的訊息量就比較低,那麼SE的值就會變大。

    回覆刪除
  8. yes, 項目數是關鍵之一。
    還有那些 factors 會影響 SE?

    回覆刪除
    回覆
    1. 在古典測驗理論中,個案的程度與樣本數也會影響標準誤。
      在IRT中,問卷項目的品質、個案能力與題目難度的相近程度也會影響SE的大小。

      刪除
  9. 「在古典測驗理論中,個案的程度與樣本數也會影響標準誤。」個案的程度與樣本數二者如何影響SE(在 CTT 一般稱為SEM)?
    「個案能力與題目難度的相近程度也會影響SE的大小」,同上 how?
    還有其它因素嗎?

    回覆刪除
    回覆
    1. 1.關於SE,我查到2個公式:
      (1)SE= SD/√n,因此當個案的程度差異很大,SD就會比較大,SE因此會增加。
      而個案數會影響SE,是因為公式中n放在分母,因此個案量越大,SE越小。
      (2)SEM=SD*√(1-r)。SD受個案程度差異而變化。r為測驗的信度,因此當信度越高,SEM越小。

      2.當個案能力與題目難度相等,項目訊息量(I)為最大。
      I=答錯機率*答對機率 SE=1/I
      當個案能力與題目難度相等,個案答對與答錯的機率各半,I會最大。
      換句話說,當個案能力與題目難度越接近,I越大,SEM越小,越能精準地估計個案的能力。
      因此我同意信度與反應性為一體的兩面。

      刪除
    2. 剛剛漏掉了回答其它因素的問題,現在補上。
      因為SEM= SD√(1-r),r為測驗的信度,因此信度也會影響SEM的大小。

      刪除
    3. 有關您提到的第1個公式,我想您是張冠李戴,請確認之。
      就第2個公式而言,您所言之前提是 SD 必須固定。

      刪除
    4. 關於公式(1):我查過統計書之後,發現那是指抽樣分配的標準差,與此處的標準誤為同名異義。
      感謝您的提醒。
      關於公式(2):是的。此處所提為古典測驗理論的概念,因此SD為固定。

      刪除
    5. To 姿誼:
      為何「...古典測驗理論的概念,因此SD為固定」?
      若 sample 不同,SD 為何會固定??

      刪除
    6. 抱歉,我沒有把意思說明完整。
      我的意思是:在古典測驗理論中,在一次收案中,所有的個案只會算一個SD,
      因此對所有個案而言,SD是固定的。
      但是,SD可能因為每次收案的個案程度不同而有差異。
      所以,可能無法將單一研究結果所計算的SEM應用於其他個案。

      刪除
    7. 您的結論「『可能』無法將單一研究結果所計算的SEM應用於其他個案」,一則不甚明確,二則,理論上,SEM 是 sample dependent 還是 sample independent??

      刪除
    8. SEM為sample dependent,因此會因為個案能力差異而有不同。
      若要將研究結果應用於其他個案,則需考量適用對象的特質與研究所找的個案特質是否相近。

      刪除
    9. In theory, SEM is sample independent. Thus, your arguments are wrong.

      刪除
  10. 姿誼指的"個案能力與題目難度的相近程度",應該就是信度(精準度)吧!當題目信度越高(SE越小),越能估計出個案的能力,也就越能把"不同能力"的個案"區辨"出來。照這樣來看,信度和反應性好像就是一體的兩面。。。

    回覆刪除
  11. 我看不懂為何「個案能力與題目難度的相近程度」代表信度?主要因為語意不明確/不完整。

    回覆刪除
  12. 我看了Hobart的文章,我看到的是significant improvement = sig change ≥ 1.96, 而sig change = (discharge location-admission location)/SEdiff。
    換句話說,individual responsiveness 指標為進步量≥ 1.96*SEdiff (所以應該不是>1.96*SE)。
    (SEdiff is standard error of the difference)

    看以上的公式,我覺得此公式和MDC公式有異曲同工之妙,是指一樣的計算方式。只是MDC和Hobart的SEdiff的計算方式有所不同。

    回覆刪除
  13. 同意姿誼上述第二點的說明,個案能力與題目難度的相近程度呈現的應該是試題訊息量的大小。

    回覆刪除
  14. To En-Chi,
    Thanks for your comments. I have corrected the errors.
    However, you may need to carefully look at the Hobart's formula about SEdiff. Please tell me why "the square root of the SUM of the square-SEadmission and the square-SEdischarge" is equal to "SE of the difference"?

    回覆刪除
  15. SE of the difference顧名思義就是計算2次SE之間的差異(距離)。
    計算距離的方法為 √[square (SE admission -SE discharge)] =√(square-SE admission + square-SE discharge square – 2*SE admission*SE discharge)
    第一次SE和第二次的SE不一樣,沒有相關,所以2*SE admission*SE discharge為0

    回覆刪除
  16. 1. why "SE of the difference顧名思義就是計算2次SE之間的差異(距離)"?
    2. why "第一次SE和第二次的SE不一樣,沒有相關"?
    3. why 2 成立 "所以2*SE admission*SE discharge為0"?

    回覆刪除
    回覆
    1. 1. 更正,"SE of the difference"應該是指2次測量分數差異的標準差。
      2. 更正,"第一次SE和第二次的SE不一樣",但不表示沒有相關。

      刪除
  17. To En-Chi:
    "Please tell me why "the square root of the SUM of the square-SEadmission and the square-SEdischarge" is equal to "SE of the difference"?"

    回覆刪除
    回覆
    1. 請參考我的部落格standard error of difference的解釋。網址如下http://chiuenchi.blogspot.com/2012/05/standard-error-of-difference.html

      刪除