顯示具有 Research-研究能力培養-統計 標籤的文章。 顯示所有文章
顯示具有 Research-研究能力培養-統計 標籤的文章。 顯示所有文章

2024年2月29日 星期四

新構想:ChatGPT 輔助學習--基本統計

原規劃給我導生的-沒人報名。

我主動去撈2個學生...

目標:

  1. 協助導生學習基本統計課程(怡靜開授的必修課,一學分)。
  2. 初步測試 ChatGPT輔助學習統計之效能。

具體學習目標:

統計方面--了解上述統計課程之主要概念與應用;

ChatGPT--了解如何用ChatGPT以學習/釐清統計概念與應用

執行方式:

  1. 參與者於課後,自行複習,若遇不懂之概念/應用,則先以 ChatGPT釐清之。
  2. ChatGPT練習(參與者):協助確認課程重點/主要概念,協助解釋與舉例說明,也可協助出考題以確認了解程度。亦即學習如何使用 ChatGPT以協助答上述目標。
  3. 課後定期討論(參與者跟我),以釐清統計概念與 ChatGPT使用方法
可能遭遇困難【對策】:
  • ChatGPT使用方法【參考範本/多練習/交流】
  • 統計概念/應用難以快速理解【多看解釋/應用實例,多交流】
  • 學生對於ChatGPT提供訊息之判斷能力,短期內難以提升【持續學習/應用,調整心態--急不來】

2021年8月30日 星期一

療效的解讀--如何解讀 effect size 的大小

effect size 倍受推薦,因其能呈現療效之大小,且不受樣本數大小影響。如 Cohen's d, r, Hedge's g, 或 eta-squared皆為RCT中常見的療效大小指標。

不同 effect size 指標可互相轉換,如 d 0.2 = r 0.1 (small effect); d 0.5 = r 0.3 (moderate effect); d 0.8 = r 0.5  (large effect)

一般復健介入的成效,若有moderate effect 就不錯了! 但 moderate 究竟多大。Cohen認為 small effect 可代表具有臨床意義之進步。但 small effect 究竟多大呢?

d = 0.5 ,通常解讀為 moderate effect,但多大呢? 若換成 r = 0.3 意指「介入」可解釋的變異量不到10%,未能解釋的變異量超過90%.... 也就是這樣的成效(或因果關係的解釋),實質上還是很低!?實驗組與對照組個案的諸多差異,90%無法以此介入解釋。if so 臨床人員應很難區隔/確認此介入之臨床成效。

Note: 療效的解讀還可判讀 p value, 但這易受樣本數/變異性影響(意即樣本數大或變異小,則 p值易低),意即p 越小,不一定代表療效越大。另,療效的解讀還可判讀評估分數的變化/組間差異(如果讀者熟悉評估工具與其分數)。

2016年12月16日 星期五

psychometrics vs clinimetrics

最近學生評析一篇以 clinimetrics 發展之評估工具
我也趁機再 review "psychometrics & clinimetrics" 二者之異同
如上圖所示: 二者主要差異在於項目與向度之關係
依據 psychometrics 發展之工具,項目與向度之關係必須符合 reflective model 或測量同一概念之項目必須具備單向度。
clinimetrics 則是以 formative model 為基礎(如 social economic status [SES], Glasgow coma scale 由專家挑選主要指標/影響因素)平評估工具之項目毋須具備單向度。

驗證方法之差異,主要在效度方面:psychometrics 強調建構效度(單向度)或同時效度;clinimetrics  則以內容效度為主。故後者較為主觀,也難以取得共識。

我們團隊長期採用 psychometrics 發展與驗證評估工具,這符合學界的主流與趨勢。但遇到如 stroke knowledge & OT knowledge 這些內容幾乎都是以 formative model 為主,就很難依據 psychometrics 發展工具(如OT knowledge之內容含蓋諸多向度,但發展多向度的OT knowledge測驗,不但很難[如理論上難以定義具有哪些向度],也不實用)

學生評析的論文是發展 activity & participation 評估工具,作者邀請專家發展 activity & participation 項目(也就是內容效度)。然而activity & participation二概念本就模糊,ICF的定義也難取得共識,故學術上對二者的概念與定義一直有爭議。作者當然有辦法在一小群專家中取得共識,故可發展出activity & participation評估工具。但其內容要取得其他學者之認同,或諸多實證支持,皆不容易。

換個工具討論此議題, MMSE 內容組成,我認為偏向 formative model。大多數學者不在意它的所有項目是否為單向度。我們主要在意它的 sensitivity & specificity. 因為 MMSE 簡單好用,且 sensitivity & specificity 大致良好。另也缺乏強力對手,因此我們使用MMSE將近半個世紀,還在繼續使用它!

簡言之,我覺得 psychometrics 還是王道。有些概念(如 OT knowledge)若不易發展出單向度或多向度之測驗,或可用 clinimetrics/formative model發展。但研究者須充分證實其反應性與區辨能力[實用價值],且需多加使用(發表論文),取得知名度之後,較能被接受。

以上請惠賜意見!

Note: 1. 有關 formative & reflective models 之概念  可參考我之前的 post
2. 此 post 在南澳(墨爾本)旅途之中完成

References:
de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol 2003;56:1137–41.
Streiner DL. Clinimetrics vs psychometrics: an unnecessary distinction. J Clin Epidemiol 2003;56:1143–5.
de Vet HCW, Terwee CB, Bouter LM. Clinimetric versus psychometrics: two sides of the same coin. J Clin Epidemiol 2003;56:1146–7.
Streiner DL. Test development: two-sided coin or one-sided Mobins strip? J Clin Epidemiol 2003;56:1148–9.

Feinstein AR. An additional science for clinical medicine. The development of clinimetrics. Ann Intern Med 1983;99:843–8. [Feinstein 首先提出 clinimetrics]

Whiteneck G, Dijkers MP. Difficult to measure constructs: conceptual and methodological issues concerning participation and environmental factors. Arch Phys Med Rehabil. 2009 Nov;90(11 Suppl):S22-35.

2014年3月4日 星期二

影響 test-retest agreement 之因素

通常是 random 造成,也就是沒有特定因素。
然而,我們一定可以試著找找看有沒有 特定的因素
最近看到一篇論文
Cheville AL, Basford JR, Dos Santos K, Kroenke K. Symptom burden and comorbidities impact the consistency of responses on patient-reported functional outcomes. Arch Phys Med Rehabil. 2014 Jan;95(1):79-86.
給我一些想法:我們至少可探索看看有無相關因子
若找到了,將可減少 MDC !!
if so, 在從事 test-retest study 時,即須收集可能因素。

2013年8月17日 星期六

發展評估工具之理論基礎 (reflective or formative model) 影響 RCT實證結果

Reflective model 之特質為model內之「向度(domain)」或「項目(item)」之間具有一定的關聯程度且有階層性(難易度)差異,向度或項目之組成具備一定的生理或生物機制如行動能力:可分為行走、坐立、躺等向度;行走又可細分為跑步,散步等。不同向度間可組成高階的向度(行動能力)。向度內之項目符合單向度(unidimensionality)意即各項目皆評量同一特質,各向度間亦符合單向度。因此向度內之項目可加總計分以代表該向度之特質強弱,各向度亦可加總計分,以代表高階向度之強度。

Formative model 的特質為model內「向度」或「項目」之間的關聯程度不高且無階層性(難易度),向度或項目之組成通常由專家之共識決定。如生活品質(quality of life, QOL),一般視為多向度(至少含括生理、社會、心理、環境等向度)這些QOL向度由專家決定,向度之間的關聯低且欠缺明顯的階層性。其它例子包含:基測的科目(多向度)、臺灣股市之加權指數(多向度)等。因為model內「向度」或「項目」皆不符合單向度,故不能加總計分(即使強制加總之,其分數將難以代表向度之強度 [如強制加總QOL各向度分數,無法代表真實QOL程度。因為沒人可證實 QOL 如何組成,其組成可能是因人而異,故難以確認如何加總])。

一個「好」的「療效」評估工具,以各別向度而言,應該符合 reflective model 特質:也就是項目間具備相關且有明顯的階層性(這也是單向度的概念)。一個「良好」的療效評估工具更須具備從最簡單到最難階層的項目,且難度平均分散,才足以偵測不同程度個案的進步

依據formative model 建構之評估工具的特性(優點)為:簡單具備實務價值。如加總(或加權)基測各科目的成績藉以判斷入學資格。如臺灣股市之加權指數可以「簡單」判斷國內之經濟狀態。然而這樣工具(指數)難以成為一個好的療效指標,除了上述不符合單向度特質,任何人想要「整體/全面提升」學測成績、股市指數、QOL,其難度太高(也就是這樣的指標將難以呈現「療效」,也就會低估療效)!

舉例言之:
Tammy 所設計的 Knowledge of Stroke Questionnaire (KSQ) 內容包含不同的向度(我認為至少有三向度:疾病特質、危險因子、緊急處理與後續醫療處置)且向度甚至其項目彼此之間欠缺階層性,故KSQ偏向於 formative model。若前二段落所述觀念成立,則KSQ難以成為好的「中風衛教」之療效指標。據此推測:這工具的缺失是造成 Tammy 他們的研究結果顯示:中風衛教成效不佳的主因之一!!也就是他們的研究低估衛教成效。且其癥結在於工具,不在於「衛教」。也可以說因為他們的衛教成效不夠「巨大」,難以「整體」「大力」提升個案於不同中風向度之知識。

上述概念對於我們研究團隊「刻正進行中的研究」以及「個人研究哲學」皆有重大意義/啟示。
對執行中的研究而言:
依據姿誼目前所彙整專家之意見:OT knowledge的組成包含三個概念/向度(核心價值、執業機構及相關法規)。If so, OTK是一個多向度的概念,姿誼跟我必須發展一個多向度,且各向度符合 reflective model具備從最簡單到最難的項目,且項目之難度平均分散,才有可能「充分」呈現OT衛教的成效!除非我們的OT衛教成效卓著,然而 這點 我非常保留。

就我的研究哲學而言:
這也是我一直認為OT現階段發展之瓶頸在於「評估」而非「治療」,因為不論我們想提升療效或驗證療效,二者皆需要良好的療效評估工具。另外,OT也須要良好的評估工具以掌握個案特質,才足以執行「個案為中心」之OT)。也就是欠缺良好的評估工具(現況以及至少10年內皆將如此 [因為投入者少,改變緩慢。如認知評估工具之發展,我很確定10年內之改善程度一定相當有限]),造成國內的OT臨床與研究,皆無法突破瓶頸(e.g., 欠缺良好/全面的認知/社會功能評估工具,如何掌握個案的認知/社會功能?也將無法掌握影響個案ADL之因素,如何對症下藥,證實療效??遑論提升療效。)!

Note: 如果評估工具發展者未具備以上概念,則不易發展出良好的療效指標。我想這也是目前OT臨床的困境之一:臨床評估與病歷記載之內容,因為欠缺評量專家之參與,所以「價值」相當有限。Tammy 的團隊也欠缺如此專家,因此低估他們的衛教成效。可惜!!

Your comments are greatly appreciated!

2013年8月5日 星期一

OT 或中風知識問卷之設計與驗證

fact 1: 我們 回顧 「中風知識問卷」發現:絕大多數問卷皆缺乏完整的心理計量(信度、效度等)驗證
fact 2: 我們分析 Tammy's Questionnaire of Stroke Knowledge 發現心理計量特性(內在一致性與建構效度)不佳
fact 3: 一些評論「健康識能問卷」或「疾病知識問卷」論文,以心理計量特性評論這些問卷,亦發現「心理計量證據相當有限」。(1,2)
fact 4: 有些健康識能問卷,經過嚴謹的設計與心理計量特性驗證,結果大致良好。(3)

opinion 1: 黃俊豪老師(衛教專長)認為一般疾病知識內容零碎,不易組成「建構」或「內部一致性」良好的問卷。
opinion 2: 陳柏熹老師(教育心理測驗專長專長)的看法待補充

question 1: 傳統的因素分析或向度分析是否合適驗證「知識問卷」,特別是「知識問卷」可能是由 formative model 所組成。

後續可能的作法:
1. 撰寫 stroke knowledge questionnaires 之評論(考慮與侯醫師、 Tammy 、姿誼及怡靜合作),並投稿國外之名期刊,以凸顯此議題並跟國際學者切磋。
2. 學習如何嚴謹建構OT及中風知識問卷,以利後續驗證。Osborne 的論文(3) 可當成 model 之一。

References:
1. Jordan JE, Osborne RH, Buchbinder R. Critical appraisal of health literacy indices revealed variable underlying constructs, narrow content and psychometric weaknesses. J Clin Epidemiol. 2011;64:366-379.
2. Eigenmann CA, Colagiuri R, Skinner TC, Trevena L. Are current psychometric tools suitable for measuring outcomes of diabetes education? Diabet Med. 2009;26:425-436.
3. Osborne RH, Batterham RW, Elsworth GR, Hawkins M, Buchbinder R. The grounded psychometric development and initial validation of the Health Literacy Questionnaire (HLQ). BMC Public Health. 2013;13:658.



2013年7月8日 星期一

SEM 之估計

SEM 的原始定義是個案層級測量結果的誤差值
最「直接」的估計法是讓個案被評估(或施測)無數次,再計算其標準差(即可得SEM)
且SEM的應用(假設)是 sample independence,所以此標準差數值可應用於所有個案

在臨床上我們無法讓個案施測 n 次以求得可靠/穩定的標準差,因為不可行(沒有病人可忍受 n 次測量)。所以實務上我們都以 testing retesting 於大量個案上,再由 ICC「間接」推估 SEM

然而如果請大學生當受試者,且排除練習效應(如個案施測10次之後再計算分數),且每天「只」施測10~15次,持續7~10天。這或許是個可行的直接估計SEM的方式。

尤其用在電腦化認知測驗,而非問卷等容易受到記憶影響的測驗上。

以上的設計也有助於探索電腦化認知測驗之練習效應。

給學生適當的獎勵,暑假期間應是良時!

Your comments are appreciated!

2012年12月28日 星期五

研究哲學 與 策略

王文中教授的座談,聊到為何選擇 Rasch 或其它 2-P/3-P IRT models, 這牽涉統計(計量)、哲學與個人的選擇!

這對長期研究領域(題材)的選擇,尤其重要。

就跟我對 ADL or motor RCTs 的看法一般(未來RCT對療效難以大幅提升,後續療效提升的關鍵在於機制的探討[也就是模式的建立與驗證/甚至是評估工具的發展])。以上是我,除了以統計角度的評論,也加上個人主觀的色彩。

影響深遠!!

2012年12月1日 星期六

因果關係的探索

在臨床就是療效與病因的確認!
RCT是目前公認「確認療效」的方法

然而統計學家有不同的方法,這也是上週去聽「陳秀熙」教授演講的收穫

今天又看到 「《臺大校園焦點》(第215期)謝志豪副教授(臺大海洋研究所/生態學與演化生物學研究所)國際研究團隊,在10月26日 的《科學》期刊上發表一套用於分析生態系統中生物與非生物因子間因果關係(causality)的新方法。」

「我們看到自然界中兩個物種的族群動態有顯著相關,可能是因為兩個物種間有種間互動,但也有可能是兩個物種同時受到相同環境因子的影響。兩者間的統計相關性,並不代表其中有因果關係,相反地,缺乏相關性也不表示兩者間沒有因果關係。

「謝志豪副教授及研究團隊發展出「收斂交叉映射法(Convergent Cross Mapping)」來進行檢驗。簡單來說這個方法的原理是根據「凡走過,必留下痕跡」而設計出來,他們利用時間序列資料,檢驗“A”是不是在“B”的歷史中留下痕跡;若是,則A便是造成B的“因”。」

有興趣者可去 Science 期刊看論文還有影片

然而這些統計方法皆須長期/大量收集資料。。。。電子病歷 may help!!

2012年11月30日 星期五

有獎徵答: 如何以 Rasch analysis 驗證評估工具之 discriminative property?

提示:跟信度相關!

參考文獻: Norman GR.Discrimination and reliability: equal partners? Health Qual Life Outcomes. 2008 Oct 16;6:81.

請以「留言」張貼您的見解於此 post.

截止日期: Nov. 30, 2012

以下是 2012/12/30 下午 4:20 張貼:

我的看法是 SE 小,個案間的差別就區隔出來了,故區辨力大
因為Rasch 的信度,由 SE 推估獲得 。
因此我會用個別個案估計值之 SE 當成判斷 discriminative property 的指標。

如果受試樣本每位個案之 SE 皆小於 0.32, 則「個案層級」之 discriminative property is good! 如果有些個案的 SE 超過 0.32, 那代表項目不足(通常是欠缺較難或較簡單的項目)。

另外,如果 SE 小,通常 evaluative & predictive properties 將跟著好!!
這也是為何 IRT 學者那麼重視SE了!!