2017年4月16日 星期日

心理計量驗證之研究旅程

目前寫至20回 Sep, 2022
第一回: 沒有回頭路*

 回到1992年,我的博論需要先發展一份問卷,以收集論文主要變項之資料。

如果設計不出來,我沒有資料,一定畢不了業。。。

然而,基本上我心中懷疑: 問卷科學嗎? 客觀嗎? 資料 (數據) 有說服力嗎?

這種想法應該跟很多人 (學者) 心中的想法一樣: 問卷是不可靠的、每個人解讀不同(不同人填寫的結果難以比較),也就是因人而異。所以當時的看法是:問卷較不客觀、較不科學!

但無論如何,我要畢業,只能埋頭設計之。。。沒有回頭路,誰想博論中途更換主題。*

我當時參考的文獻不太多,也很難找,因為主題很台 (偏頗)*,國外很少人研究。另外,可以問的人也不多,因為我是念【人類與社會學系】,我的指導教授之專長是【社會流行病學】。我周邊可謂沒有真正心理計量專家。

另外,更嚴重的是,事實上,我當時也不知到【心理計量】,還沒看過 psychometric(s)這個字。

後來竟然,3年多一點就畢業了。。。1994年還順利找到【我自認為】【全世界最好的工作】: 臺灣大學教師,雖然是從【助教】起聘。* 所以加上碩士不到一年完成,4年就完成碩博士學位。*可謂神速。

當時主要的問卷設計方法就是多想一些題目,再找個案測試。。。
後來的資料分析,以專家判斷題目之面向,再以 Cronbach's alpha 刪除題目。。。還好所剩題目足夠,就有資料可以進行後續分析了。
這都是我指導教授教我的。。

Note:
1. 希望能夠每週寫一回【故事】。。。
2. 當時是自己訂題目,再找指導教授確認是否可行與指導。
3.民國83年時,NTU 的【助教】是教師缺,可以升等為講師。。。至教授。就看自己的努力。所以  當時 我已佔有【自認】【全世界最好的工作】之職缺。
4. 這是很快的速度,但功力如何?後續潛力如何?還未定案。
5. 我深知博論中途換主題的痛苦,但有些時候,如果遠方真的看不到光線,也需要硬著頭皮好好跟指導教授談一談。這蠻無奈的,但誰能保證結果呢??





第二回: 個人迷失或集體迷失??

第一個迷失:療效驗證最優先/重要!?*
我第一個國科會計畫 (現更名為科技部) 是 postural control 訓練的療效驗證,RCT設計喔!!
民國1995年8月開時執行。
然而當時因為經費有限(只有 35萬),聘不起助理,且是一年期計畫 (當初也寫不出多年期計畫),我的時間也有限。。。結果就可想而知了。。樣本數太少,草草結案了。

我後續還有做過一個ADL療效驗證,但還是因為【經費人力】受限,只能執行 repeated assessments 研究設計,也就是放棄RCT設計了。 後來結果還可以,也有投稿。但被拒絕二次之後,就成為我這一輩子,極少數永遠躺在家裡的稿件了。

第一個國科會計畫 對我後續研究的主要影響有二:
一、為了尋找【可令人信服】的評估工具,就找了PT老師,拜託她幫忙,用她的平衡儀器驗證。讓我發深省 Is there a myth? 詳第二個迷失。
二、RCT需要足夠的資源 (含人力、經費、臨床資源還有時間),否則難以完成。*

第二個迷失: 儀器比臨床量表科學、精確,也受到信賴!?
開始使用 PT老師的儀器後,約病人更麻煩了,因為除了須配合個案的時間,也需要配合儀器的時間。另外儀器也會生病(故障)以及維修。。。很麻煩!!

另外,要教導中風病人接受儀器測試,也是一番工程,除了要保障安全,還須要教導個案做出預訂的動作。。。從儀器校正、安頓個案、教導個案動作、練習、測試、必要時休息一下。。 的確,我能得到一大堆數據。。還需要花一些功夫才能取得數據。。但結果可靠/有效嗎?

上述這些經歷,還有花費一些研究經費在這平衡儀器上,我得到很重要的啟示: 儀器不好用,結果也不太可靠。

後來還因此,前前後後,進行過三個研究,以比較儀器與臨床量表之心理計量特性,結果證實,儀器所得結果未比量表可靠!!甚至有些儀器所得的指標非常不穩定(不可靠)。

有興趣者,詳下列3篇論文。
1. Chen CH, Lin SF, Yu WH, Lin JH, Chen HL, Hsieh CL. Comparison of the Test-retest Reliability of the Balance Computerized Adaptive Test and a Computerized Posturography Instrument in Patients with Stroke.Arch Phys Med Rehabil. 2014:95:1477-83.
2. 吳宗憲,戴翊,謝清麟,陳嘉炘,李素,林昭宏。比較中風病人上肢動作量表及運動學分析之再測信度。物理治療。2010;35:292-9.
3. Chien CW, Hu MH, Tang PF, Sheu CF, Hsieh CL. A comparison of psychometric properties of the Smart Balance Master system and the Postural Assessment Scale for stroke in people who have had mild stroke. Arch Phys Med Rehabil. 2007;88:374-80.
以上論文都讓儀器擁有(護)者相當難以接受,但他們都同意內容,也是共同作者(二篇英文文獻都有儀器擁有(護)者)!!
2007年發表那篇,也就是我第一個國科會計畫使用的平衡儀器,迄今(Apr. 4, 2021) 查詢 Google scholar 已被引用116次!
其中2篇英文論文都發表在讀者眾多的 Arch Phys Med Rehabil!! 這論文系列,也是我自認為這一輩子的代表作之一!!

Note:
1. 這裡先開個頭,之後再細講。
2. 後來發現只要需要收集臨床資料,不論何種研究設計,都蠻耗費資源的!





第三回: 傳統、無感 或 無力更新??

許多臨床評估工具 (如巴氏量表、姿態控制、Brunnstrom staging) 我們一用就是三、五十年
甚至未來一二十年。。。可以預期: 還會繼續使用。。。這些是主要的評估工具,水準都這樣了。其它工具的水準/品質,還須多言嗎?

這些工具真的這麼好,後續也沒有更好的,可以取而代之??

事實上,並非如此,這些工具並不好。皆可謂粗略、不完整。也有更好的評估工具已問世。

可以取代巴氏量表的 Functional Independence Measure 早已問世*
Berg Balance Scale & PASS 皆比【姿態控制】更精準
可取代 Brunnstrom staging 的工具更是好幾個

上述三項臨床評估工具,除了巴氏量表具備心理計量(品質指標)實證,【姿態控制】以及Brunnstrom staging 之心理計量特性並不好!!

然而,為何台灣的 OT/PT 復健科醫師還在繼續使用這些上一世紀的評估工具??而且還無感,不知何時會汰換更新。

要取得 iPhone 新世代的手機,等個3個月或半年,我們都覺得【等很久】

所以關鍵在於,臨床人員【期待】新世代的評估工具嗎? 還是我們固守傳統評估工具,還要繼續傳承下去。。。


Note: 我約10幾年前曾調查發現: 國內臨床治療師甚少使標準化、具備心理計量實證之評估工具。一二十年都過去了,臨床人員使用的評估工具之水平依然。。。
OT其它領域亦然,有興趣者,詳下方文獻。
謝清麟,黃小玲,廖端蓉。國內醫學中心職能治療部門對中風病患評估量表的使用狀況與建議。職能治療學會雜誌。1999;17:60-6。
吳希文,王勝輝,李秉家,謝清麟,李柏森。國內公立療養院職能治療部門對精神分裂病患評估量表的使用狀況及心理計量特性探討。台灣職能治療研究與實務雜誌。2010;6:25-36。
陳玉蘭,姜富美,謝清麟,黃瑋恬,吳佩瑾,傅中珮。職能治療部門對泛自閉症障礙兒童之標準化評估工具使用狀況。臺灣職能治療研究與實務雜誌。2011;7:87-96。

*還有我們團隊發展的 ADL 電腦適性測驗,還有BI 補充量表(BI-SS)都已發表了,但誰用!?



第四回:  工欲善其事:  評估工具的用途 暨 現有迷思

評估工具的用途舉其大者:
1. 掌握個案特性/病情
2. 執行臨床推理之依據
3. 設定治療計畫
4. 預測預後
5. 呈現療效/變化

然而 因為我們目前的工具不良,即使花時間評量,也難以達成上述目的。
舉例而言,我們常用 LOTCA 評估個案之認知功能,然而該工具之心理計量特性不佳,且建構(向度)與眾不同難以跟其他專業溝通,且有文化差異。。。如何能達成上述功能??
褚氏 ADL & 注意力測驗亦有類似問題。

現有工具的缺失,也造成臨床評估只是聊具一格,徒具形式。
所以有人倡議以【臨床觀察/經驗】取代評估工具之不足。。。但【這是迷失之一】
就評估而言,【臨床觀察/經驗】這本就是【最初級】的評估,但因【臨床觀察/經驗】欠缺明確架構與紀錄,所以難以取代目前評估工具之不足,且也造成專業人員之間,因為【臨床觀察/經驗之差異】難以溝通。遑論跟其他專業之交流。簡言之,這是上世紀因陋就簡的做法,也造成臨床人員的嚴重瓶頸。

目前的工具不良,也造成難以推動【實證醫學】及【個別化治療】,因為實證有效之治療模式一定有其適用對象與時機,必須先做好評估【以標準化評估工具施測】,才能媒合有實證的治療模式。

實證醫學是當今的顯學,然而我們因為基礎不足,而去追逐潮流【這可謂迷失之二】,焉有可能?? 舉例而言,不論OT介入之目標在於 ADL 或 motor, 關鍵之一在於個案的 認知功能,然而我們的認知功能評估工具相當不理想,那如何調整治療模式以及找到最佳的對象?? 如何執行個別化治療??

請再參考【評估與治療何者優先】,2011年的 post。


第五回: 幸運之旅~已20年,可再走至少 15年

20年來主要投入評估工具驗證與發展
投入此主題的原因,詳【為何要投入「評估工具」之驗證與發展 January 23, 2014】
大概已發表100篇相關主題的國內外論文
被引用次數超過100次者,迄今 13 篇論文【依據 Google 學術搜尋,Jun. 2, 2018】 
這在國內復健領域,應該很少有超越者
而且上述論文是【基礎研究】且【演進緩慢】,所以這些論文會長期被引用。

一路走來,從古典測驗理論到現代測驗理論還有電腦適性測驗,從淺到深,加上應用廣度(不同面向、客觀與主觀概念、不同診斷),路途更為寬廣!!

有諸多貴人【高手】提攜 (如薛老師、姚老師、許老師、3位王老師等),確認我的方向、強化我的實力、開創研究主題與成果!! 讓幸運之旅的內涵更為豐富!!

後續旅程的方向基本上已定調,詳:【後續研究議題 March 9, 2014】,就看是否有緣人,詳:【 10年教授之回顧與展望 November 25, 2013】



第六回: 學以致用、突破瓶頸

我樂於投入研究,關鍵的因素是【學術研究】提供方法,【臺大】提供環境(主要包含充裕的研究時間,還有全力投入的研究生、博後還有助理),讓我可以學以致用,且可以做我想做的事。

這是非常幸福的工作與環境

我可以規劃中長程 (10年以上) 計畫,也可以逐步看到成果
這些計畫應是針對目前臨床關鍵的瓶頸(詳其它 posts),逐一應用當今最好/可行的方法突破之
這些瓶頸需要「方法」「人才」「時間」還有一些機運,才能突破。

這就回到我的座右銘
Slow and steady wins the game!


評估工具/心理計量研究 也是【實用導向】,評估工具之實用功能,如何以心理計量特性具體呈現? 這也是思考與解釋心理計量研究與數據之思考重點。




第七回: 模仿--研究的起步

我先找到幾篇 model papers(通常是知名學者發表在很好期刊的論文,加上自己的判斷力)也看到應用於中風病患之評估工具的不足,再考量自己是否做得到。
也就是運用/模仿 model papers 的研究方法,以解決中風病患評估工具的問題,再持續發表數篇類似論文,以累積成果與經驗,甚至深入該領域。
如 1. 早期驗證評估工具之 inter-rater reliability & responsiveness
2.  近期的 test-retest reliability & individual-level responsiveness
3. 類似評估工具的心理計量特性比較
4. IRT 的應用 & CAT 的發展亦然

所以,不只「起步」的時候,「模仿/大量練習」是我進入/深入特定領域的必經歷程!


多執行幾項類似的研究讓我更熟練,多寫幾篇類似方法的論文讓我遇到更多/更深入的審查意見與高手切磋,也就讓我的功力更強!

我具備功力之後,應用同樣的方法學,檢視【小兒】及【心理】領域,看到更多的研究議題(亟待改善的評估工具與臨床效能)。我跟合作夥伴於【小兒】及【心理】領域皆已發表至少10篇論文,未來還會更多!!

簡言之,我模仿學習 model papers 之研究方法、大量練習、再擴展應用領域。以提升/強化功力,並創造成果!




第 八 回: 跟 Rasch analysis 之邂逅

西元 1993 or 1994,我去聽大學同學賴金雪之演講 (OT學會舉辦的再教育課程)
那是我第一次聽到 Rasch analysis,唯一的印象是功能強大(sample free, test free...),令人難以置信。相關原理與細節,當時應該都沒聽懂。

因為那時 Rasch analysis 的文獻不多【絕非主流,如圖所示】,所以看到相關論文【實際應用】的機會也極低【當時資料檢索需要去圖書館,且檢索效能低落】

因為不孰悉,也無相關資料/題材可應用,所以我並未立即採用之【也可說是我的賴同學當時並沒有說服我】。

我那時期 [1994~2002] 僅採用古典測驗理論發表論文,就升上教授了(升教授的4篇主要論文,其中3篇已被引用超過330次,另1篇92次【June, 2018, Google Scholar】。那3篇是我生涯發表論文中,多年以來一直被引用最多次數的前3名論文)

後來 2002 年,曾美惠老師邀請【王文中老師 (當時國內極少數的 Rasch 專家) 蒞臨學系演講,才開啟我正式進入 Rasch/IRT/CAT之大門。所以王教授就成為我研究生涯中的貴人之一!!

這也可以說王老師 (right person) 出現的時機 (right time) 對。因為王老師精熟 Rasch analysis, 很快地就可以讓我瞭解 Rasch analysis、解除我對 Rasch analysis 的諸多疑慮,也讓我看到 Rasch analysis 在臨床評估工具的價值。另外我手上已有多份評估工具超過300位個案的資料,可以立即執行 Rasch analysis. 所以我們很快就可以進入實質合作的階段,而且王老師的寫作強/效率高,我們很快就完成很好的稿件!!

Rasch model 於醫療領域之應用_Final
連結上述檔案,闡述本人以Rasch model 於醫療領域評估工具之實務應用(含題材選擇、資料分析、結果呈現及解讀、論文撰寫與發表歷程)與讀者分享,我們使用的Rasch相關統計軟體以 WINSTEP 或 CONQUEST為主。這些分享除了感念王文中教授的指導,亦期待讀者能應用Rasch model 於各自領域,以驗證、改良或發展評估工具,以期提升臨床專業與學術應用效能。
圖: 各年代論文 textwords 提到 Rasch 之論文篇數 [PubMed]
Note: 我對此圖數據的解釋是:
我聽 金雪演講講時,每個月不到 1篇論文摘要提到 Rasch
2014約每天1篇,20年差距30倍。



第 九 回: 一個 domain 的評估工具,可有多少研究議題/成果??


Balance and ADL 二 domains 評估工具,是我寫最多論文者,以 balance 為例

一、心理計量驗證與比較(PASS & BBS 二評估工具為主)
1. Mao HF, Hsueh IP, Tang PF, Sheu CF, Hsieh CL. Analysis and comparison of the psychometric properties of three balance measures for stroke patients. Stroke. 2002;33:1022-1027.
2. Chien CW, Hu MH, Tang PF, Sheu CF, Hsieh CL. A comparison of psychometric properties of the smart balance master system and the postural assessment scale for stroke in people who have had mild stroke. Arch Phys Med Rehabil. 2007;88:374-380.
3. Huang YJ, Lin GH, Lee SC, Chen YM, Huang SL, Hsieh CL. Group- and Individual-Level Responsiveness of the 3-Point Berg Balance Scale and 3-Point Postural Assessment Scale for Stroke Patients. Arch Phys Med Rehabil. 2018;99:529-533.
4. Chen YM, Huang YJ, Huang CY, Lin GH, Liaw LJ, Lee SC, Hsieh CL. Test-retest reliability and minimal detectable change of two simplified 3-point balance measures in patients with stroke. Eur J Phys Rehabil Med. 2017;53:719-724.

二、發展簡版評估工具 (簡化 PASS & BBS 二評估工具為主)
1. Wang CH, Hsueh IP, Sheu CF, Yao G, Hsieh CL. Psychometric properties of 2 simplified 3-level balance scales used for patients with stroke. Phys Ther. 2004;84:430-438.
2. Wang CH, Hsueh IP, Sheu CF, Hsieh CL. Discriminative, predictive, and evaluative properties of a trunk control measure in patients with stroke. Phys Ther. 2005;85:887-894.
3. Chou CY, Chien CW, Hsueh IP, Sheu CF, Wang CH, Hsieh CL. Developing a short form of the berg balance scale for people with stroke. Phys Ther. 2006;86:195-204.
4. Chien CW, Lin JH, Wang CH, Hsueh IP, Sheu CF, Hsieh CL. Developing a short form of the postural assessment scale for people with stroke. Neurorehabil Neural Repair. 2007;21:81-90.
5. Liaw LJ, Hsieh CL, Hsu MJ, Chen HM, Lin JH, Lo SK. Test-retest reproducibility of two short-form balance measures used in individuals with stroke. Int J Rehabil Res. 2012;35:256-262.
6. Hsueh IP, Chen KL, Chou YT, Wang YH, Hsieh CL. Individual-level responsiveness of the original and short-form postural assessment scale for stroke patients. Phys Ther. 2013;93:1377-1382.
7. Chen KL, Chou YT, Yu WH, Chen CT, Shih CL, Hsieh CL. A prospective study of the responsiveness of the original and the short form Berg Balance Scale in people with stroke. Clin Rehabil. 2015;29:468-76.

三、發展CAT以及題庫之短版

1. Hsueh IP, Chen JH, Wang CH, Chen CT, Sheu CF, Wang WC, et al. Development of a computerized adaptive test for assessing balance function in patients with stroke. Phys Ther. 2010;90:1336-1344.
2. Hou WH, Chen JH, Wang YH, Wang CH, Lin JH, Hsueh IP, et al. Development of a set of functional hierarchical balance short forms for patients with stroke. Arch Phys Med Rehabil. 2011;92:1119-1125.
3. Yu WH, Hsueh IP, Hou WH, Wang YH, Hsieh CL. A comparison of responsiveness and predictive validity of two balance measures in patients with stroke. J Rehabil Med. 2012;44:176-180.
4. Chen CH, Lin SF, Yu WH, Lin JH, Chen HL, Hsieh CL. Comparison of the test-retest reliability of the balance computerized adaptive test and a computerized posturography instrument in patients with stroke. Arch Phys Med Rehabil. 2014;95:1477-1483.
5. Yu WH, Chen KL, Chou YT, Hsueh IP, Hsieh CL. Responsiveness and predictive validity of the hierarchical balance short forms in people with stroke. Phys Ther. 2013;93:798-808.
6. Yu WH, Chen KL, Huang SL, Lu WS, Lee SC, Hsieh CL. Intrarater and Interrater Reliability of the Hierarchical Balance Short Forms in Patients With Stroke. Arch Phys Med Rehabil. 2016;97(12):2137-2145.
7. Lin GH, Huang YJ, Lee YC, Lee SC, Chou CY, Hsieh CL. Development of a Computerized Adaptive Testing System for Assessing 5 Functions in Patients with Stroke: A Simulation and Validation Study. Arch Phys Med Rehabil. 2019;100:899-907.

四、發展AI短版
         2021年已發表 Fugl-Meyer AI 短版,BBS的AI短版稿件應可於2021年完成與發表(Note: 於July 2022被Q1期刊接受刊登)。並可比較各種短版與原本之心理計量特性差異。 (March 2021, 新增內容) 

以上之論文數量與品質,都還不錯,大多發表於著名期刊。

若加上其它類型論文,那就更可觀了
Hsieh CL, Sheu CF, Hsueh IP, Wang CH. Trunk control as an early predictor of comprehensive activities of daily living function in stroke patients. Stroke. 2002;33:2626-2630.

每個研究議題皆有其獨特的學術價值或臨床意義,才有【賣點】或【牛肉】。
研究議題之間亦有脈絡可循,就像拼圖,可以彙整成完整的圖案。
掌握賣點、完成拼圖,自然有趣!

有關我的 ADL 論文發表系列,可參考 PubMed 之檢索結果 [Please click me]



第 十 回 臨床人員究竟要 多少種 評估工具

基本上這要先看臨床人員的 評估目的與治療哲理:

相關的評估目的包含:
1. 健保抽查
2. 評鑑要求
3. 掌握個案特性/病情
4. 執行臨床推理之依據
5. 設定治療計畫
6. 預測預後
7. 呈現療效/變化
8. 進行研究,如特定病情之盛行率與變化、理論驗證、改良臨床評估工具等
9. 決定個案轉介機構 {盧以提供}
10. 跟其它專業溝通(包含內部溝通) {盧以提供}

治療哲理若以 client-centered or family-centered practice 而言,那需要掌握的個案/家屬特性,就很多元了。

實務上,初評應該做到「3.掌握個案特性/病情」並且建立短期「治療目標」

然而個案/家屬對於病情很可能沒有 insight,導致個案/家屬的「治療目標」很籠統或太高(不切實際)。
所以瞭解個案的特性必須包含個案家屬對「疾病」(至少是特性與預後)之瞭解,這些也是評估重點喔!!甚至也需要確認個案/家屬對OT的瞭解與期待,否則他們一定會有「不當期待」。
if so, 臨床人員需要評估或篩檢個案/家屬之「疾病」"OT"知識,如果他們的知識不足,還要給予衛教!!這宜列為「短期」或「中期」目標,否則個案接受OT一段時間,還不瞭解OT(雖然這一直是「事實」)。

如果上述都OK了,治療一段時間,我們必須確認「目標達成率」也就是「呈現療效」也需進行「臨床推理」以探索究竟。

療效有那些??以治療目標而言,ICF 的 body function, activity, and participation 理論上與實務上都有可能。有治療師評估,也有病患自陳結果 (patient-reported outcomes)。上述這些有多少層面呢?至少10個吧!

這故事很長,待續

第 十一 回 評估工具需具備哪些條件,臨床人員一定使用

1. 具備臨床介入與推理的理論,且此理論具備充分實證。這看似跟工具無關,但工具是用來執行/實現、驗證、修改與實踐理論的要件。
2. 工具之心理計量特性良好。
3. 工具便利使用。

1最難!若將ICF的架構,當成臨床介入與推理的理論基礎,就知道 我們還缺一大堆工具。更何況 ICF 還有殘缺,理論驗證也不完整。
但這是必經之路!

我們必須提出適合國人的bio-psycho-social理論架構,持續驗證與修改。。。。從 macro 到 micro 層次的理論,最後一定是 patient-centered & individualized.
但要驗證,就需要2,至少心理計量特性不錯的工具,可以用在研究領域。
之後驗證/修改理論,也同時改良評估工具,以利於後續臨床使用。最後評估工具加上電腦化整合於電子病歷之中,也才能到達3的境界。
以後再講仔細點。。。。

第 十二 回   臨床人員對於更改使用評估工具的  動機為何低落 /  實例為何很少?

可能原因如下:
1. 慣性
2. 費力學習
3. 看不出(立即)效果
4. 花錢
5. 健保沒要求[這卻是美國復健領域大量使用 Functional Independence Measure 的原因之一]

我想 3 【看不出(立即)效果】應是最主要的原因。
臨床人員需要評估的範疇主要有三:療效指標(直接與間接療效指標//主觀與客觀療效指標)、影響療效因素(如認知功能、環境因素等)與中介變項(個案的病識感/健康識能等)至少20項!!

舉「療效指標」為例,宜包含下列範疇/評估工具:
Motor: Fugl–Meyer motor assessment/STREAM
Balance: PASS
Mobility: Rivermead Mobility Index/STREAM - mobility subscale
Gait: Functional Ambulation Category/Six Minutes Walk Test
Disability: Barthel Index/Lawton IADL Score
Global outcome: Modified Rankin Scale
QOL: EuroQol/Stroke Impact Scale/Stroke-Specific QOL

故目前臨床 至少 欠缺1打(>12)良好評估工具!

所以目前我們能夠「改良現有評估工具」或是「增加良好的新評估工具」都是杯水車薪,【看不出(立即)效果】。

1個好的評估工具,就我所知,至少需要3~5年的發展與驗證。。。且要運氣好,才能達標。我發展過/驗證過很多評估工具,至少一半(甚至2/3)都達不到臨床要求的標準(這很正常喔,如醫療檢查儀器(藥物)的發展,大多失敗)。

而且評估工具的發展/驗證,一直不是復健研究的主流/顯學,投入者有限。。。何況很多評估工具都有文化特殊性(如認知功能、環境等)必須國人自行發展/驗證!

所以要補足臨床評估工具的不足或改良評估工具,直到臨床人員可用或備齊上述三大範疇的評估工具。我若有 insight.... 我退休之前一定看不到的!!

短期之內此議題無解,因為迄今我們缺太多評估工具。即使臨床人員想用(好的/完整的)評估工具,也找不到!!

Note: 隔了至少一年多,再繼續寫此一回合。。。June 2, 2018.


第 十三 回   回首來時路

成果:評估工具、論文(含被引用數)、升等、茁壯團隊皆有一定成績!
最大的成就來自:2016 年 Guidelines for Adult Stroke Rehabilitation and Recovery: A Guideline for Healthcare Professionals From the American Heart Association/American Stroke Association. 引用本團隊論文高達7篇,為國內團隊之最。

曾經的困惑:
1. 持續發展評估工具?何時進入療效驗證或理論建構與驗證
2. 持續發展電腦適性測驗?還是改良現有工具?
3. 復能模式或維能模式?
4. 如何跟臨床人員合作?

1. 如十二回所言,還差很多!目前投入療效驗證,將難有斬獲。如認知評估工具還差很多,沒有良好且多元的認知評估工具,無法掌握個案的特定認知功能不足,將難以對症下藥(設計個別化認知復健模式)。認知評估工具的發展,少說十年。我們的研究人才/資源不足,急了,就自亂陣腳!

2. 已自行發展 ADL與balance 電腦適性測驗,但自己叫好,卻不叫座!但將 Fugl-Meyer motor assessment 改良成電腦適性測驗,卻獲得國際上諸多來函詢問。或許後者(改良現有工具,國內外使用者皆較熟悉)較為實際可行。這也是我們最近發展多項類似CAT之緣由,如小兒 Gross Motor CATFine Motor CAT

3. 「復能」是國內目前很夯的概念,但國人對於「復能模式」之論述,卻很欠缺。復能模式,如同十二回提到的「影響變項」與「中介變項」一大堆,絕對比「神經復健」bio-medical model 複雜許多。若未有良好的「復能模式」論述,當成理論架構,再加以驗證與修改。「復能」將只是欠缺實證/華而不實的口號。以我們熟悉的 MOHO為例,Dr. Kielhofner 於 1980 年提出,30幾年過去了,理論多所修改,但實證仍相當有限。其主要瓶頸仍在於「模式複雜」「工具不足」,難以驗證/修改。我何時可以提出「復能模式」或「維能模式」?

4. 臨床人員可以協助很多/大:驗證/發展/測試工具、改良(電子)病歷等!然而,迄今成效/成果相當有限。難度過高(成就感有限)、時間有限、獎勵不足皆是主因。國外亦然,臨床人員難以持續投入研究。隨緣吧!

June 3, 2018 初稿


第 十四 回   後續發展:引進AI技術進一步提升評估、決策

      評估的基本目的是取得正確/精準的數據,數據只要持續累積(如臨床的例行評估與病歷紀錄,或是累積研究之數據 [如中風之研究資料庫 VISTA])即能成為大數據! 有大數據即能採礦(data mining),但此礦山需有廣博/長期收集/累積的資料,其它就是採礦技術 + AI 的舞台了!!

     後續我將引進AI技術藉以提升評估效能,如以「攝影+AI」將中風病人之動作/平衡與行走功能等,一併/一起評估。病人於錄影室,執行5~10項標準化動作,應即可完成動作/平衡與行走功能評估,且快速精準!這是 AI 可能的初步應用,如此的應用應比 CAT 更有效能。

     AI 的功能還可提供輔助決策之訊息,如整合分析初評與再評之資料,做出預後預測,以協助調整治療目標。AI 甚至可媒合實證資料庫,輔之以共享決策,做出最佳決策與治療計畫。

    但要用到AI,需有基礎,含評估(心理計量)概念、驗證/發展評估工具之經驗/成果、中階統計(含程式寫作)等,詳下回論述。

廣告一下(我是該期刊的編輯委員之一):
Call for Papers (2018):
OTJR: Occupation, Participation and Health
Special Issue on Artificial Intelligence, Robotics, and Automation

2019年刊登後,實質AI內容/篇幅幾乎沒有,就不贅言了。這原因很簡單,2018或之前,沒有OT學者投入AI研究。



第十五回   給對評估有興趣之新手:一切從基礎開始

1. 徹底瞭解評估之於臨床/研究的關鍵性
2. 瞭解評估誤差與如何降低誤差(+基本統計)
3. 熟悉心理計量特性與評估目的之關連(評估工具若欲達成特定評估目的需具備哪些心理計量特性)
4. 歷練數回合傳統評估工具之驗證與發展
5. 先撰寫中文論文1~3篇(心理計量特性驗證),再撰寫英文論文

1, 2 & 3,請參考前幾回 stories 與「測量誤差與資料解釋」。初步概念瞭解較快,若欲深刻體會/徹底瞭解,至少需要半年至一年,甚至完成4之歷練。我另提供一些基礎心理計量概念介紹與驗證文獻,對評估有興趣之新手請熟讀之,若有疑惑務必找我釐清。
4 & 5,除了概念瞭解還需實做(含撰寫研究計畫與發表論文),這至少需要2~3年好好投入。

完成 4 & 5之後,才可能進階!始較可能進入 CAT (電腦適性測驗)or AI,以更加提升評估與應用效能!

然而 CAT 之基礎在於 項目測驗理論(IRT, 進階課程),學習含實務歷練,至少需要2年!或許未來的學生可略過 IRT & CAT,直攻 AI。這需哪些基礎能力,之後論述。

傳統心理計量特性驗證之英文論文

進階者-可參考: Rasch 應用英文文獻

June 9, 2018
第十六回   最壞打算:發展新工具可能失敗

發展新工具價值高,但容易失敗。
經驗再多,也會失敗!我近幾年發展幾項工具,大多滑鐵盧。但想想  如藥物發展,9成以上都失敗!我就釋懷了。

歷年來,我有很多發展失敗的工具,最後的命運不是垃圾桶就是(收到抽屜)不見天日。

碩博士論文所發展的工具,若失敗了,可以畢業,但難以發表於期刊(因為失敗的原因很多,不易確定,所以缺乏價值)。
這不像療效驗證,即使無顯著療效,還是有發表價值(因為可以告知相關人員,這樣的治療,其成效有限。此結果亦可納入後續 meta-analysis 分析。因此仍有價值)!!

失敗了,就好好思考,有無改善/突破的機會!? 若有,可繼續努力,重新再來!!若無,或難度高,只能放棄!

事實上,我們很不容易「一次就」發展出「很好」的工具,通常需要持續改良!如魏氏智力測驗,已第4版!發展不易,改良也很難!! 但不再改良,就不會進步!!可能等著被超越/淘汰。

Note: 博士生需要研究成果(論文),以培養能力,並呈現競爭力。故除了發展「可能不會成功」測驗,還需參與其它研究主題/撰寫論文,以增加訓練機會並增加成果(論文)。

July 16, 2018

第17回  發展短版評估工具之新方法

我使用過的方法,包含傳統心理計量(挑出心理計量特性較好項目)、Rasch model (挑出難度分布適宜之項目)、多向度 Rasch model (利用向度間關連以增加測量訊息/精準度)、電腦適性測驗等。
應已發表接近20篇論文,且多是不錯的期刊!

團隊最新的技術是使用AI,以machine learning幫忙選題,以原始工具之總分為學習標的,找出最精簡可精準預測原始工具總分之項目。多向度工具 或 多工具組合 之 AI簡化效能更佳。

目前使用於 health-related quality of life 工具,可簡化成 僅需1/3項目,但可獲得很接近原測驗之多向度分數。也使用於多工具組合之簡化,亦可只用30%的項目即已足夠!!

AI 短版的特色是能獲取原工具之分數,且較精準(傳統短版因為項目少,一定較粗略),亦可跟原工具交替使用/轉換(Rasch logit 以及CAT分數都是標準分數,無法跟原始分數交替使用),一般使用者較易使用/解釋。

開始努力寫AI論文啊!!

April 18, 2020

第18回 發展臨床技能評估工具

這約從2018年開始投入,至寫此 blog 已2年多。
遠因之一是為何臨床人員對於好的工具(尤其是我發展)不買單??
遠因之二是臨床技能易達瓶頸,我講了很久,如何突破?我能幫得上忙嗎?
遠因之三是我既然專長於【評估工具之發展與驗證】,那臨床技能評估我應該做得到
近因之一是有了AI技術,臨床技能評估的難題(費時費力),應有機會突破
近因之二是我有些研究資源可以彙整投入之,且科技部人文司易鼓勵之(第2件計畫無須排名於12%之內),才有可能投入這燒錢/費人力的研究
近因之三【共享決策/目標設定】研究計畫窒礙難行,主因是難度過高且基礎不足

目前已初步完成【溝通技巧架構與評估工具初步測試】稿件,應可於4月投稿。發展架構有助於教學與工具發展。目前架購與工具之驗證,採用實習學生之臨床錄音或OSCE錄音+逐字稿分析與回饋,多人投入(包含數位老師/研究生/助理/臨床專家),總算有些成果,受試學生之回饋亦佳。
後續將有【同理心架構與評估工具測試】、【主訴語病史訪談架構與評估工具測試】、【臨床評估與結果說明架構與評估工具測試】後續是衛教、目標設定與檢討、計畫設定與檢討等臨床技能評估與教學等。加上AI,這應是20年計畫。

臨床技能評估之難題與突破

同理心評估工具之發展困境與突破




March 1, 2021 初稿


第19回 發展臨床技能評估工具 vs measurement model

2022年4月份準備「醫療社會學」課程時,我回顧到reflective (反映性)measurement model vs formative (形成性)measurement model 時看到:有些概念,如「治療滿意度」可依據不同model 「同時」設計之(詳有獎徵答--- reflective measurement model vs formative measurement model
這才讓我驚覺當初設計「溝通技巧評估工具」時,並未好好依據測量模式而發展!!

簡言之:依據反映性測量模式設計之評估工具,其項目為果(effect),故可視為目標或階層(或里程碑),可協助個案確認達成程度/復原程度。但其項目(評估結果/分數)必須具備階層性與連續性(如0~100,且中間少斷層),故此類工具可成為好的療效/成效評估工具!!

符合形成性測量模式的項目為因(cause),故可協助掌握原因/瞭解機制,若因可被介入,那就可以「治本」。

目前的「溝通技巧評估工具」之項目偏向「因」,意即偏向形成性測量模式,可協助看到受試者做好/不好的「因」,但非「果」,故可能是好的「介入」/「教學」評估工具(可協助發現受試者的問題),但這樣的工具項目,將欠缺階層性與連續性,不會是的良好療效指標!!

後續宜好好依據反映性測量模式,以「設計」與「驗證」臨床技能之成效評估工具!!

Note: 上述反映性評估工具之「里程碑」vs 目前醫學教育評估的主流 milestome & EPA (entrusted professional activities),似有相似之處,如何融合/驗證,我再好好考量!!

April 16, 2022 初稿

第20回 評估工具驗證與發展(心理計量)非顯學,為何可以走這麼長遠?

  • 這是基礎!!評估工具/心理計量是各學科的基礎,也是臨床各種任務的基礎。上述基礎欠佳,如國內OT,則需多年/多人打根基,否則難以突破!!
  • 具備廣度與深度,故可長期探究甚至成為獨特專長。以工具言,OT缺太多好工具了(從臨床到教學)!!以心理計量言,有很多題材(信度、效度、反應性)+ IRT/CAT + AI。所以工具*心理計量=諸多研究議題與成果(價值)!
  • 諸多成果回饋,包含發表諸多著名期刊論文、高引用次數以及升等。
  • 團隊支援,包含學生/助理,還有各領域的合作者! 一起努力、相互拉拔/一起提升!
  • 良性循環,具備上述條件後自然形成良性循環機制,持續向上提升!!
Top .05% in the field of Psychometrics (45 articles during 2012~2022)




Sep 17, 2022 初稿










2 則留言:

  1. 期待,欲知老師當時之心路歷程及想法~

    回覆刪除
  2. 關於第七章~
    我希望更深入了解老師當時是如何判斷、挑選model paper呢?
    特別是面對較新的概念(如最早如何接觸IRT或CAT的設計)
    因面對不熟悉的概念,我自覺不易理解重要性,但又所知有限,也無法花費大量時間把所有東西都弄懂。如何從中挑選出有意義的內容而深入之,希望可聽老師當時的作法~ 謝謝

    回覆刪除