2026年6月11日 星期四

How To Become Dangerously Self-Educated

 根據來源影片《如何進行極具破壞力的自我教育》(How To Become Dangerously Self-Educated),作者打破了傳統的閱讀迷思,並提出一套明確的「ACTOR 框架」,教導我們如何將 AI 當作「強大副手」而非「偷懶捷徑」,藉此將閱讀轉化為真正的競爭力。

以下為您彙整出具體、可行的行動重點:

一、 必須先破除的「學習迷思與陷阱」

  1. 不要依賴「AI 總結」作為捷徑: 如果 AI 幫你把書總結好了,你覺得自己讀過了,這就像別人幫你做了伏地挺身,但你自己的肌肉並不會成長。你必須親自與核心觀念「搏鬥」才能真正吸收。
  2. 小心「流暢度錯覺(Illusion of fluency)」: 當書本把一件事解釋得很清楚時,大腦會欺騙你「你已經懂了」。但如果你無法一步步向別人解釋,你的理解就會瞬間崩塌。
  3. 避開三大閱讀陷阱: 包含「螢光筆陷阱」(誤把畫線當作記住了)、「筆記陷阱」(寫了完美的筆記卻再也沒看過),以及「完讀陷阱」(書看完了,但內在毫無改變)。

二、 核心實務:ACTOR 閱讀框架與 AI 的明確用法

想要真正改變思維,必須將閱讀從「被動消費」轉為「主動建構」。請依照以下五個步驟(ACTOR)執行,並搭配對應的 AI 指令:

1. A - Aim (帶著目標閱讀):不要當觀光客,要當間諜

  • 具體行動: 閱讀前,必須寫下一句任務宣言(例如:「我讀這本書是因為我需要解決...」)。帶著明確的問題去書中「狩獵」,你的目標會決定書中哪些內容才重要。
  • 💡 AI 運用(作為框架設計師): 請 AI 幫你聚焦。你可以問 AI:「我準備讀這本書,請給我三個我應該帶著去閱讀的問題。」或是「我正在處理團隊功能失調的問題,哪本書最適合?我該帶著什麼問題去讀?

2. C - Compress (壓縮與尋找主幹):不要只撿樹葉,要找樹幹

  • 具體行動: 很多人讀書只會收集金句(樹葉),卻忽略了承載整本書的「核心主幹」。讀完後,請用一段簡短的文字寫下整本書最關鍵的承重觀念。
  • 💡 AI 運用(作為詮釋者): 驗證你的理解。向 AI 輸入:「我認為這本書的核心觀念是 X。請檢查我的詮釋,我漏掉了什麼?我哪裡誤解或過度解讀了?

3. T - Test (測試與反證):不要為了尋求認同而讀

  • 具體行動: 人們習慣對自己認同的觀念畫線,並排斥不順眼的論點。真正的學習發生在「遇到不同意的觀點時」。試著問自己:這個觀念為什麼讓我感到不舒服?我在保護什麼舊有信仰?
  • 💡 AI 運用(作為陪練對手): 讓 AI 挑戰你。向 AI 輸入:「挑戰我的詮釋!找出我隱藏的假設,給我你最好的反面論點,並描述一個這個建議會徹底失敗的情境。

4. O - Own (內化與擁有):不只重讀,要重述

  • 具體行動: 買下書不代表擁有知識。你必須移開視線,試著用自己的話重新講述一遍,或者將書本內容與你真實生活中的某個會議、某個錯誤連結起來。最簡單的測試標準是:「如果你無法教給別人,你就還沒擁有它」。
  • 💡 AI 運用(作為教練): 演練輸出。你可以「把觀念教給 AI 聽」,然後問它:「我這樣解釋有抓到重點嗎?或是請 AI:「幫我用白話文解釋這個概念,並把它連結到一個具體的商業案例上。

5. R - Run (實踐與行動):將文字轉化為行動

  • 具體行動: 思想必須轉化為現實世界的行動才有意義(就像 MIT 的校訓「動腦也動手」)。一本關於溝通的書應該改變你下一次的對話方式;一本領導力的書應該改變你帶領團隊的方法。
  • 💡 AI 運用(作為行動夥伴): 幫助落地。向 AI 輸入:「請將這個觀念,轉化為我明天可以執行的一個決定、一條規則、一份檢查清單或一個實驗。或是自己可以講得出來如何應用,再請AI給予評論!

三、 未來競爭力的底層邏輯

在 AI 時代,所有人都能輕易取得一模一樣的書本摘要、完美的筆記與重點整理。因此,「獲取資訊的能力」已經不再是你的護城河。

真正的優勢在於你身為人類所帶入的元素:你的判斷力、你的品味,以及你獨一無二的觀點。透過上述深度的閱讀系統,你能夠更好地解讀人性、解讀會議室裡的空氣(Read the room),這也是為什麼「頂尖的領導者,必定是深度的閱讀者」。

2026年6月10日 星期三

AI 如何徹底改變未來的科學發展

 這場在 2026 年倫敦舉辦的「諾貝爾獎對話 (Nobel Prize Dialogue)」論壇,匯集了 Google DeepMind 執行長 Demis Hassabis、諾貝爾生理學或醫學獎得主 Paul Nurse 以及生物醫學工程專家 Alison Noble。針對 AI 如何徹底改變未來的科學發展,以下為您彙整出明確的核心重點與深刻啟發:


一、 進入「數位化速度 (Digital Speed)」的科學大突破

Hassabis 指出,AI 已經讓科學研究進入了「數位化速度」。以 AlphaFold 為例,它帶來的改變不僅是能**在幾秒內精準預測蛋白質結構**;更重要的是,它讓科學發現的**「普及速度」呈現指數級成長**。過去一項新技術可能需要 10 年才能普及到各個實驗室,但 AlphaFold 開源後,短短幾個月內便惠及全球 190 個國家、超過 300 萬名研究人員。Hassabis 認為我們正處於「技術奇點的初階 (foothills of the singularity)」,代理式 AI (Agentic AI) 的崛起將開始全自動化地推動科學發現


二、 重塑科學家的日常:把時間還給「創造力」與「好問題」

1. **擺脫枯燥的實驗室勞動:** 傳統實驗室中,科學家花費大量時間在極度枯燥的任務上(例如在試管間滴管轉移液體)。未來 AI 與機器人將完全接手這些繁瑣流程,釋放科學家的時間,讓他們專注於真正激發心智的「創意發想」與「設定假設」

2. **提出「好問題」將成為最稀缺的能力:** AI 目前尚無法獨立提出極具洞察力的科學問題。未來的科學家不需要親自寫程式碼或進行基礎影像分析,核心價值將轉移到**「如何精準地向 AI 提出對的問題」**,以及確保研究方向具備實質意義

3. **「一人超級實驗室」的誕生:** 未來的單一博士生只要善用 AI 工具,其產能與分析能力將足以匹敵過去的一整個實驗室團隊。只要有網路,無論身在何處的聰明才智,都能立刻接觸到世界最頂尖的 AI 工具並做出貢獻,打破了過去只能仰賴少數頂尖研究中心的地理限制。


三、 挑戰終極無解難題:新藥開發與「虛擬細胞」

AI 特別擅長解決具備**「海量組合空間(如宇宙原子般龐大)、明確目標函數,且有大量數據或模擬器」**的難題(例如圍棋或蛋白質摺疊)。

*   **重塑新藥開發:** 在新藥探索上,AI 能在 $10^{50}$ 種化學化合物中進行精準的條件搜尋,極大地加速找出符合疾病特徵解方的過程。

*   **打造「虛擬細胞 (Virtual Cell)」:** 科學家正試圖用電腦模擬完整的細胞運作。Paul Nurse 指出,過去用死板的「微分方程式」來模擬生命注定失敗,因為生物細胞的運作並非精密無誤,而是充滿了「彈性、鬆散與容錯率 (floppy or sloppy)」,以避免系統卡死。**AI 被認為是目前唯一能理解並模擬這類高度複雜、非線性、湧現性生物動態系統的「完美語言」**。


四、 避開盲點:對「唯數據論」與「黑盒子」的警惕

1. **不要為了收集數據而收集數據:** 專家警告,目前的科學界有一種危險的誘惑,即沉迷於用昂貴的新技術去收集海量數據,卻不去思考這些數據對「理解事物功能」有何意義。科學的最終目的是「理解」,而非盲目的數據堆砌。

2. **學術界應停止跟巨頭拚算力,轉向「黑盒子測試」:** 大學與學術機構不應該盲目砸錢建立超級運算中心來跟科技巨頭競爭開發大型模型。相反地,學術界應該**專注於對 AI「黑盒子」進行逆向工程、壓力測試、尋找邊界與基準測試**;並且善用能在筆電上運行的輕量化開源模型(如 Gemma 等),結合自身的跨領域專業來做真正創新的應用。


五、 未來挑戰與新哲學的需求

隨著通用人工智慧 (AGI) 在未來幾年內可能成真,人類將面臨壞演員濫用、AI 安全對齊 (Alignment problem,即如何防止超級 AI 失控) 以及經濟利益分配等嚴峻考驗。Hassabis 強調,**現在是「哲學家」最好的時代**,我們迫切需要建立全新的科學哲學與倫理學,來應對這些關乎人類意義與目標的終極挑戰。


**總結來說:** 未來的 10 到 20 年將迎來科學發現的「新文藝復興」與「黃金時代」。雖然 AI 將徹底顛覆科學研究的工具與模式,但人類探索科學的根本驅動力——對未知宇宙的強烈好奇心與渴望理解現實的本質——將永遠無法被取代。

2026年6月9日 星期二

如何問AI問題:初學者與老師可以怎麼做

1. 學生須將模糊的疑問變成可探索的問題

模糊疑問 → 找出不懂的部分 → 縮小範圍 → 變成具體問題 → 根據回答繼續追問。

例如:「我不懂這篇論文」

→ 我是研究背景不懂?方法不懂?結果不懂?

→ 我主要不懂「後設認知」

→ 「後設認知在這篇論文中如何影響好奇心?」

→ AI 回答後再追問:「可以舉一個課堂例子嗎?」

以上就是從模糊疑問變成可探索問題的過程。

2. 訓練學生的後設認知,而不是只訓練 AI 的回答方式。

學生需要學會問自己:「我現在真的懂了嗎?」「我懂的是表面答案,還是背後原因?」「我還有哪些不確定?」「AI 的回答有沒有可能錯?」;也就是學生要能偵測知識缺口、判斷自己是否接近理解、選擇下一步學習策略

若學生缺乏這些能力,即使 AI 提供提示,他也可能只是被動接受。

3.教師要示範「如何好奇」與「如何面對不知道」。

教師不只是告訴學生要提問,而是要示範如何從一個答案延伸出更深的問題。例如教師可以公開示範:「這個 AI 回答看起來合理,但我想知道它的證據是什麼」「這裡我還不確定,所以我要換一種問法」「這個答案可能太籠統,我們可以追問例外情況」。這會讓學生看到,學習不是快速得到答案,而是持續校準理解

4. 教師將學習任務設計成「必須探究」而不是「只需提交答案」。

若作業只問定義、摘要、單一正確答案,學生自然容易用 AI 直接生成。但若任務要求學生比較多種解釋、提出自己的疑問、記錄追問歷程、說明自己如何判斷 AI 回答可信度,學生就必須投入思考。也就是說,任務本身要讓「提問、修正、驗證、反思」成為學習成果的一部分

5. 評量方式要從評答案,轉向評探究歷程。

可以評量學生是否能提出好問題、是否能辨識自己不懂的地方、是否能根據 AI 回答提出追問、是否能檢查 AI 的錯誤或限制、是否能把 AI 資訊轉化為自己的理解。這樣學生才會知道,教育重視的不是「你拿到答案了嗎」,而是「你如何走到這個理解」。

6. 教師要讓學生學會管理認知負荷,而不是把所有困難都丟給 AI。

LLM 可能降低學生必要的認知投入,使學生覺得比較輕鬆,但理解深度反而下降。因此學生需要知道:有些事情可以交給 AI 減少不必要負擔,例如整理格式、產生練習題、提供初步例子;但有些事情不能完全外包,例如判斷概念關係、形成自己的解釋、評估證據、做結論


以下是學生還可以做的:

任務內容:說明學生可以如何把「模糊疑問」變成「可探索的問題」,並用 AI 支持自己的探究歷程。

學生可以用一個很簡單的流程:

先說不懂 → 找出哪裡不懂 → 縮小問題 → 問 AI → 檢查回答 → 再追問。

1. 先把「我不懂」說出來

一開始不用急著問得很精準,可以先承認自己模糊的困惑。

例如:

「我不懂後設認知。」

「我不懂這篇文章為什麼說 AI 會影響好奇心。」

「我不懂為什麼不能直接用 AI 找答案。」

這一步的重點是:**先抓到自己卡住的地方。**

好奇心和學習的起點常常是學習者能偵測自己的知識缺口,也就是知道「我哪裡還不懂」。

2. 問自己:「我到底是哪一種不懂?」

學生可以把「不懂」分成幾種類型:

**名詞不懂:**「後設認知是什麼意思?」

**關係不懂:**「後設認知和好奇心有什麼關係?」

**原因不懂:**「為什麼 AI 太快給答案,反而可能降低學習?」

**應用不懂:**「老師在課堂上可以怎麼培養學生的好奇心?」

**判斷不懂:**「我怎麼知道 AI 的回答是不是可靠?」

這樣做的目的,是把「一整團不懂」切成比較小、比較可以處理的部分。

 3. 把模糊問題改成具體問題

例如原本是:

「我不懂 AI 跟學習。」

可以改成:

「AI 在學生學習時,哪些情況是幫助理解,哪些情況可能讓學生只是抄答案?」

「學生使用 AI 時,怎麼判斷自己是真的懂了,還是只是看過答案?」

「AI 可以怎麼幫助學生提出更好的問題?」

這些問題比較好,因為它們可以繼續查資料、討論、比較,也可以請 AI 給例子。

4. 問 AI 時,不要只說「幫我解釋」

學生可以用這種問法:

「我目前理解的是___,但我不懂___,請用例子說明。」

「請先不要直接給答案,請用三個提示引導我思考。」

「請問我這個理解哪裡可能有錯?」

「請幫我把這個問題拆成三個可以探究的小問題。」

「請給我一個生活例子,再給我一個課堂學習的例子。」

例如:「我目前理解後設認知是『知道自己懂不懂』,但我不懂它怎麼影響好奇心。請用學生上課的例子說明。」

這樣問,學生就不是把思考全部丟給 AI,而是在用 AI 幫自己整理和深化理解。

5. 看完 AI 回答後,要做「理解檢查」

學生可以問自己三個問題:

「我能不能不用看 AI,用自己的話講一次?」

「我能不能舉一個新的例子?」

「我還有哪一句看起來懂,其實說不清楚?」

例如 AI 解釋完「後設認知」後,學生可以試著說:

「後設認知就是我在學習時,能觀察自己是不是懂、哪裡不懂,然後調整下一步怎麼學。」

如果說不出來,就代表還需要再追問。

6. 追問,不要停在第一個答案

學生可以接著問:

「這個例子可以再簡單一點嗎?」

「請比較『好奇心』和『興趣』的差別。」

「請問這個概念在這篇論文中扮演什麼角色?」

「如果學生只是用 AI 找答案,會少掉哪一個學習步驟?」

「請出一題小測驗確認我有沒有懂。」

這就是把 AI 當成探究夥伴,而不是答案販賣機。

7. 最後整理成自己的理解

學生可以用這個句型收尾:

「我原本以為___,後來我發現___,現在我還想知道___。」

例如:

「我原本以為好奇心只是想知道答案,後來我發現好奇心還需要後設認知,因為學生要先發現自己哪裡不懂,才會想繼續探索。現在我還想知道老師可以怎麼設計活動來培養這種能力。」

這樣學生就完成了一次真正的探究歷程。

簡單說,學生可以做的不是「問 AI 答案是什麼」,而是練習:

**我哪裡不懂?我可以怎麼問?AI 的回答我真的懂嗎?我還能追問什麼?**

這才是 AI 時代更重要的學習能力。

2026年6月6日 星期六

評分與排序--以同理心評分言

絕對分數(評分所得)可用以描述同理心的水準,排序用來描述受試者於同批中的相對位置。

因為同理心分數通常較粗(不易評分),排序可以補充分辨力;但排序必須搭配排名信心、差距說明與同層級分組,才不會把微小差異誤解成穩定差異。

但只要「單向度/項目」設計好(符合階層難度差異),應可暨評分又排序。

AI agent 或可同時達成!!


-----------------------------------------

以下以「單向度的同理心」作為例子,彙整「評分」與「排序」之概念與用途。

**核心概念**

若將同理心視為一個單向度構念,意思是我們暫時把同理心看成一條由低到高的連續向度。受評者的表現可以被放在這條向度上,例如從「較少辨識他人感受」到「能深入理解他人處境並做出貼合回應」。

但同理心本身不容易被切得很細,因此絕對分數通常比較適合做粗略分級;排序則可補充同分者之間的相對區隔。

**1. 絕對分數評分**

絕對分數回答的是: 這個人的同理心表現本身達到什麼水準?

例如使用 1-5 分:

分數意義
1幾乎未辨識他人情緒或需求
2有注意到情緒,但回應表淺
3能基本理解對方感受並做出適當回應
4能準確辨識情緒、處境與需求
5能深入理解對方觀點,並給出高度貼合的回應


這種分數的優點是容易解釋,也適合判斷是否達標。  

限制是分數通常較粗,很多人可能集中在 3 或 4 分,不適合過度解讀細微差異。


**2. 排序概念**


排序回答的是:在這一批受評者中,誰的同理心相對較高?


排序可以補足絕對分數的不足。例如 A、B、C 都是 4 分,但仍可透過 AI 或評分者進行兩兩比較,判斷誰的表現相對更完整。


不過排序要謹慎解讀。第 1 名不一定代表同理心非常高,只代表在這一批裡相對最高。第 3 名也不一定明顯低於第 2 名,尤其當兩者分數或表現證據很接近時。


因此排序最好搭配:

- 排名

- 排名信心

- 分數差距

- 同層級分組

- 差異說明


**3. 後續應用**

絕對分數適合用於:

- 判斷是否達到基本標準

- 教學、訓練或回饋

- 前後測比較

- 個人能力診斷

- 決定是否需要補強訓練


排序適合用於:

- 選拔或名額有限的決策

- 同批受評者比較

- 找出示範案例

- 分組,例如高、中、低同理心組

- 資源配置,例如優先輔導低排序者


兩者合併時,可以避免誤判。例如某人同理心 4/5,但排名第 15/20,這不代表他差,而是代表同批整體可能很強。


**4. 完整分數呈現**

一份完整的同理心評量結果可以包含:


項目說明
絕對分數例如 4/5
等級描述例如良好、達標、需加強
排名例如第 6/30 名
百分位例如高於同批 80% 受評者
排名信心高、中、低
分數差距與平均值、標準、前後名的差距
同層級分組例如高同理心組、中等組
文字證據說明為何如此評分或排序
不確定性說明說明哪些名次不宜過度解讀

例如:


> 同理心分數為 4/5,屬於良好表現。排序為第 6/30 名,約位於第 83 百分位。排名信心中高。雖然排名第 6,但第 4 至第 8 名差距很小,建議視為同一層級。其主要優勢是能辨識對方情緒並給予支持性回應,但在深入理解對方需求方面仍可加強。


**5. 資料分析方式**


若要分析同理心評分與排序,可以從幾個面向進行。


首先,看絕對分數分布:

- 平均數

- 中位數

- 標準差

- 各分數人數比例

- 是否集中在 3 或 4 分


其次,看排序穩定性:

- 多次 AI 排序後,名次是否穩定

- 每個人的排名範圍

- 中位排名

- 排名變動幅度


第三,看兩兩比較勝率:

- A 是否穩定勝過 B

- 勝率是否高於 80%

- 是否有大量接近 50% 的比較,代表難以區分


第四,看一致性:

- 不同評分者是否給出相近排序

- 人工排序與 AI 排序是否一致

- 可使用 Spearman 相關、Kendall’s tau 或評分者一致率


第五,看效度證據:

- 高同理心排序者是否也有較好的外部表現

- 是否與專家判斷一致

- 是否能預測後續學習、溝通或臨床表現


總結來說:


> 絕對分數用來描述同理心的水準,排序用來描述同批中的相對位置。  

> 因為同理心分數通常較粗,排序可以補充分辨力;但排序必須搭配排名信心、差距說明與同層級分組,才不會把微小差異誤解成穩定差異。


2026年6月1日 星期一

以 NURSE 同理回應的內容藍圖,設計能共同反映同一個潛在能力的評量項目(符合 reflective model)

**發展目標**

本評量工具擬以 NURSE 架構作為內容基礎,發展並驗證一個用以評量專業人員「同理回應能力」的單向度工具。此工具的核心構念不是分別測量 Naming、Understanding、Respecting、Supporting、Exploring 五個獨立能力,而是將 NURSE 視為同理回應的內容藍圖,用來設計能共同反映同一個潛在能力的評量項目。

本工具所欲測量的潛在構念可定義為: 專業人員在覺察他人情緒線索後,能以適切、真誠、促進理解與支持的方式回應對方情緒的能力。

在 reflective measurement model 下,受評者的「同理回應能力」被視為潛在特質,而各評量項目是此潛在特質的外顯反映。因此,能力較高者理論上應較容易在多數題目中表現良好;能力較低者則較可能在多數題目中表現不足。


**理論架構**

NURSE 包含五類同理回應策略:

- **Naming**:辨認並說出對方的情緒。

- **Understanding**:表達理解,使對方感到其情緒是可以被理解的。

- **Respecting**:尊重或肯定對方的努力、價值或處境。

- **Supporting**:表達陪伴、支持與共同面對。

- **Exploring**:邀請對方進一步說明其感受、擔憂或需求。


然而,在本評量工具中,NURSE 不被設定為五個分量表,也不假設五個部分加總後形成同理心。相反地,NURSE 用於確保題目內容能涵蓋同理回應的主要表現型態,而所有項目皆應共同反映同一個潛在能力:同理回應能力。

**發展流程**

**一、構念界定**

首先需明確界定本工具測量的不是一般人格特質中的同理心,也不是態度、同情心或人際溫暖,而是專業情境中的「同理回應能力」。此能力強調受評者在面對他人情緒線索時,是否能透過語言或非語言方式做出適切回應。

因此,本工具的評量焦點應包括:

- 是否能察覺情緒線索

- 是否能回應情緒,而非只處理事實或任務

- 是否能使對方感到被理解

- 是否能提供適切支持

- 是否能促進對方進一步表達


**二、項目設計原則**

項目設計應避免直接寫成「是否會 Naming」或「是否會 Supporting」,因為這樣容易使工具變成五項技能的檢核表,較接近 formative model。

較適合的設計方式是以「同理回應能力的表現指標」撰寫項目。例如:

- 受評者能察覺對方明顯的情緒線索,並給予回應。

- 受評者能以適切語句指出對方可能的情緒。

- 受評者能將對方情緒與其處境連結起來。

- 受評者能在支持對方時避免過早安慰或空泛保證。

- 受評者能在高張力情境中仍維持同理回應。

這些項目雖可對應到 NURSE,但其共同目標都是反映同一個潛在能力。


**三、建議評量形式**

建議採用情境式表現評量,例如:

- 影片情境評分

- OSCE 或標準化病人情境

- 書面案例反應題

- 對話片段選擇題

- 開放式回應後由評分者依規準評分


若研究目的在於評量真實專業表現,影片、OSCE 或標準化病人情境會比自陳量表更適合,因為同理回應能力本質上是情境中的表現能力。


**四、可能項目設計**

可先設計一組由低難度到高難度的候選項目。以下項目皆應被視為同一個潛在能力的反映指標,而非五個分量表。

假設難度候選項目NURSE 內容來源
受評者能察覺對方明顯表達出的情緒線索,並做出回應,而不是直接轉入資訊說明或問題解決。Naming / Exploring
受評者能以簡短、自然的語句指出對方可能的情緒,例如擔心、害怕、挫折、失望或難過。Naming
低-中受評者在命名情緒時能使用試探性語氣,避免武斷判斷對方感受。Naming
受評者能把對方的情緒和其處境連結起來,表達「這樣感受是可以理解的」。Understanding
受評者的回應能讓對方感覺被理解,而不只是聽到制式安慰。Understanding
受評者能具體肯定對方已經付出的努力、承受的壓力或重視的價值。Respecting
受評者能避免空泛稱讚,而是針對對方的實際處境給予尊重與肯定。Respecting
中-高受評者能表達願意陪伴、協助或共同面對,而不讓對方覺得被單獨留下。Supporting
中-高受評者能提供支持,但不做不切實際的保證或過早安慰。Supporting
受評者能在初步同理後,邀請對方進一步說明其感受、擔心或需求。Exploring
受評者能回應複雜或混合情緒,例如同時有害怕、憤怒、失望與不確定。Naming / Understanding / Exploring
當對方以沉默、哭泣、迴避或非語言方式表達情緒時,受評者仍能辨識並適切回應。Naming / Understanding / Supporting
當對方表達憤怒或責備時,受評者能先回應其情緒與處境,而不是防衛或反駁。Understanding / Respecting / Exploring
受評者能在同理回應後保留停頓或空間,讓對方有機會繼續表達。Exploring
很高受評者能把同理回應與後續專業行動連接起來,使對方感到被理解且知道接下來可以如何一起面對。Supporting / Exploring
很高受評者能根據對方的語言、文化、角色與當下脆弱程度,調整同理回應的深度與方式。整合性 NURSE

**五、評分方式**

每個項目可採 0-4 分評分:

分數表現描述
0未回應情緒,忽略情緒線索,或直接轉入資訊說明、說服、問題解決。
1有形式上的情緒回應,但籠統、機械、不貼切,或未能真正承接對方情緒。
2能基本辨認並回應情緒,但回應較表淺或缺乏個別化。
3能具體且適切地回應對方情緒與處境,使對方感到被理解。
4能深入回應情緒,兼具理解、尊重、支持與進一步探索,並促進對方繼續表達。

若採用影片或 OSCE 評分,應建立評分者訓練手冊,並提供錨定範例,以提升評分一致性。


**六、內容效度檢驗**

初稿完成後,可邀請專家進行內容效度評估。專家可包括:

- 醫病溝通或臨床溝通教育專家

- 護理、醫學、心理或諮商領域教師

- 臨床實務工作者

- 測驗與量表發展專家


專家評估重點包括:

- 項目是否符合「同理回應能力」構念

- 項目是否能反映 NURSE 架構

- 項目是否過度偏向某一類 NURSE 技巧

- 項目是否適合專業人員情境

- 項目是否可觀察、可評分

- 項目難度是否有合理階層


可使用 CVI 或專家一致性指標篩選與修訂項目。


**七、預試與項目分析**

預試階段應蒐集受評者在多個情境或項目上的表現資料。若採表現評量,需同時檢查:

- 項目平均分數與分布

- 天花板效應與地板效應

- 項目與總分相關

- 評分者間一致性

- 項目是否能區辨不同能力程度的受評者


不適合的項目包括:

- 幾乎所有人都得高分或低分

- 與總分相關過低

- 評分者很難一致評分

- 內容太像人格態度而非實際回應能力

- 只反映特定情境知識,而非同理回應能力


**八、單向度與 reflective model 驗證**

正式施測後,需檢驗此工具是否支持單向度 reflective measurement model。

可採用以下方法:

- **探索性因素分析 EFA**:初步檢查是否主要呈現單一因素。

- **驗證性因素分析 CFA**:檢驗單因素模型配適度。

- **Rasch model 或 IRT**:檢查項目是否符合單一潛在能力模型,並估計項目難度。

- **Mokken scaling**:檢查項目是否形成單調遞增的階層量尺。

- **Many-facet Rasch model**:若涉及評分者,可同時估計受評者能力、項目難度與評分者嚴格度。


若資料顯示 NURSE 五類項目各自形成不同因素,則表示工具可能不是單向度 reflective scale,而可能較接近多向度模型或 formative 架構。此時應修訂構念定義或重新篩選項目。


**九、項目難度階層驗證**

本工具可預先假設以下難度階層:

察覺明顯情緒線索 → 命名情緒 → 理解情緒與處境 → 尊重與肯定 → 支持與陪伴 → 探索深層情緒 → 處理複雜、隱晦或高張力情緒

但此階層不能只依理論決定,必須由實證資料驗證。若 Rasch 或 IRT 分析顯示項目難度順序與理論不一致,應檢查是理論假設需調整,還是項目寫法、情境設計或評分標準造成偏差。


**十、信度與效度證據**

除單向度外,仍需建立多方面效度證據:

- **內部一致性**:例如 omega 或 alpha,但不應只依賴 alpha。

- **評分者信度**:若為表現評量,需檢查 ICC、weighted kappa 或 many-facet Rasch。

- **建構效度**:與既有同理心、醫病溝通、病人中心照護等工具有合理相關。

- **區辨效度**:與不相干構念,例如單純醫學知識測驗,相關不宜過高。

- **已知群體效度**:有溝通訓練者、資深臨床人員或高表現者應有較佳分數。

- **反應性**:若用於教育訓練,訓練前後分數應能反映能力改變。


**十一、建議結論表述**

較嚴謹的研究表述可寫成:

 本研究擬以 NURSE 同理溝通架構作為內容藍圖,發展一套評量專業人員同理回應能力的情境式評量工具。此工具不將 NURSE 視為五個獨立分量表,而是將各項目設計為同一潛在構念之反映指標,並透過因素分析、Rasch/IRT 模型與評分者信度分析,檢驗其是否符合單向度 reflective measurement model,以及項目是否呈現合理的難度階層。


簡言之,這個工具是可發展的,但核心設計原則是:**NURSE 是內容架構,不是五構面量表;真正被測量的是單一的同理回應能力。**

2026年5月30日 星期六

多模態教學評量 Agent 流程(評量講者/老師之表現)---半自動、研究助理型流程

**目前我使用的生成式 AI / Agent 技術**

1. **Codex Agent 作為總控代理**

   - 負責讀取資料夾、規劃流程、執行工具、整合逐字稿/PPT/PDF/影片證據。

   - 產出評分規準、評語、Word 報告、追蹤修訂。

2. **語音轉文字 ASR**

   - 使用本機 `faster-whisper small` 模型。

   - 將兩段 MP4 抽音訊後轉成逐字稿,保留時間碼。

   - 目前逐字稿可用於流程判讀,但英文專有名詞錯誤較多。

3. **影片與影像處理**

   - 使用 FFmpeg/FFprobe。

   - 抽取音訊、影片資訊、5 分鐘畫面接觸表。

   - 用來建立時間碼證據與課程進度判斷。

4. **文件與教材解析**

   - 解析 PPTX 投影片文字、字級、頁數。

   - 解析 PDF 講義文字與頁面內容。

   - 對照教師講解、投影片與講義。

5. **LLM 評分與回饋生成**

   - 依據評分量表與時間碼證據,生成:

     - 評分向度

     - 得分/扣分理由

     - 明確依據

     - 改善建議

     - 教師可理解的回饋語句

6. **Word 報告生成與追蹤修訂**

   - 使用 `python-docx` / OOXML 操作建立 Word。

   - 可做追蹤修訂,例如你後來要求只修改黃色標示的字詞。

**目前流程**

1. 資料盤點  

   讀取特定資料夾,確認影片、PPT、PDF。

2. 影片前處理  

   抽音訊、確認影片長度與解析度、每 5 分鐘抽畫面。

3. 逐字稿產生  

   用 ASR 產生時間碼逐字稿,輸出 `.md/.csv/.srt/.json`。

4. 教材分析  

   分析 PPTX 投影片與 PDF 講義,判斷主題流、可讀性、認知負荷。

5. 評分規準建立  

   先做自建授課評分,再讀取「知識講授評分量表」,重整成適合本課程的精簡與整合量表。

6. 評分與依據對應  

   用時間碼、教材證據、逐字稿摘要支撐各向度分數。

7. 回饋報告生成  

   產出多份 Word / Markdown:

   - 整合評量報告

   - 追蹤修訂版

   - 深入授課歷程評論與回饋報告

**目前限制**

- ASR 對英文專有名詞不穩,會影響細節判讀。

- 錄影主要是螢幕畫面,無法可靠評估教師眼神、姿態、學生反應、課堂互動。

- 目前評分仍由 Agent 綜合判斷,尚未做到多評分者一致性檢驗。

- Word 視覺渲染 QA 在本機 LibreOffice 多次卡住,所以只能做結構檢查,無法完整頁面圖檢查。

**改善建議**

1. **建立人工校正逐字稿流程**

   尤其校正英文術語、專有名詞。這會大幅提高評分可信度。

2. **建立「證據資料庫」**

   每個評分項目都固定連到:

   - 時間碼

   - 投影片頁碼

   - 逐字稿句子

   - 評分理由  

   這樣後續報告會更可追溯。


3. **分成多個專門 Skiils**

 

  1. ASR/逐字稿 Skill
    固定處理音訊抽取、轉錄、時間碼、低信心標記、專有名詞提醒。

  2. PPT/PDF 教材分析 Skill
    固定檢查教材結構、認知負荷、圖文清晰度、章節邏輯、take-home message。

  3. 影片時間軸 Skill
    固定產出每 5 或 10 分鐘段落摘要、教學活動、證據時間碼、可評論片段。

  4. 評分 Skill
    固定套用評分量表、權重、扣分依據、證據對應,避免評分漂移。

  5. 教師回饋語言改寫 Skill
    固定把批判性語句改成教師能理解、可接受、可執行的回饋語言。

  6.  PPT/講義修改建議生成







4. **加入第二評分者或重複評分**

   讓 Agent 先獨立評兩次,或用不同提示評分,再比較差異,提升一致性。


5. **建立教師友善版與研究版雙報告**

   - 教師版:少分數、多建議、語氣溫和。並且提供修改後講義/PPT,以供受評者參考。

   - 研究版:保留量表、分數、證據、限制。


6. **未來若可取得教室全景或學生聲音**

   就能補評目前無法評的項目:互動設計、回饋品質、學生理解檢核、學習氣氛。


整體來說,目前流程已經可作為「AI 輔助教學錄影評量」雛形;下一步若要研究化,重點是把逐字稿校正、證據對應、評分一致性做得更嚴謹。

2026年5月26日 星期二

AI agent協助臨床技能評估會議

 一、目的 

  • 討論以AI agent與「影音檔/逐字稿分析技術」應用於專業技能、教學或臨床互動影片評估之潛力與後續方向 

  • 清短期優先工作,包括評量表與回饋架構、測試場域、資料來源、影片與音訊品質,以及可操作工具 

 

二、主要討論事項 

  • 技術可行性:AI影片與影像分析技術仍會持續進步,成本亦有下降趨勢;短期關鍵不在技術本身,而在如何定義可評估的內容與回饋方式,以及我們的影片資源/應用情境何在 

  • 評量表與回饋架構:團隊核心競爭力在於評量表、判與可具體修正的回饋架構;評量表持續改良,並可依不同應用情境擴充細項 

  • 應用情境選擇:educational impacts以及影片資源為主要考量不宜侷限OT域,可延伸至臨床互動、專業人員與個案互動、心理師或醫師互動,以及教學場域;其中教學情境與學習者回饋被認為較具初期可行性 

  • 資料與驗證管道:目前仍需找到足夠影片資料、可測試對象與具影響力的場域;若單一管道不可行,可同步探索兩至三個管道BBN教學/影片為確認標的之 

  • 既有影片與品質控管:討論提OSCE考試相關影片、教學錄影檔,以及部分影片可能受使用限制;需確認影像解析度、錄音品質、攝影機配置與是否可改善設備(確保不受系統因素影響,且盡量避免隨機因素影響)。 

 

三、決議 

  • 短期優先事項為建立與修正評量表及回饋架構,而非等待影片分析技術完全成熟。先以BBN為主,思考其它資源。 

  • 應優先挑選具足夠資料、可驗證資源且具影響力的應用情境 

  • 需確認可用影片來源、使用限制、錄音品質、影像解析度與設備改善可能性 

  • 持續測AI agent關工具 (Codex, antigravity…) 

 

四、待辦事項 

項次 

待辦事項 

內容說明 

1 

確認可驗證之資料與場域 

盤點可用的教學、臨床互動、OSCE或其他專業技能影片來源,並評估資料量、可使用性與影響力 

2 

確認影片使用限制 

清國家考試、OSCE或既有教學錄影是否可供研究或測試使用 

3 

確認錄影與錄音品質 

確認攝影機配置、影像解析度、錄音清晰度與設備是否需改善;先排除系統性品質問題 

4 

修訂評量表與回饋架構 

聚焦評估項目、判、細項擴充與具體修正建議,建立可被AI agent套用的評量架構(尤其是BBN與溝通/同理相關之評量表) 

5 

測試AI工具流程 

持續使用antigravityCodex或相關AI agent工具進行流程測試與技術驗證