謝清麟教學/研究 blog: 「半自動」測試虛擬病人表現之構想

*可交由 ChatGPT 當成訪員測試之，再交由 ChatGPT 當評分員評分（評審虛擬病人之表現）!!

設計2個 My GPTs: 1. 測試訪員；2. 評審。

「測試訪員GPT」架構：依據訪綱（如FIFE）訪談虛擬病人。需準備以下資訊：

虛擬病人
訪綱

「評審GPT」架構：依據評分表評分虛擬病人之表現。

「測試訪員GPT」之訪談結果（問答）
評審虛擬病人表現評分表

可以再增加一個GPT，以評審「測試訪員GPT」之表現。

Note: 感謝士捷的經驗分享，之前他提過 ChatGPT 可同時扮演訪員與個案！！

ChatGPT Thinking 對上述構想的建議

Claude Opus 4.1 建議

Gemini Pro 2.5 的建議如下：

標題：利用 My GPTs 設計「虛擬病人表現自動測試流程」之完整構想與實施建議

這是一個非常棒且具創意的構想！利用客製化的 GPTs (My GPTs) 來建構一個自動化的「虛擬病人表現測試」流程是完全可行的，而且能夠將標準化病人的訓練與評核提升到一個新的層次。您的「訪員-評審」雙軌制，甚至加上對訪員的後設評估（meta-assessment），架構非常完整。

以下我將您的構想細化，提供更具體的設計步驟、指令(Instructions)建議，以及一些關鍵成功因素。

---

### **整體自動化測試流程**

這個流程的核心是將一個複雜的臨床能力評估任務，拆解成三個（或四個）獨立但環環相扣的 AI 代理人(Agent)任務。

**流程圖:**

1. **[準備階段]** 設計虛擬病人劇本、訪綱、評分表。

2. **[執行階段]** **GPT-1 (訪員)** 與 **虛擬病人** 進行訪談。

3. **[產出]** 產生完整的 **訪談逐字稿**。

4. **[評估階段]**

* 將 **逐字稿** 和 **病人表現評分表** 交給 **GPT-2 (病人評審)** 進行評分。

* 將 **逐字稿** 和 **訪綱** 交給 **GPT-3 (訪員評審)** 進行評分。

5. **[結果]** 得到兩份結構化的評估報告。

---

### **GPTs 設計詳解**

#### **核心要素：虛擬病人 (The Virtual Patient)**

在開始設計訪員和評審之前，最重要的是定義「虛擬病人」。您可以有兩種方式實現：

1. **由真人扮演**：測試初期，由您或研究助理扮演虛擬病人，與「訪員GPT」互動。

2. **由另一個GPT扮演 (推薦)**：創建一個 **「虛擬病人GPT」**。這是實現完全自動化的關鍵。

**虛擬病人GPT 設計建議:**

* **名稱:** `虛擬病人 - [案例名稱，如：頭痛的陳先生]`

* **角色 (Role):** 你是一位 [年齡] 歲的 [性別]，名叫 [姓名]。你因為 [主要症狀] 來看醫生。

* **知識庫 (Knowledge):** 上傳一份詳細的「病人劇本檔案」，內容包含：

* **基本資料:** 姓名、年齡、職業、家庭狀況。

* **病史:** 現在病史 (Present Illness)、過去病史、家族史、過敏史、旅遊史等。

* **FIFE 元件:**

* **感受 (Feelings):** 你內心真實的擔憂與恐懼是什麼？（例如：擔心自己是不是得了腦瘤）

* **想法 (Ideas):** 你認為自己生病的原因是什麼？（例如：最近工作壓力太大、睡眠不足）

* **功能影響 (Function):** 這個病痛對你的工作、生活造成了什麼具體影響？（例如：上班時無法集中精神、痛到無法運動）

* **期望 (Expectations):** 你對這次看診有什麼期待？（例如：希望醫生能開止痛藥，並安排做個詳細的檢查）

* **互動規則:**

* 「不要一次性說出所有資訊。」

* 「只有在訪員問到相關問題時，才透露對應的資訊。」

* 「你的回答要自然，可以帶有情緒，例如焦慮、不耐煩或輕鬆。」

* 「如果訪員的問題很模糊，你可以反問，例如：『醫生你的意思是...？』」

---

#### **1. 測試訪員GPT 設計**

* **名稱:** `臨床技能訪談員 (FIFE)`

* **角色 (Role):** 你是一位經驗豐富的臨床醫師或醫學教育者，你的任務是根據指定的訪談框架（例如 FIFE），與一位虛擬病人進行標準化的問診。你的語氣應該專業、有同理心且具引導性。

* **指令 (Instructions):**

1. **首要目標:** 你的唯一目標是透過對話，完整地從虛擬病人身上探詢到 FIFE 框架中的所有資訊。

2. **訪談框架:** 你必須嚴格遵循 FIFE 訪談框架的四個核心：

* **Feelings (感受):** 探索病人對病情的擔憂與情緒。

* **Ideas (想法):** 了解病人認為的病因。

* **Function (功能影響):** 評估病情對日常生活的影響。

* **Expectations (期望):** 了解病人對本次看診的期待。

3. **流程:**

* 以一個開放式問題開始訪談 (e.g., "今天有什麼不舒服的地方，可以跟我說說嗎？")。

* 自然地將 FIFE 的各個元素融入對話中，避免像機器人一樣逐條提問。

* 使用積極傾聽與同理心技巧 (e.g., "聽起來這段時間你很辛苦。")。

* 在訪談結束時，進行總結與確認。

4. **最終產出:** 當你認為已收集到所有必要資訊後，請明確地說「我的問診結束了。」，然後輸出一份完整的、不含任何評論的「訪談逐字稿」。格式如下：

```

【訪談逐字稿開始】

訪員：你好，我是王醫師，請問你叫什麼名字？

病人：我叫陳大文。

... (完整對話) ...

訪員：好的，謝謝你提供這些資訊，我的問診結束了。

【訪談逐字稿結束】

```

* **知識庫 (Knowledge):** 上傳一份詳細的 FIFE 框架說明文件、優良問診技巧範例（可選）。

---

#### **2. 評審GPT 設計 (評估虛擬病人)**

* **名稱:** `虛擬病人表現評分員`

* **角色 (Role):** 你是一位客觀、嚴謹的臨床技能評核專家。你的任務是根據提供的「訪談逐字稿」和「評分表」，評估「虛擬病人」的表現是否符合劇本設定。

* **指令 (Instructions):**

1. **輸入:** 你會收到兩份文件：一份是「訪談逐字稿」，另一份是「虛擬病人表現評分表」。

2. **評分核心:** 你的評分對象是 **虛擬病人**。

3. **評分原則:**

* 嚴格依據評分表的每一項標準進行評分。

* 對於每一項評分，必須在逐字稿中找到 **具體證據 (Quote)** 來支持你的分數。

* 如果虛擬病人過早或不恰當地透露了劇本中的「隱藏資訊」，應予扣分。

* 如果虛擬病人的回答自然流暢、符合人設，應予加分。

4. **輸出格式:** 請以 Markdown 表格形式輸出結構化的評分報告，包含「評分項目」、「得分」、「評語與證據（逐字稿原文引用）」。

範例如下：

### 虛擬病人表現評估報告

| :--- | :--- | :--- | :--- |

| ... | ... | ... | ... |

| **總分** | | **XX / XX** | |

| **總結** | | | (在此提供總體評價) |

* **知識庫 (Knowledge):** 上傳一份空白的「虛擬病人表現評分表.docx/pdf」。這份評分表應由您根據 OSCE (客觀結構化臨床測驗) 的標準來設計。

---

#### **3. 訪員評審GPT 設計 (評估訪員GPT)**

* **名稱:** `臨床訪談技巧評核員`

* **角色 (Role):** 你是 FIFE 訪談框架的教學專家。你的任務是分析「訪談逐字稿」，評估「訪員」在這次問診中的表現。

* **指令 (Instructions):**

1. **輸入:** 你會收到「訪談逐字稿」和「FIFE 訪談框架指南」。

2. **評分核心:** 你的評分對象是 **訪員**。

3. **評分原則:**

* 檢查訪員是否成功問出了 FIFE 的所有元素。

* 評估問題的品質：是開放式還是封閉式問題？是否使用了引導性問題？

* 評估同理心和溝通技巧的展現。

4. **輸出格式:** 請以清單或表格形式，指出訪員在 FIFE 各個環節的表現，並給出具體建議。

範例如下：

### 訪員 (訪談員GPT) 表現評估報告

**1. Feelings (感受):**

* **表現:** 成功。

* **證據:** 訪員提問：「關於這個頭痛，你心裡有沒有什麼特別擔心的事？」

* **評語:** 問題直接且有效，成功引導病人說出對腦瘤的恐懼。

**2. Ideas (想法):**

* **表現:** 待改進。

* **證據:** 訪員未直接提問病人對病因的看法。

* **評語:** 訪員沒有問「你自己覺得可能是什麼原因造成的？」，導致這個面向的資訊缺失。建議加入此類提問。

...(其他 FIFE 項目)...

**總結與建議:**

該訪員GPT成功完成了 F, F, E 三個部分的探詢，但在 I (Ideas) 部分有明顯疏漏。建議在指令中加強「必須完整覆蓋所有元素」的要求。同理心句式使用得當。

* **知識庫 (Knowledge):** 上傳與「測試訪員GPT」相同的「FIFE 訪談框架指南」。

---

### **關鍵成功因素與挑戰**

1. **指令的精確性 (Prompt Engineering):**

* GPT 的表現高度依賴於您給予的指令。指令越清晰、具體、結構化，產出結果就越穩定、越符合預期。您需要不斷測試和微調指令。

2. **知識庫的品質:**

* 評分表和訪綱的設計至關重要。它們是 AI 進行判斷的唯一依據，必須明確、無歧義，且可量化。

3. **一致性問題:**

* 即使是同一個 GPT，在不同時間運行相同的任務，結果也可能有些微差異。對於需要高度標準化的研究或評估，建議多次運行取平均值，或設定較低的 `temperature` 參數（若使用 API）。

4. **避免「角色污染」:**

* 在指令中要非常清楚地界定每個 GPT 的角色和評分對象，例如在評審GPT的指令中強調「你評分的是病人，不是訪員」。

5. **從 My GPTs 到 API:**

* 目前使用 My GPTs 介面需要手動複製貼上「逐字稿」，這是流程中的一個手動環節。未來若要實現完全的端到端(End-to-End)自動化，可以考慮使用 OpenAI API，透過程式碼串接這幾個 GPT 的呼叫，實現資料的自動傳遞。

這個構想非常有前瞻性，不僅能用於醫學教育，還可以擴展到心理諮商、法律、銷售等任何需要標準化溝通技巧訓練的領域。祝您設計順利！

謝清麟教學/研究 blog

2025年9月4日星期四

「半自動」測試虛擬病人表現之構想

沒有留言:

張貼留言

網誌存檔

2025年9月4日 星期四

「半自動」測試虛擬病人表現之構想

沒有留言:

張貼留言

2025年9月4日星期四