謝清麟教學/研究 blog: Deep Research 的表現應已（遠）超過碩班水準

2025年6月8日星期日

Deep Research 的表現應已（遠）超過碩班水準

早上測試 ChatGPT vs Gemini vs Claude 之 Deep Research 表現 (June 8, 2025)。

我的 prompt: "請彙整2023年迄今，以大型語言模型發展虛擬病人或虛擬考官之實證論文，且可於 PubMed 或 Scopus 資料庫可查詢到的實證論文"

三者皆自動解讀 prompt，列出特定執行流程與範疇，以供使用者確認。

如 Gemini:

----------------------------------------------------------------------------

(1) 針對 PubMed 與 Scopus 資料庫，設定關鍵字組合進行檢索，關鍵字包含「大型語言模型」(Large Language Model, LLM)、「生成式AI」(Generative AI)、「虛擬病人」(virtual patient)、「標準化病人」(standardized patient)、「虛擬考官」(virtual examiner) 及「客觀結構式臨床測驗」(OSCE) 等，並將發表日期限定在2023年1月1日迄今。

(2) 篩選搜尋結果，識別出屬於「實證研究」性質的論文，排除純理論探討、評論或會議摘要等非實證文章。

(3) 針對每一篇符合條件的論文，詳細摘要其核心內容，包括：

(a) 研究使用的具體大型語言模型（例如 GPT-4, Llama 等）。
(b) 虛擬病人或考官的應用情境（例如：醫學教育、臨床技能訓練、能力評估）。
(c) 研究方法與設計，包含系統開發流程與評估方式。
(d) 主要研究發現、數據結果與成效。

(4) 綜合所有論文的資訊，分析當前以大型語言模型發展虛擬病人或考官的技術趨勢、主要挑戰（如：回答的準確性、安全性、倫理問題）以及未來研究方向。

(5) 比較不同研究在方法學上的異同，例如提示工程（prompt engineering）的技巧、評估虛擬角色表現的指標，以及衡量的教育成效。

---------------------------------------------------------------------------

我確認或修改後，他們就開始執行！！

約10分鐘後（可去喝茶/咖啡），就彙整出來了，包含參考文獻（正確率很高，皆可連結/驗證）！

效能一定超越碩班畢業生水準，因為時間效率（應是50:1--碩班畢業生至少要花50倍的時間，品質就不說了；博班生或是20:1）。

ChatGPT vs Gemini vs Claude 三者表現差異呢？我覺得差不多！！

謝清麟教學/研究 blog

2025年6月8日星期日

Deep Research 的表現應已（遠）超過碩班水準

沒有留言:

張貼留言

網誌存檔

2025年6月8日 星期日

Deep Research 的表現應已（遠）超過碩班水準

沒有留言:

張貼留言

2025年6月8日星期日