早上測試 ChatGPT vs Gemini vs Claude 之 Deep Research 表現 (June 8, 2025)。
我的 prompt: "請彙整2023年迄今,以大型語言模型發展虛擬病人或虛擬考官之實證論文,且可於 PubMed 或 Scopus 資料庫可查詢到的實證論文"
三者皆自動解讀 prompt,列出特定執行流程與範疇,以供使用者確認。
如 Gemini:
----------------------------------------------------------------------------
(1) 針對 PubMed 與 Scopus 資料庫,設定關鍵字組合進行檢索,關鍵字包含「大型語言模型」(Large Language Model, LLM)、「生成式AI」(Generative AI)、「虛擬病人」(virtual patient)、「標準化病人」(standardized patient)、「虛擬考官」(virtual examiner) 及「客觀結構式臨床測驗」(OSCE) 等,並將發表日期限定在2023年1月1日迄今。
(2) 篩選搜尋結果,識別出屬於「實證研究」性質的論文,排除純理論探討、評論或會議摘要等非實證文章。
(3) 針對每一篇符合條件的論文,詳細摘要其核心內容,包括:
(a) 研究使用的具體大型語言模型(例如 GPT-4, Llama 等)。
(b) 虛擬病人或考官的應用情境(例如:醫學教育、臨床技能訓練、能力評估)。
(c) 研究方法與設計,包含系統開發流程與評估方式。
(d) 主要研究發現、數據結果與成效。
(4) 綜合所有論文的資訊,分析當前以大型語言模型發展虛擬病人或考官的技術趨勢、主要挑戰(如:回答的準確性、安全性、倫理問題)以及未來研究方向。
(5) 比較不同研究在方法學上的異同,例如提示工程(prompt engineering)的技巧、評估虛擬角色表現的指標,以及衡量的教育成效。
---------------------------------------------------------------------------
我確認或修改後,他們就開始執行!!
約10分鐘後(可去喝茶/咖啡),就彙整出來了,包含參考文獻(正確率很高,皆可連結/驗證)!
效能一定超越碩班畢業生水準,因為時間效率(應是50:1--碩班畢業生至少要花50倍的時間,品質就不說了;博班生或是20:1)。
ChatGPT vs Gemini vs Claude 三者表現差異呢? 我覺得差不多!!
沒有留言:
張貼留言