2023年6月17日 星期六

ChatGPT操作測驗之設計難題

3大難題:

  1. 時間難題:我們設定的考試時間約30分鐘,因為若太長,除了費時,受試者恐無興趣。
  2. ChatGPT功能多元複雜,難挑選代表性題目:ChatGPT功能多元,且使用層次/難度差異大。
  3. 測驗題目之說明/條件多寡困境:太少則題意不清,也難以評分。若太多/明確則受試者容易複製貼上。

我目前的想法/解方如下:

  • 確認定位於區辨初學者之操作能力差異,分成3~5級
  • 題目約有3種或3階段:

受試者自選一種特定功能(我們列出選項),受試者自行出題,呈現最佳的結果(ChatGPT回應)。受試者可上網尋找素材。約10分鐘。若受試者經鼓勵呈現最佳結果之後,仍提早完成(剩餘時間超過5分鐘),可考慮再自選另一種功能,自行出題。。。。

由受試者挑選最孰悉的功能(ditto),我們出題(從題庫挑選*),給予最少提示,但要求受試者呈現最佳的結果(ChatGPT回應)。約10分鐘。若受試者經鼓勵呈現最佳結果之後,仍提早完成(剩餘時間超過5分鐘),可考慮再給予另一種功能,我們出題。。。。

由受試者挑選最孰悉的功能,我們出題,給予最多訊息與提示(超過 GPT 3.5 可接受之字元數),要求受試者呈現最佳的結果(ChatGPT回應)。約10分鐘。若受試者經鼓勵呈現最佳結果之後,仍提早完成... ditto...

*我們需設計個功能至少5題之題庫,且事先測試。

以下是我跟 ChatGPT 之問答:

若將 ChatGPT的初學者之操作能力差異分成3~5等級,如何定義各等級,如何確認?

ChatGPT:若我們將ChatGPT的初學者之操作能力差異分成五個等級,可能可以按照以下方式定義:

  • 入門級:此階段的使用者通常對ChatGPT有基本的認識,了解其作為一種人工智慧模型的基本功能,例如基礎的文本生成與對話。他們可能需要花更多的時間來形式化問題或解釋模型的輸出。
  • 初級:初級使用者已能輕鬆使用ChatGPT進行基本的任務,例如編寫簡單的文章或回答基本問題。他們對模型的問答方式、回答的品質,以及其在特定情況下的優缺點有較深的理解。
  • 中級:中級使用者能明確理解並運用ChatGPT的更複雜功能,例如利用模型進行創作寫作,策略性地提問以獲得更具深度的答案。他們能理解模型可能的偏差以及其背後的訓練機制。
  • 高級:高級使用者能有效地利用ChatGPT在專業領域進行輔助,例如進行專業文件的草擬或者進行專業領域的資訊查詢。他們可以適應模型的限制,並利用其能力解決複雜問題。
  • 專家級:專家級的使用者可以充分利用ChatGPT進行深度學習、機器學習的研究和實驗。他們對模型的工作原理有深入理解,並且能掌握調整模型參數來獲得最佳結果的技巧。

若要確認使用者的等級,可以透過實際的操作測試、問答評估,或者透過觀察他們在使用ChatGPT解決問題的策略來進行評估。例如,觀察他們如何提問,他們是否知道如何使用更複雜的功能,或者他們如何解釋模型的回答等等。也可以設計一套含有不同難度的操作題目,觀察他們的解答方式及解答品質,進一步確認他們的操作能力等級。


請提供3-5項題目,以檢測 ChatGPT初學者之操作能力等級。並提供評分建議。

ChatGPT:以下提供五個題目,用於檢測ChatGPT初學者之操作能力等級,並對每題提出評分建議:

  1. 題目一:請輸入一個基本的問題並獲得ChatGPT的回答。例如:「請問聖誕節是在哪一天慶祝?」
  • 評分建議:若能正確操作並獲得正確回答,則得分。該題目主要測試的是基本操作能力,不需要進行複雜的評估。
  1. 題目二:請嘗試讓ChatGPT撰寫一段簡單的故事,例如一個關於騎士與公主的故事。
  • 評分建議:評估使用者是否能理解如何提供模型具有足夠詳細的指示,並根據模型產生的故事內容及連貫性進行評分。
  1. 題目三:請問ChatGPT一個需要深度思考或者專業知識的問題,例如:「請解釋量子糾纏是什麼?」
  • 評分建議:評估使用者是否理解如何形式化複雜問題,並根據模型產生的答案是否準確,內容是否深度適中進行評分。
  1. 題目四:請讓ChatGPT撰寫一份專業文件,例如一份商業計劃書或者科學研究報告。
  • 評分建議:評估使用者能否成功引導模型產生具有專業格式與內容的文件,並根據文件的格式、準確性和完整性進行評分。
  1. 題目五:請調整ChatGPT的參數以改變模型的行為,例如降低回答的冗長度或者增加回答的創新性。
  • 評分建議:評估使用者是否能理解如何操作模型參數,並根據改變後的模型行為是否達到期望效果進行評分。

每一個等級的使用者可能在這些題目上表現得越來越好。例如,入門級使用者可能只能完成題目一,而專家級使用者可能能完成所有題目並獲得高分。

為了公正評估,建議每個題目都可以設定一個最高得分,例如5分,然後根據使用者的表現給予相對應的分數。比如說,若使用者的回答完全滿足題目的要求,則給予5分;如果僅部分滿足,則給予較低的分數;如果完全未達到要求,則不給分。

透過這種方式,我們可以進一步將使用者的總得分映射到上述五個等級,比如說,總得分為1-5分者可視為入門級,6-10分者為初級,11-15分者為中級,16-20分者為高級,21-25分者為專家級。最後,應視實際情況調整評分準則與等級劃分,以確保評估結果的公正性和準確性。

沒有留言:

張貼留言