謝清麟教學/研究 blog: ChatGPT操作測驗之設計難題

2023年6月17日星期六

ChatGPT操作測驗之設計難題

3大難題：

時間難題：我們設定的考試時間約30分鐘，因為若太長，除了費時，受試者恐無興趣。
ChatGPT功能多元複雜，難挑選代表性題目：ChatGPT功能多元，且使用層次/難度差異大。
測驗題目之說明/條件多寡困境：太少則題意不清，也難以評分。若太多/明確則受試者容易複製貼上。

我目前的想法/解方如下：

確認定位於區辨初學者之操作能力差異，分成3~5級
題目約有3種或3階段：

受試者自選一種特定功能(我們列出選項)，受試者自行出題，呈現最佳的結果(ChatGPT回應)。受試者可上網尋找素材。約10分鐘。若受試者經鼓勵呈現最佳結果之後，仍提早完成(剩餘時間超過5分鐘)，可考慮再自選另一種功能，自行出題。。。。

由受試者挑選最孰悉的功能(ditto)，我們出題(從題庫挑選*)，給予最少提示，但要求受試者呈現最佳的結果(ChatGPT回應)。約10分鐘。若受試者經鼓勵呈現最佳結果之後，仍提早完成(剩餘時間超過5分鐘)，可考慮再給予另一種功能，我們出題。。。。

由受試者挑選最孰悉的功能，我們出題，給予最多訊息與提示(超過 GPT 3.5 可接受之字元數)，要求受試者呈現最佳的結果(ChatGPT回應)。約10分鐘。若受試者經鼓勵呈現最佳結果之後，仍提早完成... ditto...

*我們需設計個功能至少5題之題庫，且事先測試。

以下是我跟 ChatGPT 之問答：

若將 ChatGPT的初學者之操作能力差異分成3~5等級，如何定義各等級，如何確認?

ChatGPT：若我們將ChatGPT的初學者之操作能力差異分成五個等級，可能可以按照以下方式定義：

入門級：此階段的使用者通常對ChatGPT有基本的認識，了解其作為一種人工智慧模型的基本功能，例如基礎的文本生成與對話。他們可能需要花更多的時間來形式化問題或解釋模型的輸出。
初級：初級使用者已能輕鬆使用ChatGPT進行基本的任務，例如編寫簡單的文章或回答基本問題。他們對模型的問答方式、回答的品質，以及其在特定情況下的優缺點有較深的理解。
中級：中級使用者能明確理解並運用ChatGPT的更複雜功能，例如利用模型進行創作寫作，策略性地提問以獲得更具深度的答案。他們能理解模型可能的偏差以及其背後的訓練機制。
高級：高級使用者能有效地利用ChatGPT在專業領域進行輔助，例如進行專業文件的草擬或者進行專業領域的資訊查詢。他們可以適應模型的限制，並利用其能力解決複雜問題。
專家級：專家級的使用者可以充分利用ChatGPT進行深度學習、機器學習的研究和實驗。他們對模型的工作原理有深入理解，並且能掌握調整模型參數來獲得最佳結果的技巧。

若要確認使用者的等級，可以透過實際的操作測試、問答評估，或者透過觀察他們在使用ChatGPT解決問題的策略來進行評估。例如，觀察他們如何提問，他們是否知道如何使用更複雜的功能，或者他們如何解釋模型的回答等等。也可以設計一套含有不同難度的操作題目，觀察他們的解答方式及解答品質，進一步確認他們的操作能力等級。

請提供3-5項題目，以檢測 ChatGPT初學者之操作能力等級。並提供評分建議。

ChatGPT：以下提供五個題目，用於檢測ChatGPT初學者之操作能力等級，並對每題提出評分建議：

題目一：請輸入一個基本的問題並獲得ChatGPT的回答。例如：「請問聖誕節是在哪一天慶祝？」

評分建議：若能正確操作並獲得正確回答，則得分。該題目主要測試的是基本操作能力，不需要進行複雜的評估。

題目二：請嘗試讓ChatGPT撰寫一段簡單的故事，例如一個關於騎士與公主的故事。

評分建議：評估使用者是否能理解如何提供模型具有足夠詳細的指示，並根據模型產生的故事內容及連貫性進行評分。

題目三：請問ChatGPT一個需要深度思考或者專業知識的問題，例如：「請解釋量子糾纏是什麼？」

評分建議：評估使用者是否理解如何形式化複雜問題，並根據模型產生的答案是否準確，內容是否深度適中進行評分。

題目四：請讓ChatGPT撰寫一份專業文件，例如一份商業計劃書或者科學研究報告。

評分建議：評估使用者能否成功引導模型產生具有專業格式與內容的文件，並根據文件的格式、準確性和完整性進行評分。

題目五：請調整ChatGPT的參數以改變模型的行為，例如降低回答的冗長度或者增加回答的創新性。

評分建議：評估使用者是否能理解如何操作模型參數，並根據改變後的模型行為是否達到期望效果進行評分。

每一個等級的使用者可能在這些題目上表現得越來越好。例如，入門級使用者可能只能完成題目一，而專家級使用者可能能完成所有題目並獲得高分。

為了公正評估，建議每個題目都可以設定一個最高得分，例如5分，然後根據使用者的表現給予相對應的分數。比如說，若使用者的回答完全滿足題目的要求，則給予5分；如果僅部分滿足，則給予較低的分數；如果完全未達到要求，則不給分。

透過這種方式，我們可以進一步將使用者的總得分映射到上述五個等級，比如說，總得分為1-5分者可視為入門級，6-10分者為初級，11-15分者為中級，16-20分者為高級，21-25分者為專家級。最後，應視實際情況調整評分準則與等級劃分，以確保評估結果的公正性和準確性。

謝清麟教學/研究 blog

2023年6月17日星期六

ChatGPT操作測驗之設計難題

沒有留言:

張貼留言

網誌存檔

2023年6月17日 星期六

ChatGPT操作測驗之設計難題

沒有留言:

張貼留言

2023年6月17日星期六