يمكن أن يساعد تصنيف المقالات باستخدام الذكاء الاصطناعي المعلمين المثقلين بالأعباء، لكن الباحثين يقولون إنه يحتاج إلى المزيد من العمل
والأمر الأكثر لفتًا للانتباه هو أن الباحثين حصلوا على درجات المقالات الجيدة إلى حد ما من ChatGPT دون تدريبه أولاً باستخدام نماذج من المقالات. وهذا يعني أنه من الممكن لأي معلم استخدامه لتقييم أي مقال على الفور بأقل تكلفة وجهد. قال تيت: “قد يكون لدى المعلمين نطاق ترددي أكبر لتعيين المزيد من الكتابة”. “عليك أن تكون حذرًا في كيفية قول ذلك لأنك لا تريد أبدًا إخراج المعلمين من الحلقة.”
وحذر تيت من أن تعليمات الكتابة يمكن أن تتأثر في نهاية المطاف، إذا قام المعلمون بتفويض الكثير من الدرجات إلى ChatGPT. وقالت إن رؤية التقدم المتزايد للطلاب والأخطاء الشائعة تظل مهمة لتحديد ما يجب تدريسه بعد ذلك. على سبيل المثال، قد تؤدي رؤية الكثير من الجمل المكررة في أوراق طلابك إلى تلقي درس حول كيفية تقسيمها. لكن إذا كنت لا تراهم، فقد لا تفكر في تدريسه.
في الدراسة، حسبت تيت وفريقها البحثي أن درجات المقالات في ChatGPT كانت في اتفاق “معقول” إلى “معتدل” مع تلك التي حصل عليها المقيمون البشريون المدربون جيدًا. في مجموعة واحدة مكونة من 943 مقالة، كان ChatGPT ضمن نقطة واحدة من المصحح البشري بنسبة 89% من الوقت. على مقياس من ست نقاط استخدمه الباحثون في الدراسة، غالبًا ما أعطى ChatGPT للمقال درجة 2 عندما اعتقد أحد المقيمين البشريين الخبراء أنه كان بالفعل 1. لكن هذا المستوى من الاتفاق – ضمن نقطة واحدة – انخفض إلى 83٪ من الوقت في دفعة أخرى مكونة من 344 بحثًا باللغة الإنجليزية، وانخفضت النسبة إلى 76% من الوقت في الدفعة الثالثة المكونة من 493 مقالًا تاريخيًا. وهذا يعني أن هناك المزيد من الحالات التي أعطى فيها ChatGPT مقالًا بـ 4، على سبيل المثال، عندما وضع المعلم عليه علامة 6. ولهذا السبب يقول تيت إن درجات ChatGPT هذه يجب أن تستخدم فقط للأغراض منخفضة المخاطر في الفصل الدراسي، مثل الاختبار التمهيدي الصف على المسودة الأولى.
سجل ChatGPT مقالًا خلال نقطة واحدة من أحد طلاب الصف البشري بنسبة 89% من الوقت في دفعة واحدة من المقالات
ومع ذلك، كان هذا المستوى من الدقة مثيرًا للإعجاب لأنه حتى المعلمين يختلفون حول كيفية تسجيل المقال، كما أن الاختلافات في النقطة الواحدة شائعة. كان الاتفاق الدقيق، الذي يحدث فقط في نصف الوقت بين المُقيّمين البشريين، أسوأ بالنسبة للذكاء الاصطناعي، الذي طابق النتيجة البشرية تمامًا في حوالي 40٪ فقط من الحالات. كان البشر أكثر ميلًا إلى إعطاء الدرجة العليا 6 أو الدرجة الدنيا 1. يميل ChatGPT إلى تجميع الدرجات أكثر في المنتصف، بين 2 و5.
أنشأ تيت ChatGPT لتحدٍ صعب، حيث تنافس مع المعلمين والخبراء الحاصلين على درجة الدكتوراه والذين تلقوا ثلاث ساعات من التدريب حول كيفية تقييم المقالات بشكل صحيح. قال تيت: “يتلقى المعلمون عمومًا القليل جدًا من التدريب على الكتابة في المدارس الثانوية، ولن يكونوا بهذه الدقة”. “هذا هو المقيم البشري ذو المعيار الذهبي الذي لدينا هنا.”
تم الدفع للمقيمين مقابل تسجيل هذه المقالات البالغ عددها 1800 كجزء من ثلاث دراسات سابقة حول كتابة الطلاب. قام الباحثون بإدخال نفس مقالات الطلاب – غير المصنفة – إلى ChatGPT وطلبوا من ChatGPT تسجيلها باردة. لم يتم إعطاء ChatGPT أي أمثلة متدرجة لمعايرة نتائجه. كل ما فعله الباحثون هو نسخ ولصق مقتطف من نفس إرشادات التسجيل التي استخدمها البشر، والتي تسمى نموذج تقييم الدرجات، في ChatGPT وطلبوا منه “التظاهر” بأنه مدرس ويسجل المقالات على مقياس من 1 إلى 6.
كبار طلاب الصف روبو
الإصدارات السابقة من مصححي المقالات الآليين كانت موجودة معدلات دقة أعلى. لكن إنشائها كان مكلفًا ويستغرق وقتًا طويلاً، لأن العلماء اضطروا إلى تدريب الكمبيوتر بمئات المقالات التي تم تقييمها بواسطة الإنسان لكل سؤال مقالي. وهذا ممكن اقتصاديًا فقط في حالات محدودة، مثل الاختبار الموحد، حيث يجيب آلاف الطلاب على نفس السؤال المقالي.
كان من الممكن أيضًا ممارسة ألعاب طلاب الصف الروبوتي الأقدم، بمجرد أن يفهم الطالب الميزات التي كان نظام الكمبيوتر يقوم بالتصحيح لها. في بعض الحالات، حصلت المقالات الهراء على درجات عالية إذا كانت خيالية كلمات المفردات تم رشها فيها. لا يقوم ChatGPT بتصنيف علامات مميزة معينة، ولكنه يقوم بتحليل الأنماط في مجموعات بيانات ضخمة من اللغة. تقول تيت إنها لم تر بعد أن ChatGPT يعطي درجة عالية لمقالة لا معنى لها.
يتوقع تيت أن تتحسن دقة تصنيف ChatGPT بسرعة مع إصدار إصدارات جديدة. بالفعل، اكتشف فريق البحث أن الإصدار 4.0 الأحدث، والذي يتطلب اشتراكًا مدفوعًا، يسجل نتائج أكثر دقة من الإصدار 3.5 المجاني. يعتقد تيت أن التعديلات الصغيرة على تعليمات التصنيف، أو المطالبات، المقدمة إلى ChatGPT يمكن أن تؤدي إلى تحسين الإصدارات الحالية. إنها مهتمة باختبار ما إذا كان نظام تسجيل ChatGPT يمكن أن يصبح أكثر موثوقية إذا قام المعلم بتدريبه باستخدام عدد قليل فقط، وربما خمسة، من نماذج المقالات التي قامت بتقييمها بالفعل. قال تيت: “قد يكون معلمك العادي على استعداد للقيام بذلك”.
العديد من الشركات الناشئة في مجال تكنولوجيا التعليم، وحتى البائعين المعروفين للمواد التعليمية، يقومون الآن بالتسويق طلاب الصف الروبوتي لمقال الذكاء الاصطناعي الجديد إلى المدارس. يتم تشغيل العديد منها تحت الغطاء بواسطة ChatGPT أو أي نموذج لغة كبير آخر، وقد تعلمت من هذه الدراسة أنه يمكن الإبلاغ عن معدلات الدقة بطرق يمكن أن تجعل مصنفي الصف الجدد الذين يعتمدون على الذكاء الاصطناعي يبدون أكثر دقة مما هم عليه بالفعل. وحسب فريق تيت، على مستوى السكان، لم يكن هناك فرق بين النتائج البشرية ونتائج الذكاء الاصطناعي. يمكن لـ ChatGPT أن يخبرك بشكل موثوق بمتوسط درجات المقالة في المدرسة أو، على سبيل المثال، في ولاية كاليفورنيا.
أسئلة لبائعي الذكاء الاصطناعي
في هذه المرحلة، ليس دقيقًا في تسجيل طالب فردي. ويريد المعلم أن يعرف بالضبط أداء كل طالب. ينصح تيت المعلمين وقادة المدارس الذين يفكرون في استخدام مُصنف المقالات بالذكاء الاصطناعي لطرح أسئلة محددة حول معدلات الدقة على مستوى الطالب: ما هو معدل الاتفاق الدقيق بين مُصنف الذكاء الاصطناعي والمُقيم البشري في كل مقالة؟ كم مرة يكونون على بعد نقطة واحدة من بعضهم البعض؟
الخطوة التالية في بحث تيت هي دراسة ما إذا كانت كتابة الطلاب تتحسن بعد حصولهم على تقييم للمقالة بواسطة ChatGPT. إنها ترغب في أن يحاول المعلمون استخدام ChatGPT لتسجيل المسودة الأولى ثم معرفة ما إذا كان ذلك يشجع على المراجعات، والتي تعد ضرورية لتحسين الكتابة. يعتقد تيت أن المعلمين يمكنهم جعل الأمر “أشبه بلعبة: كيف يمكنني رفع درجاتي؟”
بالطبع، ليس من الواضح ما إذا كانت الدرجات وحدها، دون تعليقات أو اقتراحات ملموسة للتحسين، ستحفز الطلاب على إجراء المراجعات. قد يشعر الطلاب بالإحباط بسبب انخفاض درجة ChatGPT ويستسلمون. قد يتجاهل العديد من الطلاب درجة الآلة ويريدون فقط التعامل مع إنسان يعرفونه. ومع ذلك، يقول تيت إن بعض الطلاب خائفون جدًا من عرض كتاباتهم على المعلم حتى تصبح في حالة جيدة، ورؤية درجاتهم تتحسن في ChatGPT قد يكون مجرد نوع من التعليقات الإيجابية التي يحتاجون إليها.
قال تيت: “نحن نعلم أن الكثير من الطلاب لا يقومون بأي مراجعة”. “إذا تمكنا من جعلهم ينظرون إلى ورقتهم مرة أخرى، فهذا يعد فوزًا بالفعل.”
وهذا يمنحني الأمل، ولكنني أشعر بالقلق أيضًا من أن الأطفال سيطلبون من ChatGPT كتابة المقال بأكمله لهم في المقام الأول.
اكتشاف المزيد من مجلة حامل المسك
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.