تعليم

الباحثون يحذرون من احتمال التحيز العنصري في تطبيقات الذكاء الاصطناعي في الفصل الدراسي


خلفية صغيرة عن هذا مجموعة كبيرة من المقالات: كتب الطلاب في جميع أنحاء البلاد هذه المقالات في الأصل بين عامي 2015 و2019 كجزء من الاختبارات الموحدة الحكومية أو تقييمات الفصول الدراسية. كانت مهمتهم هي كتابة مقالة جدلية، مثل “هل ينبغي السماح للطلاب باستخدام الهواتف المحمولة في المدرسة؟” تم جمع المقالات لمساعدة العلماء على تطوير واختبار تقييم الكتابة الآلي.

تم تقييم كل مقالة من قبل مقيمين خبراء في الكتابة على مقياس من 1 إلى 6 نقاط، حيث تمثل 6 أعلى الدرجات. طلبت خدمات الاختبارات التربوية من GPT-4o أن يسجلها على نفس المقياس المكون من ست نقاط باستخدام نفس دليل التسجيل الذي استخدمه البشر. ولم يتم إخبار أي إنسان أو آلة عن عرق الطالب أو انتمائه العرقي، لكن تمكن الباحثون من رؤية المعلومات الديموغرافية للطلاب في مجموعات البيانات المصاحبة لهذه المقالات.

لقد وضع GPT-4o علامة على المقالات أقل بنقطة تقريبًا من تلك التي حددها البشر. كان متوسط ​​الدرجات في المقالات البالغ عددها 13121 هو 2.8 لـGPT-4o و3.7 للبشر. لكن الأمريكيين الآسيويين رُسِموا بربع نقطة إضافية. أعطى المقيِّمون البشريون الأمريكيين الآسيويين درجة 4.3 في المتوسط، في حين أعطاهم اختبار GPT-4o 3.2 فقط ــ أي خصم 1.1 نقطة تقريبًا. على النقيض من ذلك، كان الفارق بين البشر وGPT-4o حوالي 0.9 نقطة فقط للطلاب البيض والسود واللاتينيين. تخيل شاحنة الآيس كريم التي استمرت في إزالة ربع مغرفة إضافية فقط من مخاريط الأطفال الأمريكيين الآسيويين.

كتب جونسون وتشانغ في تقرير غير منشور أطلعاني عليه: “من الواضح أن هذا لا يبدو عادلاً”. وعلى الرغم من أن العقوبة الإضافية المفروضة على الأميركيين الآسيويين لم تكن كبيرة للغاية، إلا أنهم قالوا إنها كبيرة بما يكفي بحيث لا ينبغي تجاهلها.

ولا يعرف الباحثون لماذا أصدر GPT-4o درجات أقل من البشر، ولماذا أعطى عقوبة إضافية للأمريكيين الآسيويين. ووصف تشانغ وجونسون نظام الذكاء الاصطناعي بأنه “صندوق أسود ضخم” من الخوارزميات التي تعمل بطرق “لا يفهمها مطوروها بشكل كامل”. إن عدم القدرة على شرح درجة الطالب في مهمة كتابية يجعل استخدام الأنظمة محبطًا بشكل خاص في المدارس.

يقارن هذا الجدول درجات GPT-4o مع النتائج البشرية في نفس الدفعة المكونة من 13,121 مقالة للطلاب، والتي تم تسجيلها على مقياس من 1 إلى 6. تُظهر الأرقام المميزة باللون الأخضر التطابقات الدقيقة بين GPT-4o والبشر. الأرقام غير المميزة تظهر التناقضات. على سبيل المثال، كان هناك 1221 مقالًا منح فيها البشر درجة 5 ومنح GPT درجة 3. (المصدر: Matt Johnson & Mo Zhang “استخدام GPT-4o لتسجيل العناصر المستقلة 2.0” ETS، مسودة يونيو 2024)

هذه الدراسة ليست دليلاً على أن الذكاء الاصطناعي يقلل باستمرار من أهمية المقالات أو يتحيز ضد الأمريكيين الآسيويين. أحيانًا تنتج الإصدارات الأخرى من الذكاء الاصطناعي نتائج مختلفة. وجد تحليل منفصل لتسجيل المقالات أجراه باحثون من جامعة كاليفورنيا وإيرفين وجامعة ولاية أريزونا ذلك كانت درجات مقال الذكاء الاصطناعي مرتفعة جدًا في كثير من الأحيان كما كانت منخفضة جدًا. ولم تقم تلك الدراسة، التي استخدمت الإصدار 3.5 من ChatGPT، بفحص النتائج حسب العرق والانتماء العرقي.

تساءلت عما إذا كان تحيز الذكاء الاصطناعي ضد الأمريكيين الآسيويين مرتبطًا بطريقة أو بأخرى بالإنجاز العالي. وكما يميل الأمريكيون الآسيويون إلى تحقيق درجات عالية في اختبارات الرياضيات والقراءة، كان الأمريكيون الآسيويون، في المتوسط، أقوى الكتاب في هذه المجموعة المكونة من 13000 مقالة. وحتى مع هذه العقوبة، لا يزال الأمريكيون الآسيويون يحصلون على أعلى الدرجات في المقالات، أعلى بكثير من تلك التي يحصل عليها الطلاب البيض أو السود أو اللاتينيين أو الأمريكيين الأصليين أو متعددي الأعراق.

في كل من الدراسات المقالية التي أجرتها ETS وUC-ASU، منح الذكاء الاصطناعي درجات مثالية أقل بكثير مما حصل عليه البشر. على سبيل المثال، في دراسة ETS هذه، منح البشر 732 درجة 6 مثالية، في حين أعطى GPT-4o إجماليًا إجماليًا قدره ثلاث نقاط فقط. قد يكون بخل GPT بالدرجات المثالية قد أثر على الكثير من الأمريكيين الآسيويين الذين حصلوا على 6 ثوانٍ من المقيمين البشريين.

طلب باحثو “خدمات الاختبارات التربوية” من GPT-4o تسجيل المقالات بشكل بارد، دون إظهار أي أمثلة متدرجة لبرنامج الدردشة الآلي لمعايرة درجاته. من الممكن أن بعض نماذج المقالات أو التعديلات الصغيرة على تعليمات التصنيف أو المطالبات المقدمة إلى ChatGPT يمكن أن تقلل أو تقضي على التحيز ضد الأمريكيين الآسيويين. ربما يكون الروبوت أكثر عدالة بالنسبة للأميركيين الآسيويين إذا طُلب منه صراحةً “إعطاء أرقام 6 أكثر كمالا”.

أخبرني باحثو “خدمات الاختبارات التربوية” أن هذه ليست المرة الأولى التي يلاحظون فيها معاملة الطلاب الآسيويين بشكل مختلف من قبل طلاب الصف الآلي. في بعض الأحيان، كان مصححو المقالات الآليون الأقدم، الذين استخدموا خوارزميات مختلفة، يفعلون العكس، مما أعطى الآسيويين درجات أعلى من تلك التي حصل عليها المقيمون من البشر. على سبيل المثال، كان نظام التسجيل الآلي لخدمات الاختبارات التعليمية الذي تم تطويره منذ أكثر من عقد من الزمان، والذي يسمى التقييم الإلكتروني، يميل إلى تضخيم درجات الطلاب من كوريا والصين وتايوان وهونج كونج في مقالاتهم لاختبار اللغة الإنجليزية كلغة أجنبية (TOEFL). ، وفقا ل دراسة نشرت عام 2012. ربما كان ذلك بسبب أن بعض الطلاب الآسيويين حفظوا فقرات جيدة التنظيم، في حين لاحظ البشر بسهولة أن المقالات كانت خارج الموضوع. (ال موقع إتس تقول إنها تعتمد فقط على درجة التقييم الإلكتروني وحدها في اختبارات التدريب، وتستخدمها جنبًا إلى جنب مع الدرجات البشرية في الاختبارات الفعلية.)

حصل الأمريكيون الآسيويون أيضًا على درجات أعلى من نظام التسجيل الآلي تم إنشاؤها خلال مسابقة البرمجة في عام 2021 ومدعومة بـ BERT، والتي كانت الخوارزمية الأكثر تقدمًا قبل الجيل الحالي من نماذج اللغات الكبيرة، مثل GPT. قام علماء الكمبيوتر بإخضاع جهاز الصف الآلي التجريبي الخاص بهم لسلسلة من الاختبارات واكتشفوا ذلك أعطى درجات أعلى مما فعل البشر لإجابات الاستجابة المفتوحة للأميركيين الآسيويين في اختبار الفهم القرائي.

ولم يكن من الواضح أيضًا سبب تعامل بيرت أحيانًا مع الأمريكيين الآسيويين بشكل مختلف. ولكنه يوضح مدى أهمية اختبار هذه الأنظمة قبل إطلاقها في المدارس. ولكن بناءً على حماسة المربي، أخشى أن هذا القطار قد غادر المحطة بالفعل. في الندوات الأخيرة عبر الإنترنت، رأيت العديد من المعلمين ينشرون في نافذة الدردشة أنهم يستخدمون بالفعل ChatGPT وClaude وتطبيقات أخرى مدعومة بالذكاء الاصطناعي لتقييم الكتابة. قد يكون ذلك بمثابة توفير للوقت للمعلمين، ولكنه قد يضر الطلاب أيضًا.



اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى