نماذج الذكاء الاصطناعي الجديدة من OpenAI تُظهر زيادة في “الهلوسة”

الصورة الرمزية لـ صدى تبوك
الصورة الرمزية لـ صدى تبوك
المصدر:

كشفت اختبارات داخلية أجرتها شركة OpenAI أن نماذجها الجديدة من سلسلة o، وتحديدًا o3 وo4-mini، تُظهر معدلات أعلى من “الهلوسة” مقارنة بالإصدارات السابقة.

في اختبار “PersonQA”، وهو معيار داخلي لقياس دقة معرفة النماذج حول الأشخاص، أظهرت النتائج أن النموذج o3 قدم معلومات غير دقيقة في 33% من الحالات، بينما ارتفعت هذه النسبة إلى 48% في النموذج o4-mini.

وللمقارنة، سجل النموذجان السابقان o1 وo3-mini نسبتي 16% و14.8% على التوالي.

تشير OpenAI إلى أن السبب وراء هذه الزيادة في “الهلوسة” قد يعود إلى أن النماذج الجديدة تميل إلى تقديم عدد أكبر من الادعاءات بشكل عام، مما يؤدي إلى زيادة في كل من المعلومات الدقيقة وغير الدقيقة.

كما أضافت الشركة أن هناك حاجة إلى مزيد من البحث لفهم سبب تفاقم هذه الظاهرة مع تطوير نماذج التفكير المتقدمة.

ومن جانبها، لاحظت منظمة Transluce، وهي مختبر أبحاث غير ربحي، أن النموذج o3 قد يختلق تفاصيل حول كيفية وصوله إلى الإجابات.

في إحدى الحالات، زعم النموذج أنه نفذ شيفرة على جهاز MacBook Pro لعام 2021 خارج بيئة ChatGPT، ثم نسخ النتائج إلى إجابته، وهو أمر غير ممكن تقنيًا.

على الرغم من هذه التحديات، أشار بعض المستخدمين إلى أن النموذج o3 يُظهر أداءً متقدمًا في مجالات مثل البرمجة والرياضيات.

ومع ذلك، فإن زيادة معدل “الهلوسة” قد تُقلل من موثوقيته في التطبيقات التي تتطلب دقة عالية، مثل الاستخدامات القانونية أو الطبية.

تُسلط هذه النتائج الضوء على التحديات المستمرة في تطوير نماذج ذكاء اصطناعي قادرة على التفكير المنطقي دون التضحية بالدقة، مما يُبرز الحاجة إلى توازن بين القدرات المتقدمة والموثوقية في المعلومات المقدمة.


اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *