
أجرى باحثون في جامعة ولاية واشنطن اختبارات متكررة على قدرة روبوت الدردشة “شات جي بي تي” على تحديد دقة الفرضيات العلمية، ووجدوا أن أداء أداة الذكاء الاصطناعي لم يتجاوز 60% من التخمين العشوائي، كما أن إجاباتها كانت غير متسقة إلى حد كبير عند استخدام عدة أسئلة متطابقة.
تبرز هذه النتائج قصور نماذج الذكاء الاصطناعي التوليدي الحالية في التعامل مع مهام الاستدلال المعقدة، على الرغم من كفاءتها اللغوية.
قام الباحثون بتغذية “شات جي بي تي” بأكثر من 700 فرضية من أوراق علمية، وطلبوا منه تحديد صحة هذه الفرضيات من عدمها، أي الإجابة بنعم أو لا، بحسب تقرير لموقع “Tech Xplore”، المتخصص في أخبار التكنولوجيا، اطلعت عليه “العربية Business”.
وفي حين أجاب “شات جي بي تي” بشكل صحيح بنسبة 76.5% في عام 2024 و80% في عام 2025، لم تتجاوز دقته الفعلية، عند احتساب التخمين العشوائي، 60% مقارنةً بالصدفة.
وقد واجه روبوت الدردشة صعوبة بالغة في تحديد الفرضيات الخاطئة، حيث أجاب عليها بشكل صحيح بنسبة 16.4% فقط. علاوة على ذلك، كان أداء “شات جي بي تي” غير متسق إلى حد كبير، إذ قدم إجابات صحيحة/خاطئة مختلفة عند تكرار 10 أسئلة متطابقة.
ويعني هذا أنه حتى لو أظهر “شات جي بي تي” إجابات صحيحة كثيرة، فعند مقارنتها بفرصة التخمين العشوائي، لن يكون الفرق كبيرًا للغاية.
وأُجريت التجربة الأولى في عام 2024 باستخدام النسخة المجانية من “ChatGPT-3.5″، في حين أُجريت التجربة اللاحقة في عام 2025 باستخدام النسخة المجانية المُحدثة “ChatGPT-5 mini”.
تؤكد الدراسة على ضرورة توخي الحذر والتشكيك عند الاعتماد على أدوات الذكاء الاصطناعي مثل “شات جي بي تي” في المهام الحساسة، إذ غالبًا ما تكون قدراتها على الاستدلال أقل من قدراتها على توليد اللغة.
