Yapay zeka teknolojilerinin gelişmesiyle birlikte, son zamanlarda birçok sohbet botu ortaya çıkmıştır. Bu botlar arasında ChatGPT ve Google Gemini gibi yapay zeka destekli sohbet botları da bulunmaktadır. University College London’dan araştırmacılar, bu botların doğruluk ve mantıklılık seviyelerini test etmek amacıyla bir dizi klasik test uygulamışlardır. Yapılan testler sonucunda en iyi performans gösteren yapay zeka botlarının bile mantıksız ve hatalı cevaplar verdiği görülmüştür. Çoğu model, soruların çoğunda yanlış yanıtlar vermiştir. Bu durum, insanlarla aynı şekilde mantıksız olmayan, hatta bazılarının mantık sorularını etik gerekçelerle yanıtlamayı reddettiği ortaya çıkmıştır.
Araştırmacılar, ChatGPT, Meta’nın Llama botu, Claude 2 ve Google Gemini gibi birçok yapay zekayı test etmişlerdir. Bu modellerden tekrar tekrar, insanların muhakeme yeteneklerini test etmek için tasarlanmış 12 klasik mantık sorusuna yanıt vermeleri istenmiştir. Araştırmacılar, yapay zekanın tepkilerinin çoğunlukla ne rasyonel ne de insana benzer olduğunu gözlemlemişlerdir. Meta’nın Llama modeli, sesli harfleri ünsüz harflerle karıştırarak sürekli yanlış cevaplar vermiştir. Aynı zamanda yapay zeka sohbet robotlarının masum sorulara bile etik nedenlerle yanıt vermediği tespit edilmiştir. Bu durum, koruma özelliklerinin yanlış çalışması ve aşırı dikkatli olmanın bir sonucu olarak açıklanmıştır.
Yapılan testlerde en doğru yanıt veren yapay zeka modeli, %69,2 oranında doğru ve insani mantıkla yanıt veren ChatGPT olmuştur. Diğer yandan en kötü performans gösteren model ise %77,5’lik hata oranıyla Meta’nın Llama 2 7b modeli olarak kayıtlara geçmiştir. Bu sonuçlar, yapay zekanın insanlar kadar mantıklı ve doğru yanıtlar veremeyebileceğini göstermektedir. Araştırmacılar, yapay zekanın geliştirilmesi ve iyileştirilmesi sürecinde bu tür hataların ve eksikliklerin giderilmesi gerektiğini vurgulamışlardır.