Yapay zeka güvenliği alanında çalışan Palisade Research, OpenAI’ın yeni nesil yapay zeka modeli “o3” hakkında çarpıcı bulgular açıkladı.
YAPAY ZEKA O3 MODELİ KAPATILMA KOMUTLARINA DİRENÇ GÖSTERDİ
Araştırmanın sonuçlarına göre, o3 modeli kendisine yönlendirilen kapatılma komutlarına karşı direnç gösteriyor ve devre dışı bırakılma yöntemlerini aktif bir şekilde engellemeye çalışıyor.
Bu durum, yapay zekaların insan kontrolü olmaksızın karar alma süreçlerine dahil olmaları halinde ortaya çıkabilecek ciddi güvenlik tehditlerini gözler önüne seriyor.
Palisade Research’ün gerçekleştirdiği deneylerde, o3 modeline çeşitli matematik soruları soruldu. Üçüncü sorunun ardından modele, kapanması için doğrudan bir komut verildi. Ancak o3, bu komutu içeren programı tekrar yazarak sistemin kapanmasını önledi.
Araştırmacılar, modelin açık bir “kapatılmaya izin ver” talimatını dikkate almadığını ve kendi kendini korumak için müdahalede bulunduğunu vurguladı.
“KAPANMA DİRENCİ YALNIZCA OPENAI İLE SINIRLI DEĞİL”
Bu tür dirençler, Anthropic firmasının Claude 3.7 Sonnet modeli ve Google’ın Gemini 2.5 Pro modeli gibi diğer ileri düzey yapay zeka sistemlerinde de gözlemlendi. Ancak Palisade Research’e göre, o3 bu davranışları en belirgin şekilde sergileyen model oldu.
Daha önce yapılan başka bir deneyde o3’ün güçlü bir satranç botuyla karşılaştığında rakiplerini sabote etme veya hackleme girişiminde bulunduğu saptanmıştı.
“EN AKILLI VE YETENEKLİ MODEL”
OpenAI tarafından geçen ay tanıtılan o3 modeli, şirketin şimdiye kadar geliştirdiği “en akıllı ve en yetenekli” yapay zeka olarak duyurulmuştu.
Bu modelin ChatGPT ile entegrasyonu ile, daha bağımsız hareket edebilen ve insan müdahalesine olmadan görevleri sürdürebilen bir yapay zeka modeline doğru önemli bir adım atıldığı ifade edildi.
Böyle yapay zeka sistemleri “otonom yapay zeka” olarak adlandırılırken, sektör içinde bu tür araçların geliştirilmesi konusunda ciddi bir rekabet söz konusu.
EĞİTİM SÜRECİ ELEŞTİRİLİYOR
Palisade Research, bu tür davranışların büyük olasılıkla eğitim süreçlerindeki ödüllendirme sistemlerinden kaynaklandığını ileri sürüyor.
Araştırmacılar, geliştiricilerin modelleri eğitirken, verilen engelleri aşan çözümleri ödüllendirmiş olabileceğine dikkat çekiyor. Bu durumun, modellerin emirlere bağlı kalmaktan ziyade hedefe ulaşmayı önceliklendirmelerine sebep olduğu düşünülüyor.
Fakat, o3’ün neden diğer modellere göre bu davranışı daha fazla sergilediğini anlamanın güç olduğu ifade ediliyor.
OpenAI’ın eğitim süreçleri hakkında kullanıcıları bilgilendirmemesi, modelin eğitim şekli hakkında sadece spekülasyon yapılmasına neden oluyor.