Düşünme yanılsaması: Yapay zeka akıl yürütmesini söylediğimizde gerçekten ne olur?

Suzan

New member
Son aylarda, birkaç dilsel model görünüşte daha “akıllı” davranış göstermeye başladı. Artık kendilerini bir cevap vermekle sınırlamıyorlar, ancak akıl yürütmelerini adım adım gösteriyorlar. Vaftiz edilen büyük akıl yürütme modelleri (LRM), insan düşüncesi dünyasına daha yetenekli, daha şeffaf ve daha yakın bir yapay zekaya doğru bir adım olarak sunulur. Ancak bu modeller karmaşık sorunlarla karşılaştığında gerçekten ne olur?

Bir grup Apple araştırmacısı bu soruyu titizlikle cevaplamaya çalıştı. Çalışma başlıklı Düşünme yanılsaması: Sorun karmaşıklığının merceğiyle akıl yürütme modellerinin güçlü yönlerini ve sınırlarını anlamak, Openai, Deepseek-R1, Claude 3.7 Honnet Düşünme ve İkizler Düşüncesi gibi O1 ve O3 gibi modellerin davranışlarını analiz ederek onları büyüyen karmaşıklığın mantıklı bulmacaları üzerinde test edin. Apple'ın makalesi, bilim adamlarının çalışmalarının sonuçlarını uzun zamandır halka açık olan ve yapay zeka üzerine Cupertin teorik yansımasının belki de ürün ve hizmetlerde somut kullanımından nasıl daha yüksek olduğunu gösteren şirketin son teknolojisini göstermektedir.


WWDC

Apple Intelligence değiştikçe: ChatGPT için daha fazla alan olan Claude, geliştiriciler için de



Muhabirimiz tarafından Bruno Ruffilli

10 Haziran 2025

Apple Intelligence değiştikçe: ChatGPT için daha fazla alan olan Claude, geliştiriciler için de

Testler


Araştırmacılar, genellikle eğitim verilerindeki kontaminasyondan etkilenen Math500 veya AIME gibi olağan matematiksel testleri kullanmak yerine, kontrollü ortamlar oluşturdular: Basit Mantıksal Bulmacalar bu da zorluğu tam olarak düzenlemenize izin verir. Her bulmacanın net ve anlaşılabilir kuralları vardır, ancak öğeler eklendikçe daha da zorlaşır.

En çok kullanılan bulmacalardan biri Hanoi Kulesi, Daha küçük bir diske daha büyük bir disk koymadan diskleri bir peg'den diğerine taşımanız gerekir. Diğeri Nehir geçişiAktörlerin ve ajanların güvenlik kurallarını çiğnemeden bir nehri geçmesi gerektiği (bir aktör asla yanlış ajanla yalnız bulamaz). Sonra bulmaca var Stack için bloklar Ve Kırmızı ve mavi piyonlar yer değiştirilecek.

Amaç sadece modelin doğru cevaba gelip gelmediğini görmek değil, aynı zamanda akıl yürütme yolunu incelemekti. Her adım için, araştırmacılar doğru çözümler ortaya çıktığında ve korunduğunu veya atıldıklarını gözlemlediler.

Üç aşama


Çalışma, LRM'lerin üç farklı aşamayı geçtiğini ortaya koymaktadır. Başlangıçta, Sorunlar basit olduğunda, açıkça düşünmeyen modeller (yani “düşünce zincirini” kullanmayan) daha hızlıdır ve daha kesin. “Düşünme” modelleri bunun yerine daha yavaş ve çoğu zaman yanlıştır: “Açık akıl yürütmeyen modeller, düşünenlerden daha iyi olmasa da karşılaştırılabilir bir performans elde etmeyi başarır.

Zorluk arttığında, akıl yürütme yeteneğine sahip modeller devralmaya başlar, daha iyi performans gösteriyor. Ancak Belli bir sınırdan sonra durum tekrar değişir: “Her iki model türü de performansın tamamen çöküşünü gösterir”.

En şaşırtıcı keşif, sadece Sorunlar daha karmaşık hale geldiğinde, modeller iyice düşünmeyi bırakır: Daha iyi açıklamak için daha fazla kelime kullanmak yerine, daha az yazmaya başlarlar. “LRM, sorunun karmaşıklığı arttıkça akıl yürütme çabalarını (çıkarım sırasında kullanılan jetonlarda ölçülür) azaltmaya başlar”. Sanki model teslim oldu.

“Düşünceden Kal”


Modeller tarafından üretilen düşünce zincirini analiz eden verimsiz davranış ortaya çıkar. Basit problemlerde, genellikle doğru çözümü hemen bulurlar, ancak yanlış alternatifler aramaya devam ederler. Olarak bilinen bir fenomen İyice düşünmekNe demek Sebepsizce çok fazla düşün: “Daha basit problemlerde, açık akıl yürütme modelleri genellikle düşüncelerinde doğru çözümü bulur, ancak yanlış çözümleri keşfetmeye devam eder”.

Orta zorluk sorunlarında durum bozulur. Modeller yanlış çözümlerle başlar ve sadece sonunda doğru olanı bulur. Sorun çok zorlaştığında, nihayet, artık doğru bir şey bulamıyorlar, bir taslak bile değiller: “Modeller tamamen doğru çözümler bulamıyor”.

Kullanım Talimatları


Araştırmacılar başka bir deney yaptılar. Modele tam olarak ne yapacağını söylediler, adım adım, bulmacanın belirleyici algoritmasını sağladılar. Fikir basitti: Talimatları izlerseniz, çözüme ulaşmalısınız. Beklendiği gibi gitmedi: “Talepte algoritmayı sağladığımızda bile, hizmetler iyileşmez”. Modeller başarısız olmaya devam ediyor. Bu, ntam rehberli görevleri bile gerçekleştirmeyi başarıyorlarve sorunun sadece çözüm arayışında değil, tam olarak talimatları tam olarak takip etme yeteneğinde olduğunu. Sonuçlar, araştırmacıların işaret ettiği gibi, “gelecekteki araştırmalar için sayısız soruyu aç”, ancak aynı zamanda mevcut IA platformlarının kritik görevler için düşük güvenilirliğini bir kez daha hatırlatıyor.

Bazı durumlarda, aslında, modeller Hanoi Kulesi'nin bulmacasında düzinelerce doğru hareket gerçekleştirmeyi başarıyor, ancak nehrin geçişinin üçüncü hamlesinde çok daha az operasyon gerektiren üçüncü hareket için yanılıyorlar. Araştırmacıların açıkladığı gibi, bu, eğitim verilerinde bazı bulmaca türlerinin çok nadir olmasına bağlı olabilir ve bu nedenle modeller bunlarla nasıl başa çıkılacağını bilmiyor.

Yanılsama ve hayal kırıklığı


Bu nedenle makale, büyük akıl yürütme modellerinin henüz tutarlı bir şekilde akıl yürütemediğini göstermektedir. İlk değerlendirmeye parlak görünebilirler, ancak gerçekte ne yaptıklarını analiz ettiğinizde, derin sınırlar ortaya çıkıyor: “Mevcut yaklaşımlar akıl yürütmeyi genelleştirme yeteneğinde temel sınırlarla karşılaşabilir” diye yazıyor.

Bu modeller sorunları gerçekten anlamıyor: kalıpları tanımayı, akıl yürütmeyi taklit etmeyi öğreniyorlar, ancak terimin insan anlamında düşünmüyorlar. Sorunlar çok karmaşık hale geldiğinde engeller. Talimatları olduğunda onları incitiyorlar. Ve çok fazla düşündüklerinde kaybolurlar. Paradoksal olarak, insanlardan bir davranış gibi görünen tam olarak bu tür cesaretinizdir.

Apple araştırmacılarının işi bir Rakip modellerin bildirilerine örtük eleştiriVe aynı zamanda bir davetiye IAS'ın becerilerini değerlendirmek için yeni yöntemler tasarlayın ve geleneksel kıyaslamanın sınırlarını aşın. Her zaman akılda tutulması bir uyarıdır: Eloquence zeka ile çakışmaz. Akıl yürütme, yeni fikirler, yeni yaklaşımlara ihtiyaç duyulacak ve belki de yapay zekanın kendisi hakkında yeni bir düşünme şekli oluşturmak için. Ama şimdilik modellerin düşüncesi sadece bir yanılsamadır.