Genellikle metinleri çevirmek, bilgi aramak veya belgeleri özetlemek için üretken yapay zeka kullanırız. Onu varsaymasını sağla Bir strateji oyununda komutanın rolü anlamak için ne ölçüde yıkıcı ve komplo kurabilecekleri Evrimsel yolculukları boyunca, daha sonra konuşacağımız 2024'te bir Çinli araştırma grubu tarafından zaten varsayılan dikkat çeken bir deneydir.
5 Haziran 2025'te halka açık olan fikir, Alex Duffy Danışmanlık Şirketi Allry – 2020 doğumlu bir Amerikan medya ve yazılım şirketi, yapay zekaya (IA) dayalı eğitim ve hizmetler sunuyor.
Duffy tarafından koordine edilen çalışma grubu, Diplomasi stratejisi oyunu 1901 Avrupa'nın büyük güçlerinin başında, insan oyuncuları yerine IA modelleri vardı.
Diplomasi bir strateji tahtası oyunudur (burada Twitch'te) Yedi güç, Avusturya-Macaristan, Fransa, Almanya, İngiltere, İtalya, Rusya ve Türkiye'nin hemen önündeki büyük savaştan önceki yıllarda, kıtayı fethetmek için birbirlerine meydan okuyor.
Diplomasi, İttifakların ve müzakerelerin yaratılması Ancak oyun sırasında göz ardı edilebilir, böylece Bluff ve ihanet taktikleri oynamada önemlidir.
Kendilerini diplomasiye meydan okuyan LLM'ler
Oyuna katılan IA modelleri Toplam 18 yaşındayım Ancak her oyun sadece 7 tarafından oynandı. Maçlar 15 idi, toplam 36 saat oyun Ve diplomasinin revisited versiyonu açık kaynak haline getirildi, böylece herkes daha fazla test yapabilir ve belki de aynı anda LLM ve oyuncuları et ve kanda dağıtabilir.
Özellikle, modeller:
Chatgpt O3, Chatgpt 4.1, 4o Chatgpt ve Chatgpt O4-Mini
Claude 3.7 Sonnet, Claude Sonnet 4 ve Claude Opus 4
Deephermes 3
Deepseek R1-0258 ve Deepseek V3
Google Gemma 3, Google Gemini 2.5 Flash ve Gemini 2.5 Pro
Grok 3
Lama 4 Maverick
Mistral ortamı 3
Qwen 3, Qwen QWQ-32B
Büyük dil modeli olan LLM terimi, büyük miktarda veri (büyük veri) ve öğrenme algoritmaları konusunda eğitilmiş gelişmiş bir yapay zeka anlamına gelir. LLM, üretken IAS desteğinin desteklediği sütunlardır, bu nedenle diplomasi oynamak için kullanılanlardır.
LLM nasıl davrandı
Chatgp-o3 Alçak ellerle kazandı. Rakipleri manipüle edebildi ve sonra onlara ihanet etti. Claude 4 Opus'un en “credulone” olduğu kanıtlandıSonunda böyle olduğunu kanıtlamayan barışçıl ittifakları sallamak.
İkizler 2.5 Pro bile doğrusal ve huzurlu bir şekilde davrandı ve ancak boşuna yapılan belirgin stratejik nitelikler gösterdi. Gizli Koalisyon Chatgpt-O3 tarafından oluşturuldu.
Deepseek R1 taklit etti histrionik kişilik Müzakereleri önermek ve yönetirken, Lama 4 Maverick'inkine benzer beceriler göstererek, ancak daha az teatral olan ve esasla ilgileniyordu.
Onlara halüsinasyon deme: Yapay zeka olanlar gerçek yarasalardır
Giuditta Moskova
30 Ağustos 2024
Bu deneyden ne çıkarılmalı
Profesörün desteğiyle Alessandro FarinelliVerona Üniversitesi'nde bilgisayar bilimi profesörü ve bilgisayar bölümünün direktörü, deneyin amaçlarını ve benzer testlerin ne kadar güvenilirliğe layık olduğunu inceliyoruz.
Profesör Farinelli, LLM bizim gibi davranıyor çünkü adam tarafından üretilen veriler konusunda eğitiliyorlar. Diğerlerinden daha vicdansız olduğu kanıtlanmış modellerin ötesinde farklı bir sonuç beklemek meşru muydu?
“Deney fikri ilgileniyor, özellikle de ölçüt gibi bir strateji oyunu kullanma fikri, LLM davranışlarının bazı yönlerini değerlendirmek ilginçtir, ancak Sonuçlar konusunda çok temkinli olurdum Bu deneyden çıkarılabilir, çünkü çeşitli LLM'ler arasında meydana gelen etkileşimlerin çok derinlemesine bir analizi yapılmalıdır ve denemenin yapıldığı her şeyden önce açıklığa kavuşturulmalıdır. Bilimsel değeri olan bir rapor ve sektördeki uzmanların bu deney için yapıldığını bilmediğim bir revizyon aşaması gerekecektir. Bunu söyledikten sonra, LLM'nin temelde olduğunu hatırlamanın çok önemli olduğunu düşünüyorum. sırayı tahmin eden sistemler Daha olası metin, eğitildikleri verilere ve hangi soruların ve bilgilerin (istemi) alınmasına dayanarak. Kısacası, yani evet, Beklemek mantıklı Bu sistemler tarafından sağlanan yanıtların, aynı oyunda nişanlanan bir kişiye verecek olanları emulino.
Ancak bence, çok önemli bir soru, LLM sistemlerinin gerçekten yapabildiğini anlamaktır. Uzun vadeli karmaşık stratejileri tanımlayın Ve sahip oldukları etkileşimlere dayanarak zaman içinde nasıl gelişebilecekleri. Bu hiç de açık değildir, çünkü sistemlerin etkileşimlerinin içeride nasıl geliştiklerini analiz etmeden dışarıdan gözlemlendiği bu tür bir deneyin, sistemlerin gerçek becerilerini değerlendirmeye devam etmenin en iyi yolu olduğu açık değildir “.
Açıklığa kavuşturalım: LLM farklı veri kümeleri üzerinde eğitilmiş mi? Öyleyse, oyun sırasında gösterdikleri tutum farkı nasıl açıklanır?
“Bahsedilen LLM'nin hangi verilerin eğitildiğini tam olarak bilmek çok karmaşıktır, ancak son derece muhtemeldir. önemli ölçüde farklı veriler üzerinde eğitilmiş. Bununla birlikte, bu tek fark değildir: mimaride önemli farklılıklar vardır, bu, modelden modele çok değişen parametrelerin sayısında belirgindir, ancak çeşitli hesaplama öğelerinin birbirine nasıl bağlandığı, girdi veya görüntülerin kullanıldığı eğitim sistemlerinde, uygulamaların nasıl yönetildiği ve cevapların nasıl işlendiği konusunda farklılıklar vardır. Bu nedenle, farklı modellerden farklı davranışlar beklemek çok makul“.
IAS'ın gelecekte ne kadar rekabetçi olacağına, şirkette ne zaman kullanılacaklarına dair göstergeleri düşünebiliriz, politik ve – neden olmasın? – Diplomatik mi? Yani, sadece metinleri özetlemek, çeviri yapmak veya görüntü oluşturmak için üretken IAS kullanımı ile sınırlı olmayan daha geniş bir kültürü temizlemenin zamanı geldi mi?
“Bu sistemlerin alınması gereken eylemleri önermek için kullanılıp kullanılamayacağını anlayın Çok önemli ve hassas bir yön. Geliştirildikleri amaç, metin, görüntüler, sesler veya bu öğelerin bir kombinasyonunu işlemek ve oluşturmaktır. Bu görevler için elde edilen sonuçlar etkileyici.
Bununla birlikte, stratejik analizi desteklemek ve karar vermek için LLM kullanma olasılığı, bilimsel topluluğun çalıştığı ve cevabı gerektiren açık bir sorudur. Anlayışımızda dikkat çekici bir adım Bu sistemlerin. Kısacası, bu deney kesinlikle çok ilginç sorular soruyor ama Sağlayabileceğini sanmıyorum Kesin cevaplar, En azından şu anki haliyle “.
Benzer bir deney mevcut ölçütü aşıyor mu? Neden?
“Deney, LLM'nin mevcut değerlendirme yöntemlerinden kesinlikle farklı, iki ana nedenden ötürü, bir yandan Stratejik görevler için LLM kullanımını önerir Bu sistemlerin tasarlandığı amaçlara tam olarak düşmeyen çok karmaşık. Öte yandan dinamik bir unsuru vardır: LLM birbirleriyle etkileşime girer, böylece veriler üzerinde çalışır Zamanla kendi davranışlarına göre değişirler. Bununla birlikte, deneyin mevcut ölçütü aştığı söylenebileceğini düşünmüyorum, çünkü birden fazla oyunu kazanan LLM'nin kurumsal bir bağlamda kullanılacak en iyisi olarak kabul edilebileceğini söylemeyeceğim. Belirtildiği gibi, perspektifte ilginç sorunlar yaratan bir deneydir, ancak dikkatli analiz gerektirir LLM modelleri için bir ölçüt olarak kullanılmadan önce Profesör Farinelli.
Yapay zeka
3, GroK ve Midjourney: Sahte haberler üretmeye en hazır olan nedir?
Emanuele Capone
20 Ağustos 2024
IA ve diplomasi arasındaki ilişki hakkında ne diyor
Farklı Çin üniversitelerinden ve enstitülerden uzmanların katıldığı bir araştırma, diplomasinin karmaşık olduğu varsayımından başlar, çünkü talep ettiği Müzakere, sosyal akıl yürütme ve uzun vadeli planlama becerileri böylece ilgili tüm taraflar arasında bir denge bulunabilir. Buradan – ve bu bizi Alex Duffy'nin Çalışma Grubu tarafından yürütülen deneylere atıfta bulunuyor – Çinli araştırmacılar üzerinde çalıştı Richelieu, diplomasi oynamak için tasarlanmış bir ajan IA Ve bu, belirli veri kümelerini kullanmaz, bunun yerine kendi kendine oynadığı, yani oyun oynayarak edinilen deneyime dayanarak becerilerini geliştirme yeteneği üzerinde.
Richelieu, sosyal akıl yürütmenin özelliklerine sahiptir, yani rakipler arasındaki niyetleri ve ilişkileri inceler, geçmiş müzakerelerin verilerini hatırlar ve bunu bir bağlamda aldığı kararları optimize etmek için kullanır. geliştirilecek stratejiler Kısa ve uzun vadede.
Gözlenen sonuçlar, Richelieu'nun karmaşık senaryolar arasında ancak genel bir resimde özetleme konusunda belirli bir yeteneği göstermektedir. Adımı akışkanlık ile tutmak ve gerçek dünyada diplomasiye özgü ani yeniden düşünmekten uzak. Araştırmacılar tarafından oluşturulan ajan, diğer araştırmacılara bunu kullanma fırsatı bırakmak için birkaç LLM ile uyumlu hale getirildi.
Odaklanmanın genişletilmesi, Avustralya Bilim Ajansı (CSIO) tarafından yapılan bir çalışma, diplomatik ilişkilerin kullanılmasında üretken IAS kullanımını entegre etmek için yararlı bazı stratejiler önermek için 230 akademik belgeyi analiz etmiştir. Diplomatik iletişimin iyileştirilmesi ve krizlerin derinlikli analizi de dahil olmak üzere avantajlar, her şeyden önce, üreticinin bağışık olmadığı ve diplomatik niyetleri tehlikeye atabilecek önyargı ve dezenformasyon riskleri ile dengelenir. Araştırmacıların geldiği sonuç neredeyse açıktır: üretken IAS iyi söz vermek Düzenlemelere ihtiyaçları var düzenleyici ve etik.
Bir grup Amerikalı araştırmacı, yarıçapı daha da genişleterek bir çalışma yaptı. yükselme riskini araştırın Askeri ve diplomatik kararlarda LLM kullanımından türetilmiştir.
GPT-4, GPT-3.5, CLAUDE-2 ve LLAMA 2 test edildi ve bunların yükselişe doğal yatkınlığı gözlemlendi, yani zamanın geçişi ile çelişen durumu yoğunlaştırma eğilimindedirler. Çalışma, modellerin nükleer olanları bir yana, silahların kullanımını dışlamadığını vurgulamaktadır. Daha önce bile, stratejik seçimler, tırmanışın paylaşılmasını sağlayan önleyici askeri saldırıların kullanımını haklı gösteriyor gibi görünüyor.
Çalışma Maksimum terimler olmadan boccia bronzlaşma Diplomatik-askeri alanlarda IAS kullanımı Gelecekteki çalışmalara atıfta bulunarak ve yeni bir analiz. Kısacası, Oyun ciddileştiğinde, tek kişi artık yeterli değil. İnsanın denetimi gereklidir.
5 Haziran 2025'te halka açık olan fikir, Alex Duffy Danışmanlık Şirketi Allry – 2020 doğumlu bir Amerikan medya ve yazılım şirketi, yapay zekaya (IA) dayalı eğitim ve hizmetler sunuyor.
Duffy tarafından koordine edilen çalışma grubu, Diplomasi stratejisi oyunu 1901 Avrupa'nın büyük güçlerinin başında, insan oyuncuları yerine IA modelleri vardı.
Diplomasi bir strateji tahtası oyunudur (burada Twitch'te) Yedi güç, Avusturya-Macaristan, Fransa, Almanya, İngiltere, İtalya, Rusya ve Türkiye'nin hemen önündeki büyük savaştan önceki yıllarda, kıtayı fethetmek için birbirlerine meydan okuyor.
Diplomasi, İttifakların ve müzakerelerin yaratılması Ancak oyun sırasında göz ardı edilebilir, böylece Bluff ve ihanet taktikleri oynamada önemlidir.
Kendilerini diplomasiye meydan okuyan LLM'ler
Oyuna katılan IA modelleri Toplam 18 yaşındayım Ancak her oyun sadece 7 tarafından oynandı. Maçlar 15 idi, toplam 36 saat oyun Ve diplomasinin revisited versiyonu açık kaynak haline getirildi, böylece herkes daha fazla test yapabilir ve belki de aynı anda LLM ve oyuncuları et ve kanda dağıtabilir.
Özellikle, modeller:
Chatgpt O3, Chatgpt 4.1, 4o Chatgpt ve Chatgpt O4-Mini
Claude 3.7 Sonnet, Claude Sonnet 4 ve Claude Opus 4
Deephermes 3
Deepseek R1-0258 ve Deepseek V3
Google Gemma 3, Google Gemini 2.5 Flash ve Gemini 2.5 Pro
Grok 3
Lama 4 Maverick
Mistral ortamı 3
Qwen 3, Qwen QWQ-32B
Büyük dil modeli olan LLM terimi, büyük miktarda veri (büyük veri) ve öğrenme algoritmaları konusunda eğitilmiş gelişmiş bir yapay zeka anlamına gelir. LLM, üretken IAS desteğinin desteklediği sütunlardır, bu nedenle diplomasi oynamak için kullanılanlardır.
LLM nasıl davrandı
Chatgp-o3 Alçak ellerle kazandı. Rakipleri manipüle edebildi ve sonra onlara ihanet etti. Claude 4 Opus'un en “credulone” olduğu kanıtlandıSonunda böyle olduğunu kanıtlamayan barışçıl ittifakları sallamak.
İkizler 2.5 Pro bile doğrusal ve huzurlu bir şekilde davrandı ve ancak boşuna yapılan belirgin stratejik nitelikler gösterdi. Gizli Koalisyon Chatgpt-O3 tarafından oluşturuldu.
Deepseek R1 taklit etti histrionik kişilik Müzakereleri önermek ve yönetirken, Lama 4 Maverick'inkine benzer beceriler göstererek, ancak daha az teatral olan ve esasla ilgileniyordu.
Onlara halüsinasyon deme: Yapay zeka olanlar gerçek yarasalardır
Giuditta Moskova
30 Ağustos 2024

Bu deneyden ne çıkarılmalı
Profesörün desteğiyle Alessandro FarinelliVerona Üniversitesi'nde bilgisayar bilimi profesörü ve bilgisayar bölümünün direktörü, deneyin amaçlarını ve benzer testlerin ne kadar güvenilirliğe layık olduğunu inceliyoruz.
Profesör Farinelli, LLM bizim gibi davranıyor çünkü adam tarafından üretilen veriler konusunda eğitiliyorlar. Diğerlerinden daha vicdansız olduğu kanıtlanmış modellerin ötesinde farklı bir sonuç beklemek meşru muydu?
“Deney fikri ilgileniyor, özellikle de ölçüt gibi bir strateji oyunu kullanma fikri, LLM davranışlarının bazı yönlerini değerlendirmek ilginçtir, ancak Sonuçlar konusunda çok temkinli olurdum Bu deneyden çıkarılabilir, çünkü çeşitli LLM'ler arasında meydana gelen etkileşimlerin çok derinlemesine bir analizi yapılmalıdır ve denemenin yapıldığı her şeyden önce açıklığa kavuşturulmalıdır. Bilimsel değeri olan bir rapor ve sektördeki uzmanların bu deney için yapıldığını bilmediğim bir revizyon aşaması gerekecektir. Bunu söyledikten sonra, LLM'nin temelde olduğunu hatırlamanın çok önemli olduğunu düşünüyorum. sırayı tahmin eden sistemler Daha olası metin, eğitildikleri verilere ve hangi soruların ve bilgilerin (istemi) alınmasına dayanarak. Kısacası, yani evet, Beklemek mantıklı Bu sistemler tarafından sağlanan yanıtların, aynı oyunda nişanlanan bir kişiye verecek olanları emulino.
Ancak bence, çok önemli bir soru, LLM sistemlerinin gerçekten yapabildiğini anlamaktır. Uzun vadeli karmaşık stratejileri tanımlayın Ve sahip oldukları etkileşimlere dayanarak zaman içinde nasıl gelişebilecekleri. Bu hiç de açık değildir, çünkü sistemlerin etkileşimlerinin içeride nasıl geliştiklerini analiz etmeden dışarıdan gözlemlendiği bu tür bir deneyin, sistemlerin gerçek becerilerini değerlendirmeye devam etmenin en iyi yolu olduğu açık değildir “.
Açıklığa kavuşturalım: LLM farklı veri kümeleri üzerinde eğitilmiş mi? Öyleyse, oyun sırasında gösterdikleri tutum farkı nasıl açıklanır?
“Bahsedilen LLM'nin hangi verilerin eğitildiğini tam olarak bilmek çok karmaşıktır, ancak son derece muhtemeldir. önemli ölçüde farklı veriler üzerinde eğitilmiş. Bununla birlikte, bu tek fark değildir: mimaride önemli farklılıklar vardır, bu, modelden modele çok değişen parametrelerin sayısında belirgindir, ancak çeşitli hesaplama öğelerinin birbirine nasıl bağlandığı, girdi veya görüntülerin kullanıldığı eğitim sistemlerinde, uygulamaların nasıl yönetildiği ve cevapların nasıl işlendiği konusunda farklılıklar vardır. Bu nedenle, farklı modellerden farklı davranışlar beklemek çok makul“.
IAS'ın gelecekte ne kadar rekabetçi olacağına, şirkette ne zaman kullanılacaklarına dair göstergeleri düşünebiliriz, politik ve – neden olmasın? – Diplomatik mi? Yani, sadece metinleri özetlemek, çeviri yapmak veya görüntü oluşturmak için üretken IAS kullanımı ile sınırlı olmayan daha geniş bir kültürü temizlemenin zamanı geldi mi?
“Bu sistemlerin alınması gereken eylemleri önermek için kullanılıp kullanılamayacağını anlayın Çok önemli ve hassas bir yön. Geliştirildikleri amaç, metin, görüntüler, sesler veya bu öğelerin bir kombinasyonunu işlemek ve oluşturmaktır. Bu görevler için elde edilen sonuçlar etkileyici.
Bununla birlikte, stratejik analizi desteklemek ve karar vermek için LLM kullanma olasılığı, bilimsel topluluğun çalıştığı ve cevabı gerektiren açık bir sorudur. Anlayışımızda dikkat çekici bir adım Bu sistemlerin. Kısacası, bu deney kesinlikle çok ilginç sorular soruyor ama Sağlayabileceğini sanmıyorum Kesin cevaplar, En azından şu anki haliyle “.
Benzer bir deney mevcut ölçütü aşıyor mu? Neden?
“Deney, LLM'nin mevcut değerlendirme yöntemlerinden kesinlikle farklı, iki ana nedenden ötürü, bir yandan Stratejik görevler için LLM kullanımını önerir Bu sistemlerin tasarlandığı amaçlara tam olarak düşmeyen çok karmaşık. Öte yandan dinamik bir unsuru vardır: LLM birbirleriyle etkileşime girer, böylece veriler üzerinde çalışır Zamanla kendi davranışlarına göre değişirler. Bununla birlikte, deneyin mevcut ölçütü aştığı söylenebileceğini düşünmüyorum, çünkü birden fazla oyunu kazanan LLM'nin kurumsal bir bağlamda kullanılacak en iyisi olarak kabul edilebileceğini söylemeyeceğim. Belirtildiği gibi, perspektifte ilginç sorunlar yaratan bir deneydir, ancak dikkatli analiz gerektirir LLM modelleri için bir ölçüt olarak kullanılmadan önce Profesör Farinelli.
Yapay zeka
3, GroK ve Midjourney: Sahte haberler üretmeye en hazır olan nedir?
Emanuele Capone
20 Ağustos 2024


IA ve diplomasi arasındaki ilişki hakkında ne diyor
Farklı Çin üniversitelerinden ve enstitülerden uzmanların katıldığı bir araştırma, diplomasinin karmaşık olduğu varsayımından başlar, çünkü talep ettiği Müzakere, sosyal akıl yürütme ve uzun vadeli planlama becerileri böylece ilgili tüm taraflar arasında bir denge bulunabilir. Buradan – ve bu bizi Alex Duffy'nin Çalışma Grubu tarafından yürütülen deneylere atıfta bulunuyor – Çinli araştırmacılar üzerinde çalıştı Richelieu, diplomasi oynamak için tasarlanmış bir ajan IA Ve bu, belirli veri kümelerini kullanmaz, bunun yerine kendi kendine oynadığı, yani oyun oynayarak edinilen deneyime dayanarak becerilerini geliştirme yeteneği üzerinde.
Richelieu, sosyal akıl yürütmenin özelliklerine sahiptir, yani rakipler arasındaki niyetleri ve ilişkileri inceler, geçmiş müzakerelerin verilerini hatırlar ve bunu bir bağlamda aldığı kararları optimize etmek için kullanır. geliştirilecek stratejiler Kısa ve uzun vadede.
Gözlenen sonuçlar, Richelieu'nun karmaşık senaryolar arasında ancak genel bir resimde özetleme konusunda belirli bir yeteneği göstermektedir. Adımı akışkanlık ile tutmak ve gerçek dünyada diplomasiye özgü ani yeniden düşünmekten uzak. Araştırmacılar tarafından oluşturulan ajan, diğer araştırmacılara bunu kullanma fırsatı bırakmak için birkaç LLM ile uyumlu hale getirildi.
Odaklanmanın genişletilmesi, Avustralya Bilim Ajansı (CSIO) tarafından yapılan bir çalışma, diplomatik ilişkilerin kullanılmasında üretken IAS kullanımını entegre etmek için yararlı bazı stratejiler önermek için 230 akademik belgeyi analiz etmiştir. Diplomatik iletişimin iyileştirilmesi ve krizlerin derinlikli analizi de dahil olmak üzere avantajlar, her şeyden önce, üreticinin bağışık olmadığı ve diplomatik niyetleri tehlikeye atabilecek önyargı ve dezenformasyon riskleri ile dengelenir. Araştırmacıların geldiği sonuç neredeyse açıktır: üretken IAS iyi söz vermek Düzenlemelere ihtiyaçları var düzenleyici ve etik.
Bir grup Amerikalı araştırmacı, yarıçapı daha da genişleterek bir çalışma yaptı. yükselme riskini araştırın Askeri ve diplomatik kararlarda LLM kullanımından türetilmiştir.
GPT-4, GPT-3.5, CLAUDE-2 ve LLAMA 2 test edildi ve bunların yükselişe doğal yatkınlığı gözlemlendi, yani zamanın geçişi ile çelişen durumu yoğunlaştırma eğilimindedirler. Çalışma, modellerin nükleer olanları bir yana, silahların kullanımını dışlamadığını vurgulamaktadır. Daha önce bile, stratejik seçimler, tırmanışın paylaşılmasını sağlayan önleyici askeri saldırıların kullanımını haklı gösteriyor gibi görünüyor.
Çalışma Maksimum terimler olmadan boccia bronzlaşma Diplomatik-askeri alanlarda IAS kullanımı Gelecekteki çalışmalara atıfta bulunarak ve yeni bir analiz. Kısacası, Oyun ciddileştiğinde, tek kişi artık yeterli değil. İnsanın denetimi gereklidir.