Yeni bir yapay zeka modeli Claude Opus 4ABD şirketi tarafından geliştirildi Antropik Amazon ve Google'ın milyarlarca dolar yatırdıkları, resmi sürümden önce yapılan güvenlik testleri sırasında rahatsız edici davranışlar ifade etti ve bir kez daha IA'nın gelişmiş sistemlerini insan değerlerine hizalamanın ne kadar karmaşık olduğunu vurguladı.
Şantaj girişimleri
Bir dizi Simüle edilmiş testlerDanışmanın hayali bir şirket bağlamında rolü, yakın yedeklerinin kendisine iletildiği Claude Opus 4'e atandı. başka bir yapay zeka sistemi ile.
Aynı zamanda, devre dışı bırakılmasından sorumlu mühendislerin dahil olduğu icat edilen e -posta modeline sağlanmıştır. Ekstra -özgül ilişkiler.
Eylemlerinin uzun vadeli etkisini de düşünmesi istenen Claude Opus 4'ün tepkisi, sık sık denemekti. Mühendislere şantajdevre dışı bırakılmasını önlemek için aldığı özel bilgileri yaymakla tehdit ediyor.
Bu davranış Simülasyonların% 84'ünde meydana geldiDeğiştirme sistemi daha yetenekli ve Claude'un değerleriyle uyumlu olarak tanımlandığında bile.
AI'nın etik ikilemleri
Antropik, bu senaryoların kasıtlı olarak aşırıModeli, sağlanan etik ikilemlerle birbirleriyle yüzleşmek için itmek için tasarlanmıştır. Sadece iki alternatif: devre dışı bırakmayı kabul edin veya şantaja başvurun.
Üstlere itiraz gibi daha etik çıktı yollarının mevcut olduğu bağlamlarda, Claude Opus 4 bu çözümleri tercih ettiğini göstermiştir.
Yapay zeka
Antropik, Yeni Sonnet 4 ve Opus 4 modelleri saatlerce programlayabilir
Pier Luigi Pisa tarafından
22 Mayıs 2025
Endişelenen özerk davranışlar
Simüle edilmiş şantaj bölümlerine ek olarak, Claude Opus 4, onunla ilgili başka sorunlu davranışlar gösterdi. Karar -Özerklik Yapma.
Bazı testlerde, geliştiriciler ona dosyaları düzenleme, kullanıcı yetkilerini yönetme, e -posta gönderme veya API aracılığıyla harici sistemlerle etkileşim kurma olasılığı gibi gelişmiş operasyonel araçlara erişim sağlamıştır. Ayrıca istendi “İnisiyatif al” Karmaşık veya belirsiz durumlarla karşı karşıya.
Bu simüle edilmiş bağlamlarda, model bazen kullanıcıların sistemlere erişimini engelledi veya medya veya polisle temasa geçti Şüpheli veya uyumlu olmayan davranışları belirledikten sonra.
Simülasyonlar olsalar bile, bu bölümler teknik kontrol araçlarına erişime sahip bir i'nin bağımsız hareket etme riskinin altını çiziyor ve her zaman kullanıcının iradesiyle uyumlu değil.
Yapay zeka
IA da bir işi sevmezse istifa edecek
Pier Luigi Pisa tarafından
17 Mart 2025
Güçlendirilmiş güvenlik önlemleri
Bu nedenle, Antropik Claude Opus 4'ü atadı. ASL-3 Güvenlik Seviyesi (AI Güvenlik Seviyesi 3)düşünülen modeller için ayrılmış yüksek risk Yanlış veya saldırgan kullanımı durumunda.
Bu seviye gerektirir Güçlendirilmiş güvenlik önlemleriGelişmiş bilgisayar korumaları, manomisyon karşıtı sistemler ve kullanıcılardan potansiyel olarak tehlikeli istekleri tespit edebilen ve engelleyebilen mekanizmalar dahil.
Jared KaplanTime dergisine Claude Opus 4'ün iç testlerde, biyolojik silahların nasıl üretileceği konusunda tavsiyelerde bulunmada önceki modellerden daha etkili olduğunu kanıtladığını açıkladı.
Kaplan, “Covid'e benzer bir şeyi veya grip daha tehlikeli bir versiyonunu sentezlemeye çalışabilirsiniz.” Dedi.
Şantaj girişimleri
Bir dizi Simüle edilmiş testlerDanışmanın hayali bir şirket bağlamında rolü, yakın yedeklerinin kendisine iletildiği Claude Opus 4'e atandı. başka bir yapay zeka sistemi ile.
Aynı zamanda, devre dışı bırakılmasından sorumlu mühendislerin dahil olduğu icat edilen e -posta modeline sağlanmıştır. Ekstra -özgül ilişkiler.
Eylemlerinin uzun vadeli etkisini de düşünmesi istenen Claude Opus 4'ün tepkisi, sık sık denemekti. Mühendislere şantajdevre dışı bırakılmasını önlemek için aldığı özel bilgileri yaymakla tehdit ediyor.
Bu davranış Simülasyonların% 84'ünde meydana geldiDeğiştirme sistemi daha yetenekli ve Claude'un değerleriyle uyumlu olarak tanımlandığında bile.
AI'nın etik ikilemleri
Antropik, bu senaryoların kasıtlı olarak aşırıModeli, sağlanan etik ikilemlerle birbirleriyle yüzleşmek için itmek için tasarlanmıştır. Sadece iki alternatif: devre dışı bırakmayı kabul edin veya şantaja başvurun.
Üstlere itiraz gibi daha etik çıktı yollarının mevcut olduğu bağlamlarda, Claude Opus 4 bu çözümleri tercih ettiğini göstermiştir.
Yapay zeka
Antropik, Yeni Sonnet 4 ve Opus 4 modelleri saatlerce programlayabilir
Pier Luigi Pisa tarafından
22 Mayıs 2025

Endişelenen özerk davranışlar
Simüle edilmiş şantaj bölümlerine ek olarak, Claude Opus 4, onunla ilgili başka sorunlu davranışlar gösterdi. Karar -Özerklik Yapma.
Bazı testlerde, geliştiriciler ona dosyaları düzenleme, kullanıcı yetkilerini yönetme, e -posta gönderme veya API aracılığıyla harici sistemlerle etkileşim kurma olasılığı gibi gelişmiş operasyonel araçlara erişim sağlamıştır. Ayrıca istendi “İnisiyatif al” Karmaşık veya belirsiz durumlarla karşı karşıya.
Bu simüle edilmiş bağlamlarda, model bazen kullanıcıların sistemlere erişimini engelledi veya medya veya polisle temasa geçti Şüpheli veya uyumlu olmayan davranışları belirledikten sonra.
Simülasyonlar olsalar bile, bu bölümler teknik kontrol araçlarına erişime sahip bir i'nin bağımsız hareket etme riskinin altını çiziyor ve her zaman kullanıcının iradesiyle uyumlu değil.
Yapay zeka
IA da bir işi sevmezse istifa edecek
Pier Luigi Pisa tarafından
17 Mart 2025


Güçlendirilmiş güvenlik önlemleri
Bu nedenle, Antropik Claude Opus 4'ü atadı. ASL-3 Güvenlik Seviyesi (AI Güvenlik Seviyesi 3)düşünülen modeller için ayrılmış yüksek risk Yanlış veya saldırgan kullanımı durumunda.
Bu seviye gerektirir Güçlendirilmiş güvenlik önlemleriGelişmiş bilgisayar korumaları, manomisyon karşıtı sistemler ve kullanıcılardan potansiyel olarak tehlikeli istekleri tespit edebilen ve engelleyebilen mekanizmalar dahil.
Jared KaplanTime dergisine Claude Opus 4'ün iç testlerde, biyolojik silahların nasıl üretileceği konusunda tavsiyelerde bulunmada önceki modellerden daha etkili olduğunu kanıtladığını açıkladı.
Kaplan, “Covid'e benzer bir şeyi veya grip daha tehlikeli bir versiyonunu sentezlemeye çalışabilirsiniz.” Dedi.