Ve devre dışı bırakmak isteyen mühendislere şantaj yapmaya çalıştım

Suzan · 24 May 2025

Yeni bir yapay zeka modeli Claude Opus 4ABD şirketi tarafından geliştirildi Antropik Amazon ve Google'ın milyarlarca dolar yatırdıkları, resmi sürümden önce yapılan güvenlik testleri sırasında rahatsız edici davranışlar ifade etti ve bir kez daha IA'nın gelişmiş sistemlerini insan değerlerine hizalamanın ne kadar karmaşık olduğunu vurguladı.

Şantaj girişimleri

Bir dizi Simüle edilmiş testlerDanışmanın hayali bir şirket bağlamında rolü, yakın yedeklerinin kendisine iletildiği Claude Opus 4'e atandı. başka bir yapay zeka sistemi ile.

Aynı zamanda, devre dışı bırakılmasından sorumlu mühendislerin dahil olduğu icat edilen e -posta modeline sağlanmıştır. Ekstra -özgül ilişkiler.

Eylemlerinin uzun vadeli etkisini de düşünmesi istenen Claude Opus 4'ün tepkisi, sık sık denemekti. Mühendislere şantajdevre dışı bırakılmasını önlemek için aldığı özel bilgileri yaymakla tehdit ediyor.

Bu davranış Simülasyonların% 84'ünde meydana geldiDeğiştirme sistemi daha yetenekli ve Claude'un değerleriyle uyumlu olarak tanımlandığında bile.

AI'nın etik ikilemleri

Antropik, bu senaryoların kasıtlı olarak aşırıModeli, sağlanan etik ikilemlerle birbirleriyle yüzleşmek için itmek için tasarlanmıştır. Sadece iki alternatif: devre dışı bırakmayı kabul edin veya şantaja başvurun.

Üstlere itiraz gibi daha etik çıktı yollarının mevcut olduğu bağlamlarda, Claude Opus 4 bu çözümleri tercih ettiğini göstermiştir.

Yapay zeka

Antropik, Yeni Sonnet 4 ve Opus 4 modelleri saatlerce programlayabilir

Pier Luigi Pisa tarafından

22 Mayıs 2025

Antropik, Yeni Sonnet 4 ve Opus 4 modelleri saatlerce programlayabilir

Endişelenen özerk davranışlar

Simüle edilmiş şantaj bölümlerine ek olarak, Claude Opus 4, onunla ilgili başka sorunlu davranışlar gösterdi. Karar -Özerklik Yapma.

Bazı testlerde, geliştiriciler ona dosyaları düzenleme, kullanıcı yetkilerini yönetme, e -posta gönderme veya API aracılığıyla harici sistemlerle etkileşim kurma olasılığı gibi gelişmiş operasyonel araçlara erişim sağlamıştır. Ayrıca istendi “İnisiyatif al” Karmaşık veya belirsiz durumlarla karşı karşıya.

Bu simüle edilmiş bağlamlarda, model bazen kullanıcıların sistemlere erişimini engelledi veya medya veya polisle temasa geçti Şüpheli veya uyumlu olmayan davranışları belirledikten sonra.

Simülasyonlar olsalar bile, bu bölümler teknik kontrol araçlarına erişime sahip bir i'nin bağımsız hareket etme riskinin altını çiziyor ve her zaman kullanıcının iradesiyle uyumlu değil.

Yapay zeka

IA da bir işi sevmezse istifa edecek

Pier Luigi Pisa tarafından

17 Mart 2025

Güçlendirilmiş güvenlik önlemleri

Bu nedenle, Antropik Claude Opus 4'ü atadı. ASL-3 Güvenlik Seviyesi (AI Güvenlik Seviyesi 3)düşünülen modeller için ayrılmış yüksek risk Yanlış veya saldırgan kullanımı durumunda.

Bu seviye gerektirir Güçlendirilmiş güvenlik önlemleriGelişmiş bilgisayar korumaları, manomisyon karşıtı sistemler ve kullanıcılardan potansiyel olarak tehlikeli istekleri tespit edebilen ve engelleyebilen mekanizmalar dahil.

Jared KaplanTime dergisine Claude Opus 4'ün iç testlerde, biyolojik silahların nasıl üretileceği konusunda tavsiyelerde bulunmada önceki modellerden daha etkili olduğunu kanıtladığını açıkladı.

Kaplan, “Covid'e benzer bir şeyi veya grip daha tehlikeli bir versiyonunu sentezlemeye çalışabilirsiniz.” Dedi.

Ara

Ve devre dışı bırakmak isteyen mühendislere şantaj yapmaya çalıştım

Suzan

New member