“Zehirli Yapay Zeka” saldırıları küresel güvenliği tehdit ediyor

İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak araştırması, yapay zeka modellerinin çok küçük zararlı veri eklemeleriyle dahi bilinçli olarak zehirlenebileceğini ortaya koydu. Bu yeni tehdit, yanlış bilgi yayılımından siber güvenlik açıklarına kadar geniş bir risk spektrumu yaratıyor

Yayınlanma:23 Ekim 2025 - 00:30 Güncelleme:23 Ekim 2025 - 00:30 100 views

İngiltere Yapay Zeka Güvenlik Enstitüsü, Alan Turing Enstitüsü ve Anthropic’in ortak araştırması, yapay zeka modellerinin çok küçük zararlı veri eklemeleriyle dahi bilinçli olarak zehirlenebileceğini ortaya koydu. Bu yeni tehdit, yanlış bilgi yayılımından siber güvenlik açıklarına kadar geniş bir risk spektrumu yaratıyor

Yapay zeka teknolojilerinin gelişimiyle birlikte güvenlik riskleri de artıyor. Son olarak, önde gelen küresel araştırma kuruluşları İngiltere Yapay Zeka Güvenlik Enstitüsü (UK AIS), Alan Turing Enstitüsü ve Anthropic tarafından yayımlanan ortak bir çalışma, Yapay Zeka (YZ) sistemleri için “zehirleme” tehlikesinin artık teorik bir risk olmaktan çıkıp, uygulamaya konulabilir ciddi bir tehdit haline geldiğini gözler önüne serdi.

250 Zararlı Dosya ile Model Zehirlenebilir Araştırmanın çarpıcı sonuçlarına göre, milyonlarca verinin kullanıldığı büyük bir eğitim setine sadece 250 adet zararlı dosya eklenmesi, YZ modelinin gizlice zehirlenmesi için yeterli olabiliyor. “Yapay zeka zehirleme” olarak adlandırılan bu yöntem, bir modele bilerek yanlış veya yanıltıcı bilgi öğreterek modelin davranışını bozmayı, hatalı sonuçlar üretmesini sağlamayı ya da gizli kötü niyetli komutlar yerleştirmeyi amaçlıyor.

Gizli Komutlar: “Arka Kapı” (Backdoor) Saldırısı Zehirleme saldırılarının en tehlikeli türlerinden biri “arka kapı” (backdoor) saldırıları olarak biliniyor. Bu yöntemde, bir saldırgan eğitim verisine dışarıdan fark edilmeyecek özel bir tetikleyici kelime ekliyor. Model, bu tetikleyici kelimeyle karşılaştığında otomatik olarak saldırganın istediği yönde ve kontrolsüz bir şekilde yanıt üretiyor. Saldırganlar, yalnızca modelin belirli bir konuda performansını düşürmeyi hedefleyen “konu yönlendirme” (topic steering) yöntemini de kullanıyor. Yanlış bilgileri (örneğin “marul kanseri iyileştirir” gibi) binlerce sahte siteye yayarak, modelin bu bilgiyi doğru kabul etmesini sağlayabiliyorlar. Yapılan deneyler, eğitim verisinin sadece yüzde 0.001’inin yanlış bilgiyle değiştirilmesinin dahi, modelin tıbbi konularda hatalı yanıt verme olasılığını önemli ölçüde artırdığını gösteriyor.

Sanatçılardan YZ’ye “Ters Hamle” Öte yandan, bazı sanatçılar da eserlerinin YZ modelleri tarafından izinsiz kullanılmasını engellemek için kendi eserlerine bilerek “zehir” yerleştiriyor. Bu, izinsiz içerikleri kullanan modellerin bozuk veya işe yaramaz sonuçlar üretmesine neden oluyor. Uzmanlar, veri zehirleme saldırılarının, YZ teknolojisinin dışarıdan göründüğü kadar sağlam olmadığını kanıtladığını ve bu “zehirli” modellerin gelecekte hem misinformasyon yayılımı hem de siber güvenlik açıkları açısından en ciddi tehditlerden biri haline gelebileceği konusunda uyarıyor. Bu durum, küresel çapta YZ güvenlik protokollerinin acilen gözden geçirilmesi gerekliliğini ortaya koyuyor.

Bilim-Teknoloji