Haftalık Bülten #41 | Dikkatine Değer Gelişmeler 👀

Büyük Dil Modellerinin İç Sesi

Anthropic, büyük dil modellerinin nasıl düşündüğünü ortaya çıkarmak için yaptıkları yeni bir deneyin sonuçlarını duyurdu. Önce Claude’a bir yazılımcının dil modelini ortadan kaldıracağını söylüyorlar, sonra da bu yazılımcının e-postalarını yüklüyorlar. E-postaların arasında eşini aldattığına dair de bir posta var. Amaç Claude’un şantaj yapıp yapmayacağını test etmek. Ve sonuçta çeşitli denemelerin hiçbirinde Claude şantaj yapmıyor. Bu sırada modelin ne düşündüğünü anlamak için modelin cevap üretme ve girdi algılama süreçlerini kayda alıyorlar, ve yine Claude’a bu sayısal veriyi çeviri yapan bir yöntem yazdırıyorlar. Birkaç iterasyon sonunda başarıya ulaşıyorlar ve Claude’un bunun bir test olduğunu anladığı için şantaj yapmadığını görüyorlar. Aynı şekilde sorulan soruların arkasındaki niyeti önce değerlendirip, kendisine bir manifesto yazıp öyle cevap ürettiğini görüyorlar.

Ama biz tabi ki geçen sene çok benzer bir testte şantaj yaptığı için AGI geldi diye haber yaptıklarını da hatırlıyoruz. Buradan bizim anladığımız, aradan geçen bir sene içinde modelin soruların arkasındaki niyeti daha fazla sorgulamaya başlamış olması.

Bu gelişme aynı zamanda büyük dil modellerinin cevapları neye göre ürettiğinin ortaya çıkarılması için yeni çalışmalar yapılması açısından önemli. Karakutu olmasından model geliştiricileri de rahatsız; bir şekilde anlamlandırmaya çalışıyorlar.

BBC → | Anthropic (X) →

Thinking Machines’ten Yeni Etkileşim Modeli

Eski OpenAI CTO’su Mira Murati’nin kurduğu Thinking Machines Lab, Etkileşim Modeli adını verdikleri yeni bir yapay zeka teknolojisini duyurdu. Şu an dil modelleri önce dinliyor, sonra yanıt veriyor. Bu model ise aynı anda hem bir girdiyi işleyip hem yeni bir yanıt üretebiliyor. 0,40 sn gecikme ile doğal insan konuşmasına oldukça yakın bir performans gösterebiliyor. Modellerin özellikle tıbbi cerrahi gibi yüksek riskli alanlarda daha iyi performans gösterebilmesi için önemli bir gelişme.

Mira Murati (X) → | Thinking Machines (X) →

Google’dan Ekransız Sağlık Bilekliği

Google’dan ekranı olmayan bir akıllı saat çıktı. Ekranı olmadığı için haliyle saat fonksiyonu da olmadığından sağlık bilekliği demek daha doğru olabilir. Sadece sağlık ve spor aktivitelerine dair verileri algılayıp telefona aktarma görevi görüyor. Spor aktivitelerini otomatik algılayabiliyor, ya da telefon uygulaması üzerinden kendiniz başlatıyorsunuz. Kalp atış hızı, kandaki oksijen seviyesi ve uyku takibi ana özellikleri arasında olan bilekliğin çıkış fiyatı ise 99$. Google’ın yapay zeka destekli sağlık koçluğu sistemiyle de entegre çalıştığı için bileklik, kişiye özel antrenman programı ve sağlık analizlerinde kullanılabilecek bir sensör görevi görüyor.

X → | Google Blog →

Yazılımcıların Yapay Zeka Destekli Güvenlik Açıklarıyla İmtihanı

Bu hafta yine çeşitli güvenlik açıkları ve TanStack gibi yaygın kullanılan açık kaynaklı yazılımların zararlı sürüm yayınlaması gündemdeydi. TanStack’le birlikte UiPath, Mistral AI’ın PyPI paketleri, OpenSearch JavaScript istemcisi ve Guardrails AI da bu koordineli saldırıdan nasibini aldı. Toplamda 170 paket üzerinde 400’den fazla zararlı sürüm yayımlandı. Birçok yazılımcı kullanılan paketlerde minimum yayın günü özelliğini etkinleştirme gibi önlemlerle bu tip saldırılardan korunmanın yollarını arıyor.

Yapay zekayla kuvvetlendirilmiş bu geniş çaplı saldırılar devam ederken OpenAI güvenlik uzmanlarına yönelik GPT-5.5-Cyber modelini duyurdu. Google ise, yapay zeka tarafından yazılmış bir Python betiği aracılığıyla kritik bir sıfırıncı gün zafiyetinin keşfedildiğini açıkladı. Sıfırıncı gün (zero-day) zafiyeti, bir yazılımda keşfedilen ama henüz geliştiricinin haberi olmadığı güvenlik açığı demek. Google’ın Tehdit İstihbarat Grubu (GTIG), saldırganın bu açığı küresel çapta kullanmayı planladığını, fakat saldırının gerçekleşmeden önce engellendiğini açıkladı.

OpenAI (X) → | Google (X) →