Multi-Armed Bandit (MAB) nedir?

Multi-Armed Bandit, geleneksel A/B testlerindeki sabit trafik dağıtımı yerine, performansı yüksek olan varyasyonlara trafiği gerçek zamanlı ve dinamik olarak kaydıran bir pekiştirmeli öğrenme algoritmasıdır.

Thompson Örneklemesi dinamik testlerde nasıl çalışır?

Thompson Örneklemesi, her varyasyonun başarı ve başarısızlık oranlarını Bayesyen Beta Dağılımı ile modeller. Her kullanıcı etkileşiminde olasılıkları güncelleyerek en iyi performans gösteren içeriğin gösterim şansını matematiksel olarak artırır.

Edge Worker teknolojisinin dinamik içerik testlerine katkısı nedir?

Edge Worker, yönlendirme ve varyasyon belirleme kararlarını kullanıcının tarayıcısına ulaşmadan ağın en uç noktasında (edge) sıfıra yakın gecikmeyle gerçekleştirir. Bu sayede sayfalarda titreme (flicker) etkisi önlenir ve LCP skoru korunur.

Multi-Armed Bandit ile Dinamik İçerik Optimizasyonu

Geleneksel dönüşüm oranı optimizasyonu (CRO) dünyasında kabul görmüş bir dogma vardır: Bir hipoteziniz varsa, trafiği %50-%50 oranında ikiye bölün, haftalarca bekleyin ve istatistiksel anlamlılık (p-value) eşiğini aşana kadar dokunmayın. Ancak bu yaklaşım, dijital pazarlamanın en büyük ve en az konuşulan gizli maliyetini yaratır: Fırsat Maliyeti Kaybı (Regret).

Bir içerik varyasyonunun diğerinden %20 daha iyi performans gösterdiğini varsayalım. Klasik A/B testinde, testin güvenilir sonuç vermesi için gereken 14 gün boyunca trafiğin yarısını bilerek ve isteyerek daha kötü performans gösteren varyasyona göndermeye devam edersiniz. Peki ya trafiği gerçek zamanlı olarak kazanan seçeneğe kaydırmak mümkün olsaydı?

Keşif ve Sömürü İkilemi (Exploration vs. Exploitation)

Bu problemin kalbinde, pekiştirmeli öğrenmenin (reinforcement learning) klasik ikilemi yatar: Yeni seçeneklerin performansını keşfetmek (Exploration) mi, yoksa şu ana kadar en iyi olduğu kanıtlanmış seçeneği sömürmek (Exploitation) mi?

Klasik A/B testleri bu süreci iki keskin faza böler. Önce tamamen keşif yapılır, ardından tamamen sömürüye geçilir. Çok Kollu Haydut (Multi-Armed Bandit - MAB) algoritmaları ise bu iki süreci eş zamanlı ve dinamik bir şekilde yönetir.

Matematiksel olarak, kaybettiğimiz dönüşüm oranı (regret) şu formülle hesaplanır:

$$R(T) = T \cdot p^* - \sum E[N_i] \cdot p_i$$

Burada $p^*$ en iyi varyasyonun dönüşüm oranını, $p_i$ ise diğer varyasyonların dönüşüm oranlarını temsil eder. Klasik testlerde bu pişmanlık metriği doğrusal olarak artarken, MAB algoritmalarında logaritmik bir eğri izleyerek hızla sönümlenir. Yani, sistem daha az dönüşüm getiren varyasyonu erken fark eder ve ona giden trafiği dinamik olarak kısar.

Thompson Örneklemesi ve Beta Dağılımı

Bandit algoritmaları arasında en popüler olanlardan biri Bayesyen bir yaklaşım sunan Thompson Örneklemesi (Thompson Sampling) algoritmasıdır. Büyük Dil Modelleri (LLM) ile ürettiğiniz yüzlerce başlık varyasyonunu test ederken bu algoritma mükemmel bir şekilde çalışır.

Her varyasyon için bir Beta Dağılımı (Beta(\alpha, \beta)) tanımlanır:

$\alpha$ (Alpha): Başarı (dönüşüm) sayısı
$\beta$ (Beta): Başarısızlık (dönüşüm olmama) sayısı

Süreç şu şekilde işler:

Her yeni kullanıcı geldiğinde, tüm varyasyonların güncel Beta dağılımlarından rastgele birer olasılık değeri örneklenir.
En yüksek olasılık değerini alan varyasyon kullanıcıya gösterilir.
Kullanıcı dönüşüm gerçekleştirirse o varyasyonun $\alpha$ değeri 1 artırılır; aksi takdirde $\beta$ değeri 1 artırılır.

Bu yöntem sayesinde başlangıçta tüm varyasyonlar eşit şansa sahipken, dönüşüm aldıkça başarılı olanların dağılımı sağa doğru daralır ve daha sık seçilmeye başlar. Başarısız varyasyonlar ise elenmez, sadece seçilme olasılıkları matematiksel olarak minimize edilir.

Edge Worker Seviyesinde Gecikmesiz Yönlendirme

MAB algoritmalarını tarayıcı tarafında (client-side) çalıştırmak, sayfa yüklenirken içeriğin sonradan değişmesine (flicker/titreme etkisi) neden olur ve Largest Contentful Paint (LCP) performansını baltalar. Çözüm, yönlendirme mantığını ağın en uç noktasına, yani Edge Worker seviyesine taşımaktır.

Cloudflare Workers gibi teknolojiler, V8 Isolate mimarisi sayesinde 0 milisaniye soğuk başlatma (cold start) süresi sunar. Bu sayede, Edge Worker üzerinde çalışan yönlendirme algoritmaları 50 milisaniyenin altında küresel ortalama yanıt süresiyle çalışarak kullanıcıya daha HTML belgesi ulaşmadan doğru varyasyonu hazırlar.

Google tarafından geliştirilen multi-armed-bandits kütüphanesi veya daha gelişmiş senaryolar için Vowpal Wabbit (VW) gibi kütüphanelerin Contextual Bandit algoritmaları kullanılarak, kullanıcının cihaz tipi, coğrafi konumu veya tarayıcı dili gibi ek bağlamlar (context) da bu karar mekanizmasına dahil edilebilir.

Hangi Yaklaşımı Seçmeli?

Metrik / Özellik	Klasik A/B Testi	Multi-Armed Bandit (MAB)
Birincil Amaç	Bilgi edinmek (İstatistiki kanıt)	Kazancı/Dönüşümü maksimize etmek
Trafik Dağıtımı	Sabit (%50 - %50)	Dinamik (Performansa göre değişen)
Fırsat Maliyeti (Regret)	Yüksek	Minimum
Raporlama	Net p-value ve güven aralığı	Karmaşık Bayesyen olasılıklar

Statik A/B Testlerinin Sonu: Multi-Armed Bandit ile Dinamik İçerik Optimizasyonu

Keşif ve Sömürü İkilemi (Exploration vs. Exploitation)

Thompson Örneklemesi ve Beta Dağılımı

Edge Worker Seviyesinde Gecikmesiz Yönlendirme

Hangi Yaklaşımı Seçmeli?

Sıkça sorulanlar