Multi-Armed Bandit (MAB) algoritması nedir?

Multi-Armed Bandit, en yüksek kazancı elde etmek için keşif (yeni varyasyonları deneme) ve sömürü (en iyi performans gösteren varyasyonu kullanma) süreçlerini eş zamanlı yürüten dinamik bir matematiksel optimizasyon algoritmasıdır.

MAB algoritmasının geleneksel A/B testlerinden farkı nedir?

Geleneksel A/B testleri trafiği eşit bölüp test süresince sabit tutarken, MAB algoritması yüksek performans gösteren varyasyonlara trafiği gerçek zamanlı olarak daha fazla yönlendirerek dönüşüm kaybını (regret) minimize eder.

Thompson Sampling algoritması A/B testlerinde nasıl kullanılır?

Thompson Sampling, her içerik varyasyonunun başarı oranını Beta Dağılımı ile modeller. Her kullanıcı etkileşiminde olasılıkları güncelleyerek en iyi performans gösteren içeriğin gösterim sıklığını dinamik olarak artırır.

← Hafta 24 · Yapay Zeka ile A/B Testi Otomasyonu: İçerik Varyasyonlarını Bilimsel Yönetmek

H24Indigo Sovereign#1E3A8APazartesiAçılış

Statik A/B Testlerinin Ölümü: Multi-Armed Bandit ve Dinamik İçerik Optimizasyonu

Geleneksel A/B testlerinde, trafiğinizin %50'sini 'kaybeden' varyasyona feda ettiğiniz o haftaları unutun; Thompson Sampling ve LLM'ler ile dönüşümü gerçek zamanlı optimize etme dönemi başladı.

3 Haziran 2026·Havadis

Dijital pazarlamada uzun yıllardır kutsal bir kural olarak kabul edilen geleneksel A/B testleri, günümüzün yüksek hızlı içerik dünyasında ciddi bir tıkanma noktasına ulaştı. Klasik yaklaşımda (frequentist hypothesis testing), trafiğinizi ikiye böler, her iki varyasyona da eşit miktarda kullanıcı gönderir ve istatistiksel anlamlılık (p-value) sınırına ulaşana kadar haftalarca beklersiniz. Ancak Visual Website Optimizer (VWO) tarafından yayınlanan 2023 raporuna göre, geleneksel A/B testlerinin yalnızca 1/7'si istatistiksel olarak anlamlı ve pozitif bir kazançla sonuçlanıyor. Bu durum, geri kalan %85'lik senaryoda trafiğinizin yarısını daha düşük performans gösteren, tabiri caizse "kaybeden" bir varyasyona feda ettiğiniz anlamına gelir.

Bir mühendis ve öğretmen gözüyle baktığımızda, bu durumun yarattığı matematiksel kayıp göz ardı edilemeyecek kadar büyüktür. Peki, statik testlerin bu hantal yapısını aşarak, binlerce yapay zeka tabanlı içerik varyasyonunu anlık olarak optimize etmek mümkün mü? Cevap, makine öğreniminin klasik problemlerinden biri olan "Keşif ve Sömürü" (Exploration vs. Exploitation) dengesini çözen Multi-Armed Bandit (MAB) algoritmalarında yatıyor.

Multi-Armed Bandit Nedir ve Nasıl Çalışır?

İsmini çok kollu kumar makinelerinden (slot makineleri) alan Multi-Armed Bandit algoritması, en yüksek kazancı elde etmek için hangi makinenin kolunu ne sıklıkla çekmeniz gerektiğini hesaplayan matematiksel bir modeldir. Geleneksel A/B testlerinde "Keşif" (hangi içeriğin daha iyi olduğunu bulma) ve "Sömürü" (iyi olan içeriği kullanma) aşamaları birbirinden kesin çizgilerle ayrılır. Önce test yapılır (keşif), sonra kazanan belirlenir ve o uygulanır (sömürü).

MAB algoritmalarında ise bu iki süreç eş zamanlı yürür. Algoritma, yüksek performans gösteren varyasyonlara daha fazla trafik göndererek kazancı maksimize ederken (exploitation), diğer varyasyonların potansiyelini tamamen göz ardı etmemek için küçük oranlarda trafiği onlara yönlendirmeye (exploration) devam eder. Google Research tarafından yapılan çalışmalar, bu dinamik yaklaşımın geleneksel sabit oranlı testlere kıyasla optimizasyon sürecindeki dönüşüm kaybını (regret) %85'e varan oranda azalttığını göstermektedir.

LLM + MAB Entegrasyon Akışı

Süreci otomatize etmek için öncelikle OpenAI GPT-4o API gibi bir büyük dil modeli (LLM) kullanarak tek bir ana başlığın anlamsal varyasyonlarını üretiriz. Örneğin, bir SaaS ürünü için şu şekilde bir akış kurgulanabilir:

Varyasyon Üretimi: LLM'e verilen tek bir sistem talimatıyla, farklı tonlarda (merak uyandırıcı, doğrudan fayda odaklı, sosyal kanıt içeren) 50 farklı başlık üretilir.
Vektör Etiketleme: Üretilen her başlık, anlamsal analiz için gömme vektörleri (embedding vectors) ve meta-etiketler (örn: karakter uzunluğu, aktif/pasif fiil kullanımı) ile işaretlenir.
MAB Entegrasyonu: Bu varyasyonlar doğrudan Thompson Sampling algoritmasına beslenir.

# Thompson Sampling ile Basit Başarı Olasılığı Güncellemesi
import numpy as np

# Her varyasyon için (Başarı, Başarısızlık) sayıları
clicks = np.array([12, 5, 45])
views = np.array([100, 120, 150])
failures = views - clicks

# Beta dağılımından rastgele örneklem alma
samples = np.random.beta(clicks + 1, failures + 1)
winner_index = np.argmax(samples)

Yukarıdaki Python kodunda görüldüğü üzere, Thompson Sampling algoritması her varyasyonun tıklama oranını (CTR) birer Beta Dağılımı olarak modeller. Her yeni kullanıcı geldiğinde, bu dağılımlardan rastgele birer örnek çekilir ve en yüksek değeri veren varyasyon o kullanıcıya gösterilir. Kullanıcı tıkladığında başarı hanesi, tıklamadığında başarısızlık hanesi güncellenerek sistem sürekli olarak kendi kendini kalibre eder.

Neden Thompson Sampling?

Bayesçi olasılık teorisine dayanan Thompson Sampling, anlık veri güncellemelerinde olağanüstü bir esneklik sunar. Netflix'in ünlü "Artwork Personalization" mimarisinde (Netflix Tech Blog dökümanlarında belirtildiği üzere) kullanılan Contextual Bandit yapısı da benzer bir felsefeye dayanır. Netflix, sadece genel olarak en iyi görseli seçmekle kalmaz; kullanıcının izleme geçmişi, dil tercihi gibi bağlamsal verileri işleyerek kişiselleştirilmiş kapak görsellerini anlık olarak belirler.

Eğer uzun vadeli bir SEO stratejisi yürütmüyorsanız ve amacınız anlık bir reklam kampanyasında ya da bülten gönderiminde en yüksek dönüşümü yakalamaksa, geleneksel p-value testlerini beklemek büyük bir kaynak israfıdır. Yapay zekanın sunduğu sınırsız içerik üretim gücünü, dinamik bandit algoritmalarının matematiksel zekasıyla birleştirmek, dönüşüm optimizasyonunun yeni standardıdır.

Peki, sizin içerik operasyonunuzda statik testlerin yarattığı gizli ciro kaybı ne kadar?

Sıkça sorulanlar

Multi-Armed Bandit (MAB) algoritması nedir?
Multi-Armed Bandit, en yüksek kazancı elde etmek için keşif (yeni varyasyonları deneme) ve sömürü (en iyi performans gösteren varyasyonu kullanma) süreçlerini eş zamanlı yürüten dinamik bir matematiksel optimizasyon algoritmasıdır.
MAB algoritmasının geleneksel A/B testlerinden farkı nedir?
Geleneksel A/B testleri trafiği eşit bölüp test süresince sabit tutarken, MAB algoritması yüksek performans gösteren varyasyonlara trafiği gerçek zamanlı olarak daha fazla yönlendirerek dönüşüm kaybını (regret) minimize eder.
Thompson Sampling algoritması A/B testlerinde nasıl kullanılır?
Thompson Sampling, her içerik varyasyonunun başarı oranını Beta Dağılımı ile modeller. Her kullanıcı etkileşiminde olasılıkları güncelleyerek en iyi performans gösteren içeriğin gösterim sıklığını dinamik olarak artırır.