Bu metinde, verideki olağan dışı gözlemlerin yoğunluk temelli bir bakış açısıyla nasıl tespit edilebileceğini ve bu görevin, ikili sınıflandırma problemlerine benzer biçimde çözülebileceğini özetleyeceğiz. Yaklaşımın temelinde, “anomaliler seyrek olaylardır” varsayımı yer almaktadır. Diğer bir deyişle, eğer bir gözlem noktası, veri setini üreten asıl dağılımın belirli bir yoğunluk eşiğinin altında kalıyorsa “anormal” olarak kabul edilir.
Anomali veya “yenilik” tespiti, birçok sektörde önemli bir rol oynar. Örneğin:
Bu tarz durumlarda genellikle eldeki veri, çoğunlukla “normal” durumları temsil eder. Anormal olaylar çok seyrektir ve bunlara dair etiketli veri bulmak zordur. Dolayısıyla, “anomalilerin ne olduğunu” dolaylı biçimde belirlememiz gerekir. Burada “yoğunluk eşiği” fikri devreye girer: Gözlem noktası, veri setinin temel dağılımında belirli bir yoğunluk eşiğinden daha düşükse anormal, yüksekse normal sayılır.
Pratikte “yoğunluk eşiği nasıl seçilmeli, referans dağılım nedir” gibi sorular çıkar. Genelde, veri üretici dağılımı (gerçek dağılım) bilinmez; ek olarak bir “referans dağılım” tanımlanır ve bir eşik belirlenir. Bu eşik altındaki yoğunluk, anomaliyi tanımlar. Makalede, bu yaklaşımın ikili sınıflandırma problemine dönüştürülmesi ve performans ölçümü açısından sunduğu avantajlar anlatılır.
Öncelikle hedefi şöyle tanımlayalım: “Veri setindeki düşük yoğunluklu bölgeleri saptamak.” Bir eşik değeri olsun; veri dağılımının o eşik üstünde olduğu noktalar normal, altında olduğu noktalar anormal. Yalnız bu dağılımı doğrudan bilmediğimiz için, ancak elimizde kısmen “normal” veri var (çoğu zaman etiketsiz) ve harici bir referans dağılım seçiyoruz. Böylece:
Bu sayede bir sınıflandırma problemi tanımlanır. Normalin (+1) ve anormalin (-1) nasıl ayrıldığı, referans dağılımdan çekilen yapay negatif örneklerle öğrenilir. Ardından, bir test verisi geldiğinde, “modelin +1 mi -1 mi dediği” sorulur. Bu yaklaşımın en kritik avantajı, ikili sınıflandırma hatası gibi bir performans ölçütü kullanabilmesidir. Bu ölçüt, anomali tespitinde “simetrik fark” ile benzer sonuçlar verir, ama hesaplaması çok daha kolaydır.
Destek Vektör Makineleri (SVM), klasik olarak etiketli veri (pozitif/negatif) üzerinden çalışan bir yöntemdir. Anomali tespitinde bu yaklaşımı kullanmak için şu strateji önerilir:
Böylece SVM’in standard formülüne benzer, ancak “referans veri”den gelen hatanın da hesaba katıldığı bir kayıp fonksiyonu ortaya çıkar. Bu yönteme makalede “DLD–SVM” (yoğunluk seviyesi tespiti için SVM) denir. En önemli sonuç, DLD–SVM’in evrensel tutarlılık (universal consistency) göstermesidir. Yani veri boyutu ve sayı arttıkça, uygun çekirdek (kernel) seçimiyle, gerçek yoğunluk eşiğine asimptotik olarak yakın sonuçlar üretir.
Yapay negatif örnek ekleme, anomali tespitinde bilinen sezgisel bir çözümdür. Fakat bu makale, o sezgisel fikri ikili sınıflandırma çerçevesinde ele alarak, matematiksel olarak gerekçelendirir. Bir sınıflandırma hatası fonksiyonu minimize edildiğinde, “düşük yoğunluk” bölgelerini (-1) olarak öğrenmek, “yüksek yoğunluk” bölgelerini (+1) olarak öğrenmekle eşdeğer hâle gelir.
DLD–SVM yöntemini şu dört yöntemle karşılaştırabiliriz:
Üç farklı veri senaryosu denenir. Performans ölçümü, ikili sınıflandırma riski olarak hesaplanır. Kısa özet:
Gerçek bir bilgisayar ağından toplanan 12 boyutlu özelliklerle yapılır. Burada MGML ve DLD–SVM genellikle en iyi veya yakın sonuçlar verir. GML ve One-Class SVM ise daha yüksek risk gözlemlenir. One-Class SVM’in, yine düşük eşik değerlerinde hata oranı belirgin derecede yüksektir.
“Yoğunluk düşükse anormal” varsayımının, anomali tespitini net bir çerçeveye oturttuğu ve “ikili sınıflandırma” arayüzü sunarak hesaplanabilir performans metrikleri elde etmemizi sağladığı vurgulanır. Bu çerçeve sayesinde:
Eğer verinin gerçek dağılımı tam Gauss veya Gauss karışımı gibi klasik varsayımlara uyuyorsa GML ve MGML çok güçlüdür. Fakat veri daha karmaşıksa, DLD–SVM veya benzeri “yoğunluk eşiği + sınıflandırma” yöntemleri daha avantajlı olabilir.
Gizli sınıflandırma problemine (etiketler var ama gözlemlenmiyor) de değinilir. “+1 = normal, -1 = anormal” şeklinde veri gerçekte ayrılıyorsa, bu DLD yaklaşımıyla kestirilebilir. Fakat referans dağılım ve eşik seçiminin model hatasına yol açabileceği not edilir, yani anomali tespiti her zaman gizli sınıflandırmayla tam örtüşmez.
Bu çalışma, anomali tespitini “yoğunluk eşiği” üzerinden tanımlayıp, bu tanımı ikili sınıflandırma bakışına taşıyarak hem kuramsal (tutarlılık, risk eşitliği vb.) hem pratik (performans ölçümü, parameter tuning) açılardan önemli kazanımlar elde etmiştir. Ana fikir, “pozitif örnekler gerçek veri, negatif örnekler referans dağılım” ve bunların ağırlıklandırılmış kaybının minimize edilmesiyle anomali algısı kurulmasıdır.
“Yoğunluk Seviyesi Tespiti için SVM” (DLD–SVM), bu yaklaşımın somut bir örneğidir ve deneylerde sıklıkla geleneksel yöntemlerle benzer veya daha iyi performans sergiler. Diğer yöntemlerle karşılaştırıldığında, özellikle veri dağılımı Gauss varsayımına tam uymadığında DLD–SVM daha avantajlı olabilmektedir. Sonuç olarak, bu bakış açısı “yapay negatif veri ekleme” sezgisinin kuramsal temelini sağlamlaştırmakta, anomali tespitine daha sistematik bir yaklaşım sunmaktadır.
Tüm soru, öneri ve görüşleriniz için İletişim linkini kullanabilirsiniz.