Anomali Tespitinde Sınıflandırma

Anomali Tespitinde Sınıflandırma
Yayınlama: 21.12.2024
Düzenleme: 08.01.2025 11:11
16
A+
A-

Anomali Tespitinde Sınıflandırma

Bu metinde, verideki olağan dışı gözlemlerin yoğunluk temelli bir bakış açısıyla nasıl tespit edilebileceğini ve bu görevin, ikili sınıflandırma problemlerine benzer biçimde çözülebileceğini özetleyeceğiz. Yaklaşımın temelinde, “anomaliler seyrek olaylardır” varsayımı yer almaktadır. Diğer bir deyişle, eğer bir gözlem noktası, veri setini üreten asıl dağılımın belirli bir yoğunluk eşiğinin altında kalıyorsa “anormal” olarak kabul edilir.

Anomali Tespitinde Sınıflandırma
Anomali Tespitinde Sınıflandırma

1. Anomali Tespitinde Sınıflandırma Giriş

Anomali veya “yenilik” tespiti, birçok sektörde önemli bir rol oynar. Örneğin:

  • Endüstriyel sistemlerde: Makine sensör verilerinde beklenmedik titreşim artışı veya ısı değişikliği, olası arızalara işaret eder.
  • Tıbbi veri analizinde: Bazı nadir hastalık belirtilerini gösteren sıra dışı kayıtlar, erken teşhis için kritik olabilir.
  • Siber güvenlik: Ağ trafiğinde normal davranışın dışına çıkan veri noktaları potansiyel saldırıları yansıtabilir.
  • Finans ve sahtekarlık tespiti: Kredi kartı işlemleri arasında beklenmedik büyüklükte veya sıklıkta bir hareket, hileli işlem ihtimalini akla getirir.

Bu tarz durumlarda genellikle eldeki veri, çoğunlukla “normal” durumları temsil eder. Anormal olaylar çok seyrektir ve bunlara dair etiketli veri bulmak zordur. Dolayısıyla, “anomalilerin ne olduğunu” dolaylı biçimde belirlememiz gerekir. Burada “yoğunluk eşiği” fikri devreye girer: Gözlem noktası, veri setinin temel dağılımında belirli bir yoğunluk eşiğinden daha düşükse anormal, yüksekse normal sayılır.

Pratikte “yoğunluk eşiği nasıl seçilmeli, referans dağılım nedir” gibi sorular çıkar. Genelde, veri üretici dağılımı (gerçek dağılım) bilinmez; ek olarak bir “referans dağılım” tanımlanır ve bir eşik belirlenir. Bu eşik altındaki yoğunluk, anomaliyi tanımlar. Makalede, bu yaklaşımın ikili sınıflandırma problemine dönüştürülmesi ve performans ölçümü açısından sunduğu avantajlar anlatılır.


2. Anomali Tespitinde Sınıflandırma Yoğunluk Seviyesi ve İkili Sınıflandırma İlişkisi

Öncelikle hedefi şöyle tanımlayalım: “Veri setindeki düşük yoğunluklu bölgeleri saptamak.” Bir eşik değeri olsun; veri dağılımının o eşik üstünde olduğu noktalar normal, altında olduğu noktalar anormal. Yalnız bu dağılımı doğrudan bilmediğimiz için, ancak elimizde kısmen “normal” veri var (çoğu zaman etiketsiz) ve harici bir referans dağılım seçiyoruz. Böylece:

  • Asıl veri (normal olduğu varsayılan) pozitif etiketli kabul edilebilir.
  • Referans dağılımdan çekilen (kurgusal, yapay) örnekler negatif etiketli kabul edilebilir.

Bu sayede bir sınıflandırma problemi tanımlanır. Normalin (+1) ve anormalin (-1) nasıl ayrıldığı, referans dağılımdan çekilen yapay negatif örneklerle öğrenilir. Ardından, bir test verisi geldiğinde, “modelin +1 mi -1 mi dediği” sorulur. Bu yaklaşımın en kritik avantajı, ikili sınıflandırma hatası gibi bir performans ölçütü kullanabilmesidir. Bu ölçüt, anomali tespitinde “simetrik fark” ile benzer sonuçlar verir, ama hesaplaması çok daha kolaydır.


3. Anomali Tespitinde Sınıflandırma Yoğunluk Seviyesi Tespiti İçin Destek Vektör Makineleri

Destek Vektör Makineleri (SVM), klasik olarak etiketli veri (pozitif/negatif) üzerinden çalışan bir yöntemdir. Anomali tespitinde bu yaklaşımı kullanmak için şu strateji önerilir:

  1. Gerçek veri dağılımından alınan örnekler +1 etiketi alır (yani bunlar normal kabul edilir).
  2. Referans dağılımdan çekilen yapay örnekler -1 etiketi alır (yani anormal potansiyel). Bu örnekler, eşik ve diğer parametreler ile ağırlıklandırılır.

Böylece SVM’in standard formülüne benzer, ancak “referans veri”den gelen hatanın da hesaba katıldığı bir kayıp fonksiyonu ortaya çıkar. Bu yönteme makalede “DLD–SVM” (yoğunluk seviyesi tespiti için SVM) denir. En önemli sonuç, DLD–SVM’in evrensel tutarlılık (universal consistency) göstermesidir. Yani veri boyutu ve sayı arttıkça, uygun çekirdek (kernel) seçimiyle, gerçek yoğunluk eşiğine asimptotik olarak yakın sonuçlar üretir.

Anomali Tespitinde Sınıflandırma Yapay Veri Eklemenin Teorik Dayanağı

Yapay negatif örnek ekleme, anomali tespitinde bilinen sezgisel bir çözümdür. Fakat bu makale, o sezgisel fikri ikili sınıflandırma çerçevesinde ele alarak, matematiksel olarak gerekçelendirir. Bir sınıflandırma hatası fonksiyonu minimize edildiğinde, “düşük yoğunluk” bölgelerini (-1) olarak öğrenmek, “yüksek yoğunluk” bölgelerini (+1) olarak öğrenmekle eşdeğer hâle gelir.


4. Anomali Tespitinde Sınıflandırma Deney Sonuçları (Sentetik ve Gerçek Veri)

DLD–SVM yöntemini şu dört yöntemle karşılaştırabiliriz:

  1. DLD–SVM
  2. One-Class SVM
  3. Gaussian Maksimum Olabilirlik (GML)
  4. Gauss Karışımı Maksimum Olabilirlik (MGML)

Üç farklı veri senaryosu denenir. Performans ölçümü, ikili sınıflandırma riski olarak hesaplanır. Kısa özet:

4.1. Anomali Tespitinde Sınıflandırma Sentetik Veri (Tek Tepe ve Çift Tepe)

  • Tek tepe (Gaussian benzeri): GML (tam Gauss varsayımı) en iyi sonuçlara ulaşır. DLD–SVM, çoğu zaman ikinci sırada. One-Class SVM küçük eşiğe (normal seti geniş tutmak istediğinde) hassastır ve başarımı düşer.
  • Çift tepe (Gauss karışımı) : Karışım Gauss varsayan MGML daha avantajlıdır. Yine DLD–SVM iyi sonuçlar verir. GML ve One-Class SVM daha geridedir.

4.2. Anomali Tespitinde Sınıflandırma Siber Güvenlik Verisi

Gerçek bir bilgisayar ağından toplanan 12 boyutlu özelliklerle yapılır. Burada MGML ve DLD–SVM genellikle en iyi veya yakın sonuçlar verir. GML ve One-Class SVM ise daha yüksek risk gözlemlenir. One-Class SVM’in, yine düşük eşik değerlerinde hata oranı belirgin derecede yüksektir.


5. Tartışma ve Son Değerlendirme

“Yoğunluk düşükse anormal” varsayımının, anomali tespitini net bir çerçeveye oturttuğu ve “ikili sınıflandırma” arayüzü sunarak hesaplanabilir performans metrikleri elde etmemizi sağladığı vurgulanır. Bu çerçeve sayesinde:

  • Empirik risk tabanlı değerlendirme, anomali tespiti yöntemlerini objektif karşılaştırmak için uygundur.
  • SVM gibi sınıflandırma algoritmaları kullanılarak “evrensel tutarlılık” analizleri yapılabilir. Ayrıca büyük veri senaryolarında parametre seçimi, çekirdek seçimi gibi süreçler bilinen sınıflandırma yöntemleriyle paralel yürütülebilir.
  • One-Class SVM’e kıyasla DLD–SVM, referans dağılım seçimine olanak tanıdığı için genellikle daha esnek ve bazı senaryolarda daha iyi sonuçlu olabilir. Ancak referans dağılımın doğru seçilmesi gerekir; aksi takdirde model hatası ortaya çıkar.

Eğer verinin gerçek dağılımı tam Gauss veya Gauss karışımı gibi klasik varsayımlara uyuyorsa GML ve MGML çok güçlüdür. Fakat veri daha karmaşıksa, DLD–SVM veya benzeri “yoğunluk eşiği + sınıflandırma” yöntemleri daha avantajlı olabilir.

Gizli Sınıflandırma İlişkisi

Gizli sınıflandırma problemine (etiketler var ama gözlemlenmiyor) de değinilir. “+1 = normal, -1 = anormal” şeklinde veri gerçekte ayrılıyorsa, bu DLD yaklaşımıyla kestirilebilir. Fakat referans dağılım ve eşik seçiminin model hatasına yol açabileceği not edilir, yani anomali tespiti her zaman gizli sınıflandırmayla tam örtüşmez.

Bu çalışma, anomali tespitini “yoğunluk eşiği” üzerinden tanımlayıp, bu tanımı ikili sınıflandırma bakışına taşıyarak hem kuramsal (tutarlılık, risk eşitliği vb.) hem pratik (performans ölçümü, parameter tuning) açılardan önemli kazanımlar elde etmiştir. Ana fikir, “pozitif örnekler gerçek veri, negatif örnekler referans dağılım” ve bunların ağırlıklandırılmış kaybının minimize edilmesiyle anomali algısı kurulmasıdır.

“Yoğunluk Seviyesi Tespiti için SVM” (DLD–SVM), bu yaklaşımın somut bir örneğidir ve deneylerde sıklıkla geleneksel yöntemlerle benzer veya daha iyi performans sergiler. Diğer yöntemlerle karşılaştırıldığında, özellikle veri dağılımı Gauss varsayımına tam uymadığında DLD–SVM daha avantajlı olabilmektedir. Sonuç olarak, bu bakış açısı “yapay negatif veri ekleme” sezgisinin kuramsal temelini sağlamlaştırmakta, anomali tespitine daha sistematik bir yaklaşım sunmaktadır.

© 2024 Tüm Hakları Saklıdır. Aior.com Tarafından yapılmıştır.

Tüm soru, öneri ve görüşleriniz için İletişim linkini kullanabilirsiniz.