ADBench Anomali Tespiti Karşılaştırması

ADBench Anomali Tespiti Karşılaştırması
Yayınlama: 18.12.2024
Düzenleme: 23.12.2024 10:49
45
A+
A-

Anomali Tespiti Karşılaştırması

Bu makale, anomali tespiti alanındaki mevcut yöntemlerin kapsamlı bir karşılaştırmasını yapmayı amaçlayan geniş çaplı bir benchmark olan ADBench’i tanıtmaktadır.Anomali tespiti (AD), çeşitli gerçek dünya uygulamalarında kritik rol oynayan bir problemdir. Uygulama alanları arasında sahtecilik tespiti, siber güvenlik, sağlık alanında nadir hastalıkların saptanması, endüstriyel süreçlerde arıza tespiti gibi sayısız örnek bulunur. Son birkaç on yılda pek çok anomali tespit algoritması geliştirilmiş, ancak bu yöntemlerin farklı denetim seviyeleri, farklı anomali tipleri ve gürültü ile bozulmuş veriler altındaki performans karşılaştırmaları eksik kalmıştır. Bu çalışmanın temel amacı, 30 farklı algoritmayı 57 farklı veri kümesi üzerinde test ederek bu soruları yanıtlamak; ayrıca bu değerlendirme sonucunda, hangi yöntemlerin hangi koşullar altında daha iyi olduğu ve gelecekte hangi araştırma yönlerine odaklanılabileceği konusunda çıkarımlar sağlamaktır.

Anomali tespiti, “outlier detection” olarak da bilinen, veri topluluklarında nadir ve beklenmedik örneklerin tanımlanması problemidir. Bu problem, bankacılıkta kara para aklama tespiti, sağlıkta nadir hastalık tanısı, sosyal medyada sahte hesapların belirlenmesi, ağ güvenliğinde saldırı tespiti gibi pek çok alanda önemlidir. Yıllar içinde çok sayıda anomali tespit algoritması geliştirilmiştir. Özellikle tabular (yapısal) veri üzerinde çalışan yöntemler oldukça yaygındır. Ancak literatürdeki mevcut karşılaştırma çalışmaları genellikle yalnızca gözetimsiz (unsupervised) yöntemlere odaklanmakta, yarı-gözetimli (semi-supervised) veya tamamen gözetimli (supervised) yöntemleri ihmal etmekte, ayrıca farklı anomali tiplerinin veya veri gürültüsünün etkilerini kapsamlı bir şekilde ele almamaktadır.

ADBench adlı bu yeni benchmark, anomali tespitini daha bütüncül bir şekilde değerlendirmeyi hedefler. Çalışma, 30 algoritmanın 57 veri kümesindeki performanslarını incelerken, üç ana eksene yoğunlaşır:

  1. Denetim Seviyesi: Veri etiketlerinin bulunabilirliği, tam yokluk (gözetimsiz), kısmi varlık (yarı-gözetimli) veya tam varlık (gözetimli) durumunda algoritmalar nasıl bir performans sergiler?
  2. Anomali Tipleri: Verilerdeki anomali türleri (örneğin lokal, global, bağımlılık temelli veya kümelenmiş anomaliler) yöntemlerin başarısını nasıl etkiler?
  3. Gürültü ve Bozulma Dayanıklılığı: Veri etiketlerinde hata, tekrar eden anomaliler veya anlamsız (irrelevant) özellikler gibi bozucu etkiler altında hangi yöntemler daha dayanıklıdır?

Bu boyutlar, hem araştırma hem de endüstriyel uygulamaların ihtiyaçları doğrultusunda seçilmiştir. Çalışma sonunda elde edilen sonuçlar, alanda bir rehber niteliğindedir. Araştırmacılar, yeni bir yöntem önerirken kapsamlı ve adil bir karşılaştırma yapmak için ADBench’i kullanabilecek; uygulamacılar ise kendi verilerinin özelliklerine göre hangi yöntemin daha uygun olacağını ADBench sonuçlarına bakarak değerlendirebileceklerdir.

İlgili Çalışmalar

Anomali tespiti alanında yüzlerce algoritma ve onlarca benchmark çalışması mevcuttur. Ancak mevcut çalışmaların çoğu şu sınırlılıklara sahiptir:

  • Sadece gözetimsiz yöntemlerin test edilmesi: Yarı veya tam gözetimli yöntemler genellikle dahil edilmez.
  • Anomali tiplerine yeterince odaklanılmaması: Genellikle gerçek veri kümelerinde karma tipte anomaliler bulunur, bu da yöntemlerin hangi tip anomalilere yatkın olduğunu anlamayı zorlaştırır.
  • Gürültü ve veri bozulmalarının etkisine bakılmaması: Uygulamada etiket hataları, tekrarlayan anomaliler veya anlamsız özelliklerin varlığı sıkça görülür.
  • İstatiksel testlerin eksikliği: Algoritmalar arasındaki farkların tesadüfi mi yoksa anlamlı mı olduğu genellikle detaylı istatistiksel testlerle sorgulanmaz.
  • Daha karmaşık alanlardan (NLP, CV) türetilen verilerin eksikliği: Çoğu benchmark sadece basit tabular verilerle sınırlıdır.

ADBench, bu eksiklikleri gidermeye odaklanır. Hem gözetimsiz, yarı-gözetimli hem de gözetimli yöntemleri içerir, anomali tiplerine ve veri bozulmalarına odaklanır, daha büyük ve karmaşık veri kümelerini dahil eder, ayrıca istatistiksel testler kullanarak sonuçları analiz eder.

ADBench: Tasarım ve Kapsam

Temel Kavramlar ve Problem Tanımı

Gözetimsiz senaryoda elimizde n adet örnekten oluşan X veri seti vardır (X ∈ IRn×d). Hedef, bir anomali tespit modeli M’in her örnek için bir skor (outlier skoru) üretmesidir. Gözetimli senaryoda ayrıca y etiketleri (normal mi anormal mi) bulunur. Yarı-gözetimli senaryoda sadece kısmi etiketlere erişilir. Her üç durumda da asıl amaç, yeni gelecek örnekler (Xtest) üzerinde anomali skorları üretmektir.

30 Algoritma ve 57 Veri Kümesi

ADBench, literatürde kullanılan neredeyse tüm popüler algoritmaları içerir. 14 gözetimsiz, 7 yarı-gözetimli, 9 gözetimli yöntem değerlendirilir. Gözetimsiz yöntemler arasında OCSVM, LOF, KNN gibi klasik; DeepSVDD, DAGMM gibi derin öğrenme tabanlı yaklaşımlar vardır. Yarı-gözetimli yöntemler olarak DevNet, DeepSAD vb.; gözetimli bölümde ise Random Forest, LightGBM, XGBoost, CatBoost, ResNet, FTTransformer gibi geniş yelpazede yöntemler test edilir.

Veri kümeleri olarak 47’si mevcut literatürden alınmış, 10’u bu çalışmada sunulan toplam 57 veri kümesi kullanılır. Bu veri kümeleri arasında basit tabular veri kümelerinden CV (görüntü) ve NLP (metin) alanlarından elde edilmiş, gömülü (embedding) temsillerle tabular formata dönüştürülmüş daha karmaşık örnekler de vardır. Bu sayede sadece basit değil, daha büyük ve zor veri senaryolarında da yöntemlerin performansı gözlemlenebilir.

Karşılaştırma Açıları

ADBench üç ana eksende karşılaştırma yapar:

1. Denetim Seviyeleri

Gerçek uygulamalarda tamamen etiketli veriye erişmek her zaman mümkün değildir. Bu nedenle üç durum incelenir:

  • Gözetimsiz: Hiç etiket yok. Bu senaryoda geleneksel yöntemler ve derin öğrenme tabanlı yaklaşımlar test edilir.
  • Yarı-Gözetimli: Az sayıda anomali etiketi kullanılır (%1’den %100’e kadar değişen oranlarda), bu sayede çok az etiketle yüksek başarı yakalanıp yakalanamayacağı anlaşılır.
  • Gözetimli: Tüm örnekler etiketlidir. Bu ideal durumun performansa etkisi değerlendirilir.

2. Anomali Tipleri

Farklı anomali tipleri:

  • Lokal Anomaliler: Sadece yakın komşularına göre aykırı olan örneklerdir. Örneğin bir veri noktasının çevresi normal fakat kendisi hafif sapmışsa.
  • Küresel (Global) Anomaliler: Tüm veri dağılımından önemli ölçüde uzaklaşan örneklerdir.
  • Bağımlılık Tabanlı Anomaliler: Öznitelikler arasındaki ilişkileri bozan, yani normalde var olan bağımlılık yapılarını ihlal eden anomalilerdir.
  • Kümelenmiş (Clustered) Anomaliler: Bir grup halinde normalden ayrışan, ancak kendi içinde benzerliğini koruyan anomalilerdir.

Bu tipleri anlamak, hangi yöntemin hangi tipe karşı daha iyi performans gösterdiğini anlamamızı sağlar.

3. Gürültü ve Veri Bozulmaları

Gerçek uygulamalarda veriler mükemmel değildir. ADBench aşağıdaki bozucu senaryoları inceler:

  • Tekrarlanan (Duplicated) Anomaliler: Aynı anomali örneğinin birden çok kopyası veri setinde yer alabilir. Bu durum kimi yöntemlerin varsayımlarını çökertir.
  • Anlamsız Özellikler (Irrelevant Features): Veriye gürültülü, konu dışı öznitelikler eklenerek yöntemlerin bunlarla başa çıkma yeteneği test edilir.
  • Etiket Hataları (Annotation Errors): Kısıtlı da olsa mevcut etiketlerde hatalar olabilir. Bu hataların model performansı üzerindeki etkisi ölçülür.

Deney Sonuçları ve Analizler

Toplamda 98,436 deney yapılarak şu sorulara yanıt aranır:

  1. Soru 1: Farklı denetim seviyelerinde (gözetimsiz, yarı-gözetimli, gözetimli) algoritmaların performansı nasıldır?
  2. Soru 2: Farklı anomali tipleri altında hangi algoritmalar avantajlıdır?
  3. Soru 3: Gürültü ve bozulmaya dayanıklılık açısından hangi yöntemler öne çıkar?

Değerlendirmeler AUC-ROC ve AUPR gibi metriklerle yapılır. Ayrıca algoritmalar arasında istatistiksel farkları test etmek için Wilcoxon-Holm tabanlı kritik fark diyagramları kullanılır.

Denetim Seviyelerinin Etkisi

Gözetimsiz Yöntemler: 57 veri kümesi üzerinde test edilen gözetimsiz yöntemlerin sonuçları gösterir ki hiçbiri istatistiksel olarak diğerlerinden belirgin şekilde üstün değil. Derin öğrenme tabanlı gözetimsiz yöntemler (örneğin DeepSVDD, DAGMM) beklendiği kadar iyi performans göstermemiştir. Bu, gözetimsiz senaryoda çok sayıda hiperparametrenin ayarlanmasının zor olabileceğini gösterir.

Yarı-Gözetimli Yöntemler: Küçük oranda etiketli anomali (örn. %1) bile gözetimsiz yöntemlere kıyasla önemli bir avantaj sağlayabilir. Örneğin sadece %1 etiketli anomali içeren yarı-gözetimli yöntemler, gözetimsiz yöntemlerden genellikle daha iyidir. Bu da sınırlı etiket bilgisiyle dahi modele kılavuzluk etmenin, performansı anlamlı şekilde yükselttiğini gösterir.

Gözetimli Yöntemler: Tam etiketli senaryoda, beklendiği üzere, gözetimli yöntemler yüksek performans sergiler. Ancak az etiket olduğunda, gözetimli yöntemler yarı-gözetimli yöntemlerden geride kalabilir. Bu, gözetimli yöntemlerin genellikle daha fazla etikete ihtiyaç duyduğunu, yarı-gözetimli yöntemlerin ise az etiketten bile iyi faydalanabildiğini gösterir.

Ensemble ve Transformer Tabanlı Yöntemler: Etiket bilgisi varsa, karar ağaçları tabanlı topluluk yöntemleri (XGBoost, LightGBM, CatBoost) ve FTTransformer gibi yeni mimariler oldukça başarılıdır. Bu da modern ensemble ve Transformer yapılarına dayalı yöntemlerin anomali tespitinde büyük potansiyele sahip olduğunu gösterir.

Anomali Tiplerine Göre Performans

Farklı anomali tipleri için özel deneyler yapılmıştır. Ortaya çıkan sonuçlar:

  • Lokal Anomaliler: LOF (Local Outlier Factor) bu tür anomalilerde istatistiksel olarak en iyi performansı göstermiştir. İlginç biçimde, yarı veya tam gözetimli yöntemler, az etiket olduğunda bile LOF kadar iyi olamayabilir. Bu, lokal anomalilerin anlaşılması ve tespiti için özel “yerel yoğunluk” varsayımlarının güçlü olduğunu gösterir.
  • Küresel (Global) Anomaliler: KNN tabanlı yöntemler, global anomalileri yakalamakta iyidir. Burada yine gözetimli ya da yarı-gözetimli olmak her zaman daha iyi değil; çünkü KNN’in basit global uzaklık varsayımı bu tür anomalileri etkili biçimde saptamaya yetiyor.
  • Bağımlılık Tabanlı Anomaliler: Burada da yine KNN iyi sonuç verir. Gözetimli veya yarı-gözetimli yöntemler beklenenin altında kalabilir, zira az sayıda etiket bu tip karmaşık bağımlılık ihlallerini tam temsil edemeyebilir.
  • Kümelenmiş Anomaliler: Bu tipte, yarı veya tam gözetimli yöntemler bazı durumlarda en iyi gözetimsiz yöntemden daha iyi performans sunabilir. Çünkü kümelenmiş anomaliler benzer özellikler taşır ve az da olsa etiket sayesinde bu benzerlik yakalanabilir.

Sonuç olarak, anomali tipleri yaklaşım seçimini önemli ölçüde etkiler. Belirli bir tip anomalinin yoğunlukla bulunduğu bir senaryoda, bu tip anomalileri “varsayımsız” şekilde iyi yakalayan bir gözetimsiz yöntem, az etiketli yarı-gözetimli bir yöntemden daha iyi olabilir. Bu da anomali tiplerini bilmenin, yöntem seçimini şekillendirmede kritik olduğunu ortaya koyar.

Gürültü ve Veri Bozulmasına Dayanıklılık

Gerçek dünyada veri çoğu zaman mükemmel değildir. Tekrarlanan anomaliler, anlamsız özellikler veya etiket hataları performansı düşürebilir. ADBench bu durumları simüle edip hangi yöntemlerin daha dayanıklı olduğunu incelemiştir:

  • Tekrarlanan Anomaliler: Gözetimsiz yöntemler bu durumdan en çok zarar görür. Çünkü varsayılan beklenti anomali oranının düşük olmasıdır. Tekrarlanan anomaliler normal-anomali dengesini değiştirerek gözetimsiz yöntemleri sarsar. Buna karşın yarı ve tam gözetimli yöntemler, etiket bilgisi sayesinde bu duruma dayanıklı çıkar. Yarı veya tam gözetimli yöntemler, anomalilerin tekrarlanması durumunda bile performansını büyük ölçüde korur.
  • Anlamsız Özellikler (Irrelevant Features): Gözetimsiz ve yarı-gözetimli yöntemler, veriye eklenen anlamsız özelliklerden daha fazla etkilenir. Tam gözetimli yöntemler ise etiket bilgisi sayesinde özellik seçiminde başarılı davranır ve gürültülü özelliklere rağmen daha az performans kaybeder. Bu, tam etiketli senaryonun öznitelik seçimi ve genelleştirme konularında avantaj sağladığını gösterir.
  • Etiket Hataları (Annotation Errors): Yarı ve tam gözetimli yöntemler küçük orandaki etiket hatalarına karşı genellikle dayanıklıdır. Ancak etiket hataları %50 gibi aşırı seviyelere ulaştığında performansları da ciddi şekilde düşer. Yine de, pratikte küçük oranda etiket hatalarının kaçınılmaz olduğu varsayıldığında, bu yöntemler bu hatalarla başa çıkabilecek esnekliğe sahiptir.

Geleceğe Yönelik Öneriler

ADBench sonuçları ışığında gelecekteki araştırmalara dair şu öneriler sunulabilir:

1. Gözetimsiz Yöntemlerin Değerlendirmesi, Seçimi ve Tasarımı

Hiçbir gözetimsiz yöntem tüm durumlarda bariz şekilde üstün değil. Bu, yöntem seçiminin veri yapısına, anomali tipine ve koşullara göre uyarlanması gerektiğini gösterir. Gelecekteki çalışmalar, otomatik yöntem seçimi (metodoloji seçimi), veri ön işleme veya kendine özgü veri artırma stratejilerine odaklanabilir. Kendini denetleme (self-supervision) ve aktarım öğrenmesi gibi stratejilerle gözetimsiz yöntemlerin geliştirilmesi de gündeme gelebilir.

2. Yarı-Gözetimli Öğrenmenin Potansiyeli

Az sayıda etiketin bile gözetimsiz yöntemlerden daha iyi performans verdiği görülmüştür. Bu, yarı-gözetimli öğrenmede ilerlemeye alan sağlar. Ayrıca modern mimariler (Transformer, topluluk ağaç yapıları) bu senaryoda etkili olabilir. Gelecekte, hem etiket bilgisi az hem de anomali tipleri belirsiz olduğunda yarı-gözetimli yöntemlerin esnekliğinden yararlanmak mantıklı olacaktır.

3. Anomali Tiplerinin Rolü

Farklı anomali tipleri için en iyi performansı veren farklı yöntemler mevcuttur. Örneğin, lokal anomalilerde LOF mükemmelken kümelenmiş anomalilerde yarı-gözetimli bazı yöntemler öne çıkar. Bu durum, veri setine veya probleme özgü anomali tipleri hakkında ön bilgimizin (domain knowledge) ne kadar değerli olduğunu vurgular. Gelecekte, belirli anomali tiplerini hedefleyen özelleştirilmiş yöntemlerin veya çeşitli tipleri bir arada ele alan karma yaklaşımların geliştirilmesi yararlı olabilir.

4. Gürültüye Dayanıklı Yöntemler Geliştirme

Tekrarlanan anomaliler, anlamsız özellikler veya etiket hataları sıkça rastlanan problemler. Yarı ve tam gözetimli yöntemlerin bu durumlarda daha dayanıklı olması, etiket bilgisinin rehberliğinin önemini gösterir. Gelecekteki çalışmalar, gözetimsiz yöntemlere de bazı gürültü azaltıcı mekanizmalar entegre edebilir, ya da yarı-gözetimli yöntemlerde daha gelişmiş düzenlileştirme (regularization) stratejileri kullanabilir. Transfer öğrenmesi ve domain adaptasyonu da veri gürültüsüne karşı dayanıklılık artırıcı yönler olarak araştırılabilir.

Özet

Bu makalede tanıtılan ADBench, anomali tespiti alanında gerçekleştirilen en kapsamlı kıyaslama çalışmasıdır. 30 algoritma, 57 veri kümesi ve sayısız deneyle üç temel eksen boyunca karşılaştırma yapmıştır: denetim seviyesi, anomali tipleri ve veri bozulmalarına karşı dayanıklılık. Elde edilen sonuçlar, özetle şu çıkarımları sunar:

  • Gözetimsiz yöntemler: Aralarında bariz bir üstünlük yok, ancak belirli koşullarda (belirli anomali tipleri) bazıları diğerlerine göre daha iyi.
  • Yarı-gözetimli yöntemler: Çok az etiket bile gözetimsiz yöntemlere karşı avantaj sağlar. Bu, gerçek dünya uygulamalarında sınırlı etiket bulunan durumlarda dahi büyük yarar sağlayabilir.
  • Gözetimli yöntemler: Tam etiketler mevcudiyetinde yüksek performans sağlar, ancak sınırlı etiket senaryolarında yarı-gözetimli yöntemler daha etkilidir.
  • Anomali tiplerinin önemi: Veri setindeki anomali tipini bilmek veya tahmin etmek, yöntem seçiminde kritik rol oynar.
  • Gürültü ve dayanıklılık: Yarı ve tam gözetimli yöntemler veri bozulmalarına karşı daha sağlam, gözetimsiz yöntemler özellikle tekrarlanan anomalilerle sarsılabilir.

Gelecekteki çalışmaların yönleri şunlar olabilir: (i) büyük ölçekli veri setlerinde otomatik model seçimi, (ii) veri artırma veya transfer öğrenmesi ile gözetimsiz yöntemlerin güçlendirilmesi, (iii) yarı-gözetimli yöntemlerin farklı anomali tiplerine göre özelleştirilmesi, (iv) gürültüye dayanıklı yöntemlerin tasarımı, ve (v) karmaşık veri tiplerinde (örneğin grafik, zaman serisi, görsel ve metinsel veriler) benzer kapsamlı benchmarkların geliştirilmesi.

ADBench, araştırmacı ve uygulamacılara açık kaynaklı bir çerçeve sağlayarak yeni yöntemlerin adil ve kapsamlı değerlendirmesini mümkün kılmaktadır. Böylece anomali tespiti alanında veriye, probleme ve koşullara göre daha doğru yöntem seçimleri yapılabilecek, ilerleyen yıllarda geliştirilecek yöntemler ADBench gibi açık test ortamlarında kıyaslanarak güvenilir ilerlemeler sağlanacaktır.

Özet Tablo

AlgoritmaGözetim TipiYaklaşımGüçlü YanlarZayıf Yanlar
LOF (Local Outlier Factor)GözetimsizYerel yoğunluk tabanlıLokal anomalileri çok iyi yakalarDiğer anomali tiplerinde ve gürültülü veride performans düşebilir
KNN tabanlı yöntemlerGözetimsizKüresel uzaklık ölçümüGlobal anomalileri tespit etmede güçlüBağımlılık ihlali, kümelenmiş anomalilerde zayıf
OCSVMGözetimsizÇekirdek tabanlı sınır belirlemeDüşük boyutlarda güçlü, genel bir yaklaşımHiperparametre ayarlama zor, farklı veri tiplerinde istikrarsız
DeepSVDD, DAGMMGözetimsiz (Derin öğrenme)Temsiliyet öğrenme, derin ağlarYüksek boyutlu veride potansiyel güçlü temsilHiperparametre ayarlamaya duyarlı, pratikte genellikle daha düşük performans
DevNet, DeepSADYarı-GözetimliAz sayıda etiketli anomaliden öğrenmeÇok az etiketle bile performans artışıEtiketler hatalı olduğunda veya çok azsa performans dalgalanabilir
XGBOD (XGBoost tabanlı)Yarı-GözetimliTopluluk + az etiketAz etiketle iyi genelleme, farklı anomali tiplerine uyumYüksek hesaplama maliyeti
ResNet, FTTransformerGözetimli / Yarı-GözetimliModern derin mimariler (CV/NLP’den uyarlama)Az etiketle iyi performans, karmaşık veri temsiliUzun eğitim süresi, büyük veri gereksinimi
Random Forest, LightGBM, XGBoost, CatBoostGözetimliTopluluk (ensemble) öğrenme, ağaç tabanlıIrrelevant özelliklere, tekrarlanan anomalilere daha dayanıklı, az etiketle dahi güçlüHesaplama maliyeti yüksek olabilir, tamamen etiketlere bağımlı

Yazarlar Hakkında

ADBench projesi, Şanghay Finans ve Ekonomi Üniversitesi (SUFE) ile Carnegie Mellon Üniversitesi (CMU) araştırmacılarının ortak çalışmasıdır. Proje, SUFE’den Minqi Jiang ve CMU’dan Yue Zhao ile Xiyang Hu tarafından tasarlanmış ve yürütülmüştür. Bu araştırmacılar, tabular veriler için anomali tespiti (PyOD), zaman serisi (TODS) ve grafik verileri (PyGOD) için anomali tespiti kütüphanelerinin yazarlarıdır. Proje ayrıca SUFE’den Chaochuan Hou tarafından da sürdürülmektedir. Kaynak kod ve detaylar: https://github.com/Minqi824/ADBench.