Bu makale, anomali tespiti alanındaki mevcut yöntemlerin kapsamlı bir karşılaştırmasını yapmayı amaçlayan geniş çaplı bir benchmark olan ADBench’i tanıtmaktadır.Anomali tespiti (AD), çeşitli gerçek dünya uygulamalarında kritik rol oynayan bir problemdir. Uygulama alanları arasında sahtecilik tespiti, siber güvenlik, sağlık alanında nadir hastalıkların saptanması, endüstriyel süreçlerde arıza tespiti gibi sayısız örnek bulunur. Son birkaç on yılda pek çok anomali tespit algoritması geliştirilmiş, ancak bu yöntemlerin farklı denetim seviyeleri, farklı anomali tipleri ve gürültü ile bozulmuş veriler altındaki performans karşılaştırmaları eksik kalmıştır. Bu çalışmanın temel amacı, 30 farklı algoritmayı 57 farklı veri kümesi üzerinde test ederek bu soruları yanıtlamak; ayrıca bu değerlendirme sonucunda, hangi yöntemlerin hangi koşullar altında daha iyi olduğu ve gelecekte hangi araştırma yönlerine odaklanılabileceği konusunda çıkarımlar sağlamaktır.
Anomali tespiti, “outlier detection” olarak da bilinen, veri topluluklarında nadir ve beklenmedik örneklerin tanımlanması problemidir. Bu problem, bankacılıkta kara para aklama tespiti, sağlıkta nadir hastalık tanısı, sosyal medyada sahte hesapların belirlenmesi, ağ güvenliğinde saldırı tespiti gibi pek çok alanda önemlidir. Yıllar içinde çok sayıda anomali tespit algoritması geliştirilmiştir. Özellikle tabular (yapısal) veri üzerinde çalışan yöntemler oldukça yaygındır. Ancak literatürdeki mevcut karşılaştırma çalışmaları genellikle yalnızca gözetimsiz (unsupervised) yöntemlere odaklanmakta, yarı-gözetimli (semi-supervised) veya tamamen gözetimli (supervised) yöntemleri ihmal etmekte, ayrıca farklı anomali tiplerinin veya veri gürültüsünün etkilerini kapsamlı bir şekilde ele almamaktadır.
ADBench adlı bu yeni benchmark, anomali tespitini daha bütüncül bir şekilde değerlendirmeyi hedefler. Çalışma, 30 algoritmanın 57 veri kümesindeki performanslarını incelerken, üç ana eksene yoğunlaşır:
Bu boyutlar, hem araştırma hem de endüstriyel uygulamaların ihtiyaçları doğrultusunda seçilmiştir. Çalışma sonunda elde edilen sonuçlar, alanda bir rehber niteliğindedir. Araştırmacılar, yeni bir yöntem önerirken kapsamlı ve adil bir karşılaştırma yapmak için ADBench’i kullanabilecek; uygulamacılar ise kendi verilerinin özelliklerine göre hangi yöntemin daha uygun olacağını ADBench sonuçlarına bakarak değerlendirebileceklerdir.
Anomali tespiti alanında yüzlerce algoritma ve onlarca benchmark çalışması mevcuttur. Ancak mevcut çalışmaların çoğu şu sınırlılıklara sahiptir:
ADBench, bu eksiklikleri gidermeye odaklanır. Hem gözetimsiz, yarı-gözetimli hem de gözetimli yöntemleri içerir, anomali tiplerine ve veri bozulmalarına odaklanır, daha büyük ve karmaşık veri kümelerini dahil eder, ayrıca istatistiksel testler kullanarak sonuçları analiz eder.
Gözetimsiz senaryoda elimizde n adet örnekten oluşan X veri seti vardır (X ∈ IRn×d). Hedef, bir anomali tespit modeli M’in her örnek için bir skor (outlier skoru) üretmesidir. Gözetimli senaryoda ayrıca y etiketleri (normal mi anormal mi) bulunur. Yarı-gözetimli senaryoda sadece kısmi etiketlere erişilir. Her üç durumda da asıl amaç, yeni gelecek örnekler (Xtest) üzerinde anomali skorları üretmektir.
ADBench, literatürde kullanılan neredeyse tüm popüler algoritmaları içerir. 14 gözetimsiz, 7 yarı-gözetimli, 9 gözetimli yöntem değerlendirilir. Gözetimsiz yöntemler arasında OCSVM, LOF, KNN gibi klasik; DeepSVDD, DAGMM gibi derin öğrenme tabanlı yaklaşımlar vardır. Yarı-gözetimli yöntemler olarak DevNet, DeepSAD vb.; gözetimli bölümde ise Random Forest, LightGBM, XGBoost, CatBoost, ResNet, FTTransformer gibi geniş yelpazede yöntemler test edilir.
Veri kümeleri olarak 47’si mevcut literatürden alınmış, 10’u bu çalışmada sunulan toplam 57 veri kümesi kullanılır. Bu veri kümeleri arasında basit tabular veri kümelerinden CV (görüntü) ve NLP (metin) alanlarından elde edilmiş, gömülü (embedding) temsillerle tabular formata dönüştürülmüş daha karmaşık örnekler de vardır. Bu sayede sadece basit değil, daha büyük ve zor veri senaryolarında da yöntemlerin performansı gözlemlenebilir.
ADBench üç ana eksende karşılaştırma yapar:
Gerçek uygulamalarda tamamen etiketli veriye erişmek her zaman mümkün değildir. Bu nedenle üç durum incelenir:
Farklı anomali tipleri:
Bu tipleri anlamak, hangi yöntemin hangi tipe karşı daha iyi performans gösterdiğini anlamamızı sağlar.
Gerçek uygulamalarda veriler mükemmel değildir. ADBench aşağıdaki bozucu senaryoları inceler:
Toplamda 98,436 deney yapılarak şu sorulara yanıt aranır:
Değerlendirmeler AUC-ROC ve AUPR gibi metriklerle yapılır. Ayrıca algoritmalar arasında istatistiksel farkları test etmek için Wilcoxon-Holm tabanlı kritik fark diyagramları kullanılır.
Gözetimsiz Yöntemler: 57 veri kümesi üzerinde test edilen gözetimsiz yöntemlerin sonuçları gösterir ki hiçbiri istatistiksel olarak diğerlerinden belirgin şekilde üstün değil. Derin öğrenme tabanlı gözetimsiz yöntemler (örneğin DeepSVDD, DAGMM) beklendiği kadar iyi performans göstermemiştir. Bu, gözetimsiz senaryoda çok sayıda hiperparametrenin ayarlanmasının zor olabileceğini gösterir.
Yarı-Gözetimli Yöntemler: Küçük oranda etiketli anomali (örn. %1) bile gözetimsiz yöntemlere kıyasla önemli bir avantaj sağlayabilir. Örneğin sadece %1 etiketli anomali içeren yarı-gözetimli yöntemler, gözetimsiz yöntemlerden genellikle daha iyidir. Bu da sınırlı etiket bilgisiyle dahi modele kılavuzluk etmenin, performansı anlamlı şekilde yükselttiğini gösterir.
Gözetimli Yöntemler: Tam etiketli senaryoda, beklendiği üzere, gözetimli yöntemler yüksek performans sergiler. Ancak az etiket olduğunda, gözetimli yöntemler yarı-gözetimli yöntemlerden geride kalabilir. Bu, gözetimli yöntemlerin genellikle daha fazla etikete ihtiyaç duyduğunu, yarı-gözetimli yöntemlerin ise az etiketten bile iyi faydalanabildiğini gösterir.
Ensemble ve Transformer Tabanlı Yöntemler: Etiket bilgisi varsa, karar ağaçları tabanlı topluluk yöntemleri (XGBoost, LightGBM, CatBoost) ve FTTransformer gibi yeni mimariler oldukça başarılıdır. Bu da modern ensemble ve Transformer yapılarına dayalı yöntemlerin anomali tespitinde büyük potansiyele sahip olduğunu gösterir.
Farklı anomali tipleri için özel deneyler yapılmıştır. Ortaya çıkan sonuçlar:
Sonuç olarak, anomali tipleri yaklaşım seçimini önemli ölçüde etkiler. Belirli bir tip anomalinin yoğunlukla bulunduğu bir senaryoda, bu tip anomalileri “varsayımsız” şekilde iyi yakalayan bir gözetimsiz yöntem, az etiketli yarı-gözetimli bir yöntemden daha iyi olabilir. Bu da anomali tiplerini bilmenin, yöntem seçimini şekillendirmede kritik olduğunu ortaya koyar.
Gerçek dünyada veri çoğu zaman mükemmel değildir. Tekrarlanan anomaliler, anlamsız özellikler veya etiket hataları performansı düşürebilir. ADBench bu durumları simüle edip hangi yöntemlerin daha dayanıklı olduğunu incelemiştir:
ADBench sonuçları ışığında gelecekteki araştırmalara dair şu öneriler sunulabilir:
Hiçbir gözetimsiz yöntem tüm durumlarda bariz şekilde üstün değil. Bu, yöntem seçiminin veri yapısına, anomali tipine ve koşullara göre uyarlanması gerektiğini gösterir. Gelecekteki çalışmalar, otomatik yöntem seçimi (metodoloji seçimi), veri ön işleme veya kendine özgü veri artırma stratejilerine odaklanabilir. Kendini denetleme (self-supervision) ve aktarım öğrenmesi gibi stratejilerle gözetimsiz yöntemlerin geliştirilmesi de gündeme gelebilir.
Az sayıda etiketin bile gözetimsiz yöntemlerden daha iyi performans verdiği görülmüştür. Bu, yarı-gözetimli öğrenmede ilerlemeye alan sağlar. Ayrıca modern mimariler (Transformer, topluluk ağaç yapıları) bu senaryoda etkili olabilir. Gelecekte, hem etiket bilgisi az hem de anomali tipleri belirsiz olduğunda yarı-gözetimli yöntemlerin esnekliğinden yararlanmak mantıklı olacaktır.
Farklı anomali tipleri için en iyi performansı veren farklı yöntemler mevcuttur. Örneğin, lokal anomalilerde LOF mükemmelken kümelenmiş anomalilerde yarı-gözetimli bazı yöntemler öne çıkar. Bu durum, veri setine veya probleme özgü anomali tipleri hakkında ön bilgimizin (domain knowledge) ne kadar değerli olduğunu vurgular. Gelecekte, belirli anomali tiplerini hedefleyen özelleştirilmiş yöntemlerin veya çeşitli tipleri bir arada ele alan karma yaklaşımların geliştirilmesi yararlı olabilir.
Tekrarlanan anomaliler, anlamsız özellikler veya etiket hataları sıkça rastlanan problemler. Yarı ve tam gözetimli yöntemlerin bu durumlarda daha dayanıklı olması, etiket bilgisinin rehberliğinin önemini gösterir. Gelecekteki çalışmalar, gözetimsiz yöntemlere de bazı gürültü azaltıcı mekanizmalar entegre edebilir, ya da yarı-gözetimli yöntemlerde daha gelişmiş düzenlileştirme (regularization) stratejileri kullanabilir. Transfer öğrenmesi ve domain adaptasyonu da veri gürültüsüne karşı dayanıklılık artırıcı yönler olarak araştırılabilir.
Bu makalede tanıtılan ADBench, anomali tespiti alanında gerçekleştirilen en kapsamlı kıyaslama çalışmasıdır. 30 algoritma, 57 veri kümesi ve sayısız deneyle üç temel eksen boyunca karşılaştırma yapmıştır: denetim seviyesi, anomali tipleri ve veri bozulmalarına karşı dayanıklılık. Elde edilen sonuçlar, özetle şu çıkarımları sunar:
Gelecekteki çalışmaların yönleri şunlar olabilir: (i) büyük ölçekli veri setlerinde otomatik model seçimi, (ii) veri artırma veya transfer öğrenmesi ile gözetimsiz yöntemlerin güçlendirilmesi, (iii) yarı-gözetimli yöntemlerin farklı anomali tiplerine göre özelleştirilmesi, (iv) gürültüye dayanıklı yöntemlerin tasarımı, ve (v) karmaşık veri tiplerinde (örneğin grafik, zaman serisi, görsel ve metinsel veriler) benzer kapsamlı benchmarkların geliştirilmesi.
ADBench, araştırmacı ve uygulamacılara açık kaynaklı bir çerçeve sağlayarak yeni yöntemlerin adil ve kapsamlı değerlendirmesini mümkün kılmaktadır. Böylece anomali tespiti alanında veriye, probleme ve koşullara göre daha doğru yöntem seçimleri yapılabilecek, ilerleyen yıllarda geliştirilecek yöntemler ADBench gibi açık test ortamlarında kıyaslanarak güvenilir ilerlemeler sağlanacaktır.
Algoritma | Gözetim Tipi | Yaklaşım | Güçlü Yanlar | Zayıf Yanlar |
---|---|---|---|---|
LOF (Local Outlier Factor) | Gözetimsiz | Yerel yoğunluk tabanlı | Lokal anomalileri çok iyi yakalar | Diğer anomali tiplerinde ve gürültülü veride performans düşebilir |
KNN tabanlı yöntemler | Gözetimsiz | Küresel uzaklık ölçümü | Global anomalileri tespit etmede güçlü | Bağımlılık ihlali, kümelenmiş anomalilerde zayıf |
OCSVM | Gözetimsiz | Çekirdek tabanlı sınır belirleme | Düşük boyutlarda güçlü, genel bir yaklaşım | Hiperparametre ayarlama zor, farklı veri tiplerinde istikrarsız |
DeepSVDD, DAGMM | Gözetimsiz (Derin öğrenme) | Temsiliyet öğrenme, derin ağlar | Yüksek boyutlu veride potansiyel güçlü temsil | Hiperparametre ayarlamaya duyarlı, pratikte genellikle daha düşük performans |
DevNet, DeepSAD | Yarı-Gözetimli | Az sayıda etiketli anomaliden öğrenme | Çok az etiketle bile performans artışı | Etiketler hatalı olduğunda veya çok azsa performans dalgalanabilir |
XGBOD (XGBoost tabanlı) | Yarı-Gözetimli | Topluluk + az etiket | Az etiketle iyi genelleme, farklı anomali tiplerine uyum | Yüksek hesaplama maliyeti |
ResNet, FTTransformer | Gözetimli / Yarı-Gözetimli | Modern derin mimariler (CV/NLP’den uyarlama) | Az etiketle iyi performans, karmaşık veri temsili | Uzun eğitim süresi, büyük veri gereksinimi |
Random Forest, LightGBM, XGBoost, CatBoost | Gözetimli | Topluluk (ensemble) öğrenme, ağaç tabanlı | Irrelevant özelliklere, tekrarlanan anomalilere daha dayanıklı, az etiketle dahi güçlü | Hesaplama maliyeti yüksek olabilir, tamamen etiketlere bağımlı |
ADBench projesi, Şanghay Finans ve Ekonomi Üniversitesi (SUFE) ile Carnegie Mellon Üniversitesi (CMU) araştırmacılarının ortak çalışmasıdır. Proje, SUFE’den Minqi Jiang ve CMU’dan Yue Zhao ile Xiyang Hu tarafından tasarlanmış ve yürütülmüştür. Bu araştırmacılar, tabular veriler için anomali tespiti (PyOD), zaman serisi (TODS) ve grafik verileri (PyGOD) için anomali tespiti kütüphanelerinin yazarlarıdır. Proje ayrıca SUFE’den Chaochuan Hou tarafından da sürdürülmektedir. Kaynak kod ve detaylar: https://github.com/Minqi824/ADBench.