Aşağıdaki içerik, Anomali tespiti üzerine makine öğrenmesi yaklaşımlarını ve mevcut durumlarını incelemektedir.
Makine öğrenmesi ile Anomali tespiti çalışmaları, veri bilimi ve siber güvenlikten üretim ve tıp sektörüne kadar pek çok alanda kritik bir yer tutmaktadır. Geniş ölçekli veri analitiği, veri madenciliği ve yapay zekâ çözümlerinin yaygınlaşmasıyla birlikte Anomali tespiti, beklenmeyen veya istenmeyen durumların belirlenmesinde önemli bir rol üstlenmektedir. Anomaliler, genelde veri kümesinde düşük sıklıkta görülen, fakat yüksek önem derecesine sahip olayları ifade eder. Siber saldırıların tespiti, sistemdeki olağandışı davranışların saptanması, tıbbi tanılama süreçlerinde anormal değerlerin bulunması veya finansal işlemlerde sahtekârlığın hızlı şekilde fark edilmesi gibi birçok örnek, Anomali tespiti çabalarının temelini oluşturmaktadır.
Anomali tespiti literatüründe, anomaliler genellikle üç ana kategoriye ayrılır: nokta anomaliler, bağlamsal anomaliler ve kolektif anomaliler. Nokta anomalilerde tek bir veri noktası, geri kalan örneklerden büyük ölçüde farklıdır. Bağlamsal anomalilerde veri, belirli bir bağlama veya koşula göre anormaldir (örneğin mevsime göre beklenen sıcaklık değerinin çok üzerinde veya altında kalması). Kolektif anomalilerde ise tek tek değerlendirildiğinde normal görünen veri noktaları, toplu halde incelendiğinde anormal bir küme oluşturur. Bu, özellikle ağ trafiğinde veya zaman serilerinde bir alt grupta ortaya çıkan, olağandışı tekrar eden kalıplarda gözlemlenebilir.
Geleneksel istatistiksel yöntemler (parametrik, yarı-parametrik, non-parametrik yaklaşımlar) anomalileri belirli varsayımlar altında tanımlanan dağılımlara göre tespit etmeye çalışır. Ancak yüksek boyutlu veriler, karmaşık ilişki yapılarına sahip örnekler ve değişken koşullar altında istatistiksel yöntemler yetersiz kalabilmektedir. Bu noktada makine öğrenmesi yöntemleri devreye girer. Makine öğrenmesi, veri setindeki örüntüleri otomatik olarak keşfetmek ve anormal veri noktalarını tespit etmek amacıyla güçlü bir araç seti sunar.
Anomali tespiti uygulamaları oldukça geniştir. Siber güvenlik, finans, endüstriyel izleme, tıbbi tanılama ve IoT (Nesnelerin İnterneti) gibi alanların yanı sıra ulaşım, perakende ve akıllı şehir altyapıları da anomalilerin saptanması gereken örnekler sunmaktadır. Aşağıda, en sık karşılaşılan uygulama alanlarının bazılarına değinilmektedir.
Bilgisayar ağlarındaki olağandışı paket akışlarının belirlenmesi, saldırı tespiti sistemlerinin (IDS) temelini oluşturur. Gerek denetimli gerekse denetimsiz yaklaşımlar, ağ verisi üzerinde eğitim alarak saldırı sinyallerini normal trafikten ayırmaya çalışır. Örneğin, saldırı anında trafiğin belli portlara yoğunlaşması veya belirli bir IP adresinden anormal sıklıkta paket gelmesi söz konusu olabilir. KDD Cup 1999 veri seti, uzun yıllardır Anomali tespiti testlerinde kullanılan bir referans noktasıdır. Ancak güncelliğini yitirdiği ve yeni saldırı çeşitlerini tam yansıtmadığı yönünde eleştiriler bulunmaktadır.
Kredi kartı işlemleri, sigorta talepleri veya çevrimiçi bankacılık hareketleri arasındaki anormal örneklerin belirlenmesi büyük önem taşır. Yüksek finansal zararların yanı sıra marka itibarının zedelenmesi de söz konusudur. Makine öğrenmesi, çok sayıda işlemi aynı anda analiz ederek olağandışı örüntüleri hızlı şekilde tanımlayabilir. Bu süreçte kimi çalışmalar, gerçek zamanlı (veya yakın gerçek zamanlı) tespit yöntemleri üzerine yoğunlaşır.
Hastaların tıbbi kayıtlarında, sensör verilerinde veya hasta izleme sistemlerinde Anomali tespiti önemli bir yer tutar. Örneğin, kalp ritmi ölçümlerinde anormal dalgalanmaların erken tespiti, potansiyel kalp krizlerini önleyebilir veya diyabet hastalarında beklenmedik kan şekeri dalgalanmaları saptanabilir. Makine öğrenmesi, yüksek boyutlu tıbbi verilerdeki kompleks etkileşimleri anlamakta etkili çözümler sunar.
Üretim hatlarında veya endüstriyel sensör ağlarında toplanan veriler, normal çalışmanın dışına çıkan durumları erken aşamada belirlemeyi sağlar. Arıza veya bakım gereksinimleri, veri analizindeki anomaliler üzerinden önceden tespit edilebilir. IoT cihazlarından gelen akışlar da benzer şekilde Anomali tespiti için zengin bir veri kaynağıdır. Örneğin, sıcaklık veya titreşim değerlerindeki sıradışı sapmalar, potansiyel bir arıza belirtisi olabilir.
Makine öğrenmesi, Anomali tespiti bağlamında çok çeşitli algoritmalar içerir. Bu algoritmalar, ya tek başlarına ya da hibrit modellerde birleştirilerek kullanılabilir.
Anomali tespiti araştırmalarında kullanılan veri setleri, çoğunlukla ağ trafiği analizinde KDD Cup 1999 gibi klasik setlere dayanır. Ancak bu setlerin giderek eskidiği ve güncel tehditleri tam yansıtmadığı konusunda eleştiriler vardır. Gerçek dünyadaki veri setleri (ör. kurumsal ağ kayıtları, tıbbi sensör verileri) genellikle daha karmaşık ve gürültülü olup, modelin gerçek performansını daha iyi yansıtır. Ek olarak UCI gibi genel makine öğrenmesi veri tabanlarından da yararlanılabilir.
Bazı çalışmalar, tek bir metrik (örn. Accuracy) üzerinden sonuç yayımlamakta, bu durum model performansını anlamayı kısmen güçleştirmektedir. Daha bütüncül bir yaklaşım için birden fazla metriğin birlikte raporlanması önerilir. Ek olarak, gerçek zamanlı uygulamalarda işlem süresi, bellek kullanımı ve ölçeklenebilirlik de göz önüne alınır.
Literatürdeki Anomali tespiti çalışmalarında şu eğilimler sıkça raporlanır:
Ancak, sınıflandırma türünü açıkça belirtmeyen veya bulanık hale getiren makaleler de mevcuttur. Bunlarda kullanılan yöntemler, hem denetimli hem de denetimsiz öğeleri barındırabilir.
Bir çalışmada, Anomali tespiti amacıyla KDD Cup 1999 veri seti kullanılmış ve SVM tabanlı bir sınıflandırıcıyla %95’in üzerinde doğruluk elde edilmiştir. Ancak yüksek oranda false positive oranı, pratikte sistem yöneticilerinin iş yükünü artırabilir. Daha yeni çalışmalarda ise gerçek kurumsal veri setleriyle (ör. MAWILab) aynı yöntemler test edilmiş ve sonuçların verinin karmaşıklığına göre farklılık gösterdiği bulunmuştur.
Bir başka örnek olarak, kalp atışı verilerinin sürekli izlendiği giyilebilir sensörlerde Anomali tespiti yapmak üzere LSTM modeli eğitilmiş olabilir. Normal kalp ritmi dalgalanmaları öğrenilerek, beklenmeyen sıçramalar veya durağanlıklar anormal sayılır. Bu sayede potansiyel kalp krizleri ya da çarpıntı durumları erken dönemde sinyallenebilir. Burada kullanılan performans metrikleri arasında Recall değeri yüksek olduğunda, hastaları erken uyarma açısından başarılı sonuç alınabilir.
Son dönemde Anomali tespiti alanında derin öğrenme tekniklerinin yükselişi göze çarpmaktadır. Autoencoder yaklaşımı, veri boyutu ne kadar büyük olursa olsun veriyi sıkıştırma ve yeniden oluşturma üzerinde çalışır, bu sırada elde edilen yeniden oluşturma hatası anomalileri saptamakta kullanılır. Bu yöntemin avantajı, öz niteliklerin el ile seçilmesine gerek kalmamasıdır. Ancak eğitimi uzun sürebilir ve GPU gibi donanım gereksinimleri artabilir.
GAN, bir üretici (generator) ve bir ayrıştırıcı (discriminator) ağdan oluşur. Üretici sahte veri üretmeye, ayrıştırıcı ise gerçek veriyle sahtesini ayırt etmeye çalışır. Bu yarış, veriyi iyi temsil eden bir model oluşmasına yol açar. Anomali tespiti için GAN kullanımı hâlâ görece yeni olsa da, üretici ağın ürettiği veriye karşılık ayrıştırıcının anormal örnekleri tanıma becerisi ilginç sonuçlar ortaya koyar. Örneğin, siber saldırı tespitinde normal trafiği taklit eden sahte örnekler üretmek ve ayrıştırıcının bu sahte örneklerle gerçek örnekler arasındaki farkı öğrenmesiyle anormalliklere duyarlı hale gelmesi amaçlanır.
Özellik seçimi veya boyut indirgeme, Anomali tespiti performansını büyük ölçüde etkileyebilir. PCA, CFS gibi klasik yöntemler sık kullanılırken, derin öğrenme tabanlı otomatik özellik çıkarma (ör. autoencoder’ın katmanları) da yaygınlaşmaktadır. Transfer öğrenmede ise önceden eğitilmiş bir modelin, farklı ama benzer bir veri setine uyarlanması söz konusudur. Bu yaklaşım, veri etiketlerinin az olduğu durumlarda yararlı olabilir. Örneğin, bir siber saldırı veri seti üzerinde eğitilmiş model, başka bir kurumdaki benzer saldırı türlerini tespit etmek için kullanılır. Böylece veri toplama ve etiketleme maliyeti kısmen azalır.
Büyük veri ortamlarında Anomali tespiti, yüksek hacimli ve hızlı akan veri akışları üzerinde gerçek zamanlıya yakın şekilde çalışmayı gerektirir. İleri düzey çerçeveler (örneğin Apache Spark, Flink) veya GPU/FPGA hızlandırmalı sinir ağı mimarileri, ölçeklenebilir ve yüksek hızlı işlemeyi mümkün kılar. Endüstriyel IoT senaryolarında veya finans kurumlarında her gün milyonlarca işlem verisi analiz edilirken, düşük gecikmeyle Anomali tespiti yapmak kritik bir ihtiyaçtır. Ancak bu ortamlar, standart veri seti deneylerinden çok daha karmaşık olabilmektedir. Gerçek zamanlı uygulamalarda false positive oranı düşürülürken, yüksek bir Recall de muhafaza edilmelidir.
Literatürde, bir makine öğrenmesi tekniğinin tek başına Anomali tespiti sorunlarını tamamen çözmesi beklenemez. Yeni araştırmalar çoğu kez hibrit ve özelleştirilmiş model tasarımlarıyla çözüm arar. Örneğin, veri ön işleme aşamasında istatistiksel analiz veya öznitelik seçimi yapılır, ardından denetimsiz bir autoencoder modeliyle veri gömlemesi (embedding) elde edilir, son olarak da bu gömlemeler üzerinde bir SVM veya Random Forest çalıştırılır. Bu tür üç aşamalı bir yaklaşım, farklı katmanlarda veri temizliği ve ölçeklendirme sayesinde son derece başarılı olabilmektedir.
Makine öğrenmesi yöntemleri, Anomali tespiti alanında kritik çözümler sunar. İster siber saldırı tespiti, ister finansal sahtekârlık, isterse endüstriyel sensör verilerinin analizi olsun, yüksek doğruluk, düşük yanlış alarm ve hızlı tepki süresi genellikle temel beklentilerdir. Farklı yaklaşım ve modellerin bir araya getirilmesi (hibrit yöntemler), çok yönlü sorunları çözmek adına popülerlik kazanmıştır. Ancak veri kalitesi, etiketli örneklerin sayısı ve güncelliği gibi faktörler, sistemin başarısını büyük oranda etkiler.
Literatüre bakıldığında, Anomali tespiti sistemlerinin başarısının birçok faktöre bağlı olduğu açıktır. Araştırmacıların ve uygulamacıların göz önünde bulundurması gerekenler şöyle sıralanabilir:
Anomali tespiti bağlamında ileriye dönük araştırma başlıkları şunları içerebilir:
Makine öğrenmesiyle Anomali tespiti, kritik sistemlerin güvenliğini sağlamak, olağandışı davranışları erkenden yakalamak ve verimliliği artırmak açısından giderek önem kazanan bir alandır. Bu yazı, Anomali tespiti çalışmalarının kapsamını, kullanılan yöntemleri ve gelecek yönelimleri 2500+ kelimelik bir özet içinde sunmaktadır. Denetimli, yarı-denetimli ve denetimsiz öğrenme teknikleri, farklı veri türleri (metinsel, zamansal, mekânsal vb.) ve farklı uygulama senaryolarında uygulanmaktadır. Ulaşılmak istenen nihai hedefler arasında yüksek tespit oranı, düşük yanlış alarm ve gerçek zamanlı işleme kapasitesi yer alır.
Literatürde, derin öğrenme yaklaşımları ve hibrit modellerin yükselişi, Anomali tespiti performansını önemli ölçüde ileriye taşımaktadır. Ancak hâlâ çok sayıda zorluk, büyük veri setlerinin elde edilmesi, etiketleme maliyetleri, dinamik veri dağılımları, adversarial saldırılar ve gizlilik kaygıları gibi konularda çözüm beklemektedir. Gelecekte, farklı disiplinlerin bir araya gelmesiyle (ör. siber güvenlik, veri bilimi, istatistik ve domain uzmanlığı) Anomali tespiti alanının daha da güçleneceği öngörülmektedir. Sonuç olarak, bu önemli araştırma sahası, hem akademik dünya hem de endüstri açısından stratejik bir bileşen olmaya devam edecektir.
Tüm soru, öneri ve görüşleriniz için İletişim linkini kullanabilirsiniz.