Bu yazı, Özellikle, veri madenciliği, güvenlik ve spam/fraud incelemeleri başta olmak üzere pek çok alanda yaygınlaşan Anomali tespiti probleminde, grafik (veya ağ) bazlı yöntemlerin önemini ve pratik uygulamalarını ortaya koymaktadır.
Veri analizi ve makine öğrenmesi bağlamında Anomali tespiti, “veri kümesindeki çoğunluktan önemli ölçüde sapan veya beklenen davranışa uymayan örnekleri tanımlama” şeklinde ifade edilebilir. Bununla birlikte, gerçek hayatta bu “örnekler” sadece birer tekil nokta (örneğin çok boyutlu bir vektör) olarak değil, sıklıkla birbirleriyle ilişkili objeler olarak karşımıza çıkar. Bu ilişkileri yakalamanın en güçlü yollarından biri, veriyi bir grafik şeklinde temsil etmektir.
Grafik temsili, veri objelerinin (düğümlerin) arasındaki uzun menzilli korelasyonları (kenarlar/bağlantılar) kodlar. Böylece, düğümler arasında gözlemlenen anomaliler (beklenmedik bağlantılar, alt yapıların normalden sapması vb.) makine öğrenmesi, istatistik ve veri madenciliği yaklaşımlarıyla daha kolay veya daha isabetli şekilde bulunabilir. Dahası, bu tür grafik temelli Anomali tespiti yöntemleri, pek çok alanda (siber güvenlik, finans, sosyal medya vb.) işe yarar çözümler sunar. Çoğu zaman bir düğümün veya alt grafın anomaliliği, onun bağlamından (yani ilişkili olduğu komşulardan) bağımsız düşünülemez.
Makalenin temel motivasyonları şu şekildedir:
Bir veri kümesinin grafik temsili yapılırken düğümler, genelde “varlık” (örneğin kullanıcılar, cihazlar, finansal hesaplar) olarak, kenarlar ise “ilişki” veya “etkileşim” (örneğin kullanıcılar arasındaki mesajlaşmalar, finansal hareketler, vb.) şeklinde tanımlanır. Makaledeki odak, bu temsil şekliyle Anomali tespiti süreçlerinin nasıl ele alındığıdır. Ayrıca, tespit edilmiş anomalilerin açıklanması (explanation veya sense-making) yani “anomalinin neden oluştuğu” veya “nasıl açıklanabileceği” soruları da yanıtlanmaya çalışılır.
Statik grafikler, zaman boyutu veya ek güncelleme olmaksızın tek seferde elde edilen “anlık” (snapshot) bir grafik yapısıdır. Bu tür grafiklerde Anomali tespiti genelde düğüm, kenar ve alt yapı (örneğin alt grafik) düzeyinde yapılabilir. Sınıflandırma amaçlı yöntemler (örneğin denetimli veya yarı-denetimli öğrenme) ya da tamamen denetimsiz (örneğin “en beklenmedik” veya “en seyrek” yapıları arayan) yöntemlerle geliştirilebilir.
Makalenin bu kısmında, iki ana yaklaşımdan söz edilmektedir:
Bu yöntemler, düz (plain) grafiklerde geçerli olduğu gibi, ek düğüm veya kenar niteliklerinin (atribütlerin) bulunduğu durumlarda (attributed graphs) da çalışabilir. Attributed grafiklerde, “düğümün komşularıyla nitelik açısından benzerliği” veya “bir topluluktaki çoğunluğun nitelik değerlerine uymayan düğüm” gibi ek kriterler eklenir.
Yapı temelli yaklaşımlar, sık rastlanan alt yapılar ile sıklıkla gözlemlenmeyen (seyrek veya modifikasyona uğramış) alt yapıları kıyaslayarak çalışır. Örneğin, eğer grafikte çokça gözlemlenen bir desen (substructure) varsa, bu desenin “ufak değişiklikle taklit edilmesi” potansiyel bir aldatma girişimini (fraud) temsil edebilir. Subdue (Noble ve Cook) bu bakış açısıyla “en iyi sık alt yapılar”ı bulur ve bunların varyantlarını (az rastlananları) anomali olarak tanımlar.
Topluluk temelli yaklaşımlar, düğümlerin benzer yapısal özelliklerle bir araya geldiği kümeleri (community) bulur. Bir düğümün kendi topluluğu içinde aşırı uçta farklı niteliklere veya bağlanma örüntüsüne sahip olması durumunda anomali olabileceği kabul edilir. Örneğin CODA, hem toplulukları hem de topluluk içi “farklı” düğümleri aynı anda bulur. Böylece, hem normal yapıyı (topluluk dağılımını) hem de normalden sapan noktaları (topluluk anomalileri) yakalamayı hedefler.
Birçok gerçek dünya sistemi (örneğin bilgisayar ağları, sosyal ağlar, telekom ağları) zaman içinde değişen grafikler şeklinde modellenir. Dinamik grafik (veya zaman serisi halinde akan ağ verisi) üzerinde Anomali tespiti, “hangi zaman diliminde veya hangi güncellemelerde önemli bir değişim olduğunu” saptamaya çalışır. Bu değişimler, beklenmeyen bir “olay” (event) olarak nitelendirilebilir.
Bu dinamik senaryo, gerçek zamanlı (real-time) Anomali tespiti için de önemlidir: bir bilgisayar ağına saldırı anını hemen fark etmek veya finans piyasasında manipülasyon olduğunda gecikmeden tespit edebilmek gibi.
Teknik olarak, bir Anomali tespiti algoritması “hangi düğüm/ kenar/ alt yapı anormal” sorusuna cevap verse de, pratikte bu sonucun nedenini veya nasıl bir ilişkiler bütününden kaynaklandığını anlamak da kritik önem taşır. Makalede, bu hedefe ulaşmak için iki ana yaklaşım öne çıkar:
Makalede, çeşitli gerçek dünya senaryosunda Anomali tespiti için grafik temelli tekniklerin başarıyla kullanıldığı gösterilmektedir. Burada, en çok vurgulanan bazı uygulamalar aşağıda listelenmiştir.
Abonelik sahtekarlığı (subscription fraud) gibi durumlar, telekom ağlarında büyük zararlara yol açar. Grafikte düğümler abonelik hesapları, kenarlar ise bu hesaplar arası çağrılar/iletişim olarak ele alınır.Her bir hesabın en çok etkileşimde olduğu alt çevresini takip eder. Eğer iki hesap COI bakımından oldukça örtüşüyorsa ve içlerinden biri dolandırıcı olarak etiketlenmişse, diğeri de yüksek olasılıkla dolandırıcıdır.
Online müzayede (auction) platformlarında sıklıkla “non-delivery” sahtekarlıkları görülür. Düğümler “satıcı, alıcı, ara hesap” şeklinde ayrışırken, kenarlar işlem kayıtlarını gösterir. Relational Markov network (RMN) ve benzeri yapılarla “accomplice” ve “fraudster” rolleri keşfedilmiş; normal hesapların lokal özellikleri taklit edilse de genel ağ yapısında “anormal” kaldıkları anlaşılmıştır.
Muhasebe kayıtlarında veya finansal tablolarda usulsüzlükler “yüksek riskli” hesaplar şeklinde sınıflandırılmak istenir. Relational yaklaşım, bir hesabın komşularının da risk durumunu dikkate alarak tahmin yapar. Böylece, tekil sinyallerin yetersiz kaldığı durumlarda, hesaplar arası ilişkiler yardımıyla daha yüksek tespit oranları elde edilir.
Menkul kıymet brokerlarının geçmiş bağlantılarını (sosyal, profesyonel, kurumsal) bir ağ halinde gösterip, kimlerin sahte işlere meyilli olduğunu tahminlemek için relational dependency networks kullanmıştır. “Word-of-mouth” ile kötü niyetin yayılması veya geçmişte aynı ortamı paylaşmış brokerların benzer şekilde suça bulaşması gibi gerçekçi durumlar grafik modelleriyle etkili biçimde yakalanabilmiştir.
Amazon, Yelp, TripAdvisor gibi platformlarda ürün veya mekanlar hakkında sahte yorumlar (fake reviews) yazarak haksız puan artışı veya rakiplerine düşüş yaşatmak oldukça yaygındır. Kullanıcı-ürün inceleme grafiğindeki düğüm ve kenarları kullanarak, “hype” veya “defame” spamlerini tespit edebilmektedir. Bu tür grafiklerde “kullanıcı –> ürün” bağlantısı aynı zamanda bir “beğeni veya düşük puan” sinyali içerebilir; böylece relational bir model, şüpheli davranışları diğer kullanıcı ve ürün etkileşimleriyle kıyaslayarak yakalar.
Li vd. (2010), bir grup yatırımcının hisseyi yapay şekilde “pump” edip sonra satma (dump) stratejisini, “blackhole” (aşırı hisse toplama) ve “volcano” (aniden yüksek hacimde hisse satma) kalıpları üzerinden açıklamıştır. Bu kalıplar, grafik üzerinde “bir alt kümenin içindeki yoğun yönlü işlemler” ve sonrasında “topluluk dışına doğru yüksek hacimli işlem” olarak görülür. Bu şekilde manipülasyon dedektifliği (manipulation detection) daha net yapılabilir.
Arama motoru sıralamasını haksız yere yükseltmeye çalışan Web spam sayfaları, grafikte “bağlantı referansları”nı manipüle eder. TrustRank (Gygyi vd.) ve Anti-TrustRank gibi yaklaşımlar, az sayıda güvenilen veya bilinen spam sayfadan başlayarak güven/distrust yayma (propagation) işlevi kullanır. Bu sayede, spam toplulukları “çapraz bağlantılar” ile saptanabilir. Benzer biçimde Wu vd. (2006), “hangi sayfa hangisine güveniyor” mantığını link analizle otomatize eder.
Facebook veya Twitter gibi platformlarda, zararlı linkler veya oltalama (phishing) mesajları yayan saldırganlar, “arkadaş” bağlantılarından faydalanır. Gao vd. (2012) gibi çalışmalar, profil benzerlikleri, mesaj içerik benzerlikleri ve grafiğe özgü merkeziyet ölçülerini birleştiren denetimli öğrenme yaklaşımıyla bu saldırıları tespit etmeye çalışır. Alternatif olarak, “yayılma” modeli incelenerek kimlerin “normal paylaşımlardan farklı” biçimde link dağıttığı anlaşılabilir.
Dağıtık hizmet engelleme saldırıları (DDoS), port taraması, kimlik hırsızlığı vb. durumlar sıklıkla büyük ölçekli ağ üzerinde zaman içinde büyüyen grafiklerle izlenir. Bir IP adresinin normal dışı davranışı, sadece kendi trafiğini değil, o IP’nin ilişkili olduğu diğer düğümlerin (IP veya cihaz) davranışlarıyla da kıyaslanarak anlaşılabilir. Bu kapsamda, Idé ve Kashima (2004), zaman boyutunda ana özvektörleri takip ederken, Sun vd. (2008) benzer şekilde CMD (Compact Matrix Decomposition) yaklaşımlarıyla ağın tipik davranışını modeller ve ani sıçramaları alarm olarak yorumlar.
Grafik bazlı Anomali tespiti, veri madenciliğinin en canlı ve uygulanabilir alanlarından biridir. Yüksek etkileşimli veri kümeleri (sosyal medya, finans, siber güvenlik, telekom vb.) göz önüne alındığında, grafikler uzun menzilli ilişkileri temsil ederken saldırılara veya anormal davranışlara karşı ciddi avantajlar sunar. Bununla birlikte, alanda hala çözülmemiş veya kısmen çalışılmış bazı konu başlıkları mevcuttur.
Temel fikir, veri nesnelerinin (düğümlerin) bağımsız olmadığı, aksine çoğunlukla uzun menzilli etkileşimlerle (kenarlarla) birbirine bağlı olduğu gerçeğidir. Grafik bazlı modeller, özellikle hile, spam, siber saldırı gibi vakalarda saldırganın küresel ağ yapısını manipüle etmesini zorlaştırarak daha güçlü bir savunma katmanı sunar.
Ayrıca, anormalliklerin sadece “hangisi anomalidir” sorusuna yanıt vermesi, pratikte çoğu zaman yeterli değildir; “neden, hangi alt yapı ilişkilerine bağlı olarak anormal” sorusunun da yanıtlanması (explanation, sense-making) kritik önem taşır. Bu amaçla makalede, düşük boyutlu ayrıştırma (NrMF gibi), alt topluluk veya komşu sorgusu (Center-Piece Subgraph, Dot2Dot vb.) yaklaşımlarıyla anomalinin insan gözünde net biçimde açıklanabilir duruma gelmesi hedeflenmektedir.
Bütün bu yöntemler incelendiğinde, grafik bazlı Anomali tespiti için kapsamlı bir çerçevenin oluştuğu görülür. Yine de zaman boyutu + atribütler + çoklu ilişkiler (multi-relational) gibi daha karmaşık senaryolarda halen araştırma yapılması gerekir. Teorik ve pratik zorluklar, alanda yeni modellerin ve algoritmaların geliştirilmesine kapı aralamaktadır. Gerçek dünya uygulamalarının çeşitliliği (finans, telekom, sosyal medya, siber güvenlik vb.) ve bu alanlarda toplanan veri miktarının sürekli artışı, grafik temelli yöntemlerin gelecek yıllarda daha da yaygın şekilde kullanılacağının işaretidir.
Özetle, “Graph based anomaly detection and description: a survey” makalesi, Anomali tespiti literatüründe grafiklerin gücünü ve çeşitliliğini ortaya koyan, aynı zamanda yorumlanabilirlik ve pratik uygulamalar bağlamında yol gösteren kapsamlı bir kaynak olma niteliğindedir.