Erkennen Sie Phishing und Web Scraping

Erkennen Sie Phishing und Web Scraping

Leider ist Phishing profitabel, schwer zu erkennen und relativ einfach durchzuführen. Angesichts der sich weltweit beschleunigenden digitalen Transformationen wird Phishing ein anhaltendes explosives Wachstum erfahren.

Laut Phishlabs stieg die Zahl der Phishing-Versuche im ersten Quartal 2021 um fast 50 %. Es gibt auch keinen Grund zu glauben, dass es aufhören wird zu steigen.

Dies bedeutet höhere digitale Schäden und Risiken. Um einer solchen Zunahme entgegenzuwirken, müssen neue Phishing-Erkennungsansätze getestet oder verbessert werden. Eine Möglichkeit, bestehende Ansätze zu verbessern, ist die Verwendung von Web Scraping.

Identitätsdiebstahl

Phisher hätten es schwer, die ursprüngliche Website vollständig zu replizieren. Alle URLs identisch platzieren, Bilder replizieren, Domain-Alter backen etc. es würde mehr Anstrengung erfordern, als die meisten Menschen bereit wären, aufzuwenden.

Außerdem hätte ein perfekter Spoof wahrscheinlich eine geringere Erfolgsquote, da das Ziel möglicherweise verloren geht (durch Klicken auf eine nicht verwandte URL). Schließlich müssen Sie, wie bei jedem anderen Betrug, nicht jeden täuschen, sodass die perfekte Nachbildung in den meisten Fällen vergebliche Mühe wäre.

Allerdings sind Phisher nicht dumm. Oder zumindest diejenigen, die es nicht tun. Sie geben stets ihr Bestes, um mit möglichst geringem Aufwand eine glaubwürdige Nachbildung zu erstellen. Gegen Technikbegeisterte mag es nicht wirksam sein, aber selbst eine perfekte Nachbildung ist gegen Misstrauen möglicherweise nicht wirksam. Kurz gesagt geht es beim Phishing darum, „gut genug“ zu sein.

Aufgrund der Art des Geschäfts gibt es daher immer ein oder zwei offensichtliche Lücken zu entdecken. Zwei gute Einstiegsmöglichkeiten bestehen darin, nach Ähnlichkeiten zwischen häufig gehackten Websites (z. B. Fintech, SaaS usw.) und mutmaßlichen Phishing-Websites zu suchen oder bekannte Angriffsmuster und Fortschritte von dort zu sammeln.

Leider ist die Lösung des Problems angesichts der Menge an Phishing-Websites, die täglich auftauchen und sich an weniger technisch versierte Personen richten sollen, möglicherweise nicht so einfach, wie es scheint. Die Antwort lautet natürlich, wie so oft, Automatisierung.

Phishing-Suche

Im Laufe der Jahre wurden weitere Methoden entwickelt. Ein Übersichtsartikel von ScienceDirect aus dem Jahr 2018 listet URL-basierte Erkennung, Layouterkennung und inhaltsbasierte Erkennung auf. Erstere hinken Phishern oft hinterher, da Datenbanken langsamer aktualisiert werden als neue Websites erscheinen. Die Layouterkennung beruht auf menschlicher Heuristik und ist daher störanfälliger. Die inhaltsbasierte Erkennung ist rechenintensiv.

Wir werden der Layouterkennung und der inhaltsbasierten Erkennung etwas mehr Aufmerksamkeit schenken, da dies komplizierte Prozesse sind, die stark vom Web Scraping profitieren. Damals schuf eine Gruppe von Forschern ein Framework zur Erkennung von Phishing-Websites namens CANTINA. Es war ein inhaltsbewusster Ansatz, der Daten wie TF-IDF-Verhältnisse, Domain-Alter, verdächtige URLs, Satzzeichenmissbrauch und mehr überprüfte. Die Studie wurde jedoch 2007 veröffentlicht, als die Möglichkeiten zur Automatisierung begrenzt waren.

Web Scraping kann das Framework deutlich verbessern. Anstatt manuell zu versuchen, Ausreißer zu finden, können automatisierte Anwendungen Websites crawlen und relevante Inhalte von ihnen herunterladen. Aus den Inhalten können wichtige Details wie die oben beschriebenen extrahiert, analysiert und bewertet werden.

ein Netzwerk aufbauen

CANTINA, das von den Forschern entwickelt wurde, hatte einen Nachteil: Es wurde nur verwendet, um eine Hypothese zu testen. Für diese Zwecke wurde eine Datenbank legitimer und Phishing-Websites zusammengestellt. Der Zustand beider war a priori bekannt.

Solche Methoden eignen sich zum Testen einer Hypothese. Sie sind in der Praxis nicht so gut, wenn wir den Zustand der Websites nicht im Voraus kennen. Die praktische Anwendung von CANTINA-ähnlichen Projekten würde einen erheblichen manuellen Aufwand erfordern. Irgendwann würden diese Anwendungen nicht mehr als „praktisch“ gelten.

Theoretisch scheint jedoch die inhaltsbasierte Erkennung ein starker Anwärter zu sein. Phishing-Websites müssen den Inhalt nahezu identisch mit dem Original wiedergeben. Jegliche Ungereimtheiten, wie z. B. falsch platzierte Bilder, Rechtschreibfehler, fehlende Textteile, können Verdacht erregen. Sie können nie zu weit vom Original abweichen, was bedeutet, dass Metriken wie TF-IDF zwangsläufig ähnlich sein müssen.

Die Kehrseite der inhaltsbasierten Erkennung war bisher zeitraubende und teure manuelle Arbeit. Allerdings verlagert Web Scraping den größten Teil des manuellen Aufwands auf die vollständige Automatisierung. Mit anderen Worten, es ermöglicht uns, bestehende Nachweismethoden in einem viel größeren Maßstab einzusetzen.

Erstens, anstatt URLs manuell zu sammeln oder sie aus einer bereits vorhandenen Datenbank zu ziehen, können Sie mit Scraping schnell Ihre eigenen erstellen. Sie können über jegliche Inhalte gesammelt werden, die Hyperlinks oder Links zu diesen sogenannten Phishing-Websites in irgendeiner Weise enthalten.

Zweitens kann ein Scraper eine Sammlung von URLs schneller crawlen als jeder Mensch. Die manuelle Übersicht hat Vorteile, wie z. B. die Möglichkeit, die Struktur und den Inhalt einer Website so zu sehen, wie sie sind, anstatt den rohen HTML-Code zu erhalten.

Visuelle Darstellungen sind jedoch wenig hilfreich, wenn wir mathematische Nachweismethoden wie Bindungstiefe und TF-IDF verwenden. Sie können sogar als Ablenkung dienen und uns aufgrund von Heuristiken von wichtigen Details ablenken.

Die Analyse wird auch zur Detektionsspur. Parser versagen häufig, wenn Design- oder Layoutänderungen auf der Website vorgenommen werden. Wenn auf großen Websites ungewöhnliche Scan-Fehler gegen denselben Prozess auftreten, können diese als Hinweis auf einen Phishing-Versuch dienen.

Letztendlich bringt Web Scraping keine ganz neuen Methoden hervor, zumindest soweit ich weiß, aber es ermöglicht ältere. Es bietet eine Möglichkeit, Methoden zu skalieren, deren Implementierung andernfalls zu teuer wäre.

ein Netz werfen

Mit einer geeigneten Web-Scraping-Infrastruktur kann täglich auf Millionen von Websites zugegriffen werden. Genau wie ein Scraper Quell-HTML sammelt, haben wir alle Textinhalte dort gespeichert, wo wir sie haben wollen. Einige Scans später kann der Klartextinhalt zur Berechnung von TF-IDF verwendet werden. Ein Projekt würde wahrscheinlich damit beginnen, alle wichtigen Metriken von beliebten Phishing-Zielen zu sammeln und mit der Erkennung fortzufahren.

Darüber hinaus gibt es viele interessante Informationen, die wir aus der Quelle extrahieren können. Alle internen Links können besucht und in einem Index gespeichert werden, um eine Darstellung der gesamten Linktiefe zu erstellen.

Es ist möglich, Phishing-Versuche zu erkennen, indem ein Website-Baum durch Indizierung mit einem Web-Crawler erstellt wird. Die meisten Phishing-Websites sind aus den oben genannten Gründen oberflächlich. Andererseits kopieren Phishing-Versuche die Websites etablierter Unternehmen. Diese haben große Bindungstiefen. Die Oberflächlichkeit selbst könnte ein Indikator für einen Phishing-Versuch sein.

Die gesammelten Daten können jedoch verwendet werden, um TF-IDF, Schlüsselwörter, Linktiefe, Domain-Alter usw. mit Metriken von legitimen Websites zu vergleichen. Inkompatibilität wäre eine Quelle des Verdachts.

Es gibt einen Vorbehalt, der „im Handumdrehen“ entschieden werden muss: Welche Differenzspanne muss untersucht werden? Irgendwo muss eine Linie in den Sand gezogen werden, und diese muss, zumindest zunächst, ziemlich willkürlich sein.

Außerdem müssen IP-Adressen und Standorte berücksichtigt werden. Einige Inhalte auf einer Phishing-Website sind möglicherweise nur für IP-Adressen von einem bestimmten geografischen Standort (oder nicht von einem bestimmten geografischen Standort) sichtbar. Das Lösen dieser Probleme ist unter normalen Umständen schwierig, aber Proxys bieten eine einfache Lösung.

Da einem Proxy immer ein Standort und eine IP-Adresse zugeordnet sind, bietet ein ausreichend großer Pool eine globale Abdeckung. Immer wenn eine geografische Sperre auftritt, reicht ein einfacher Proxy-Wechsel aus, um die Hürde zu nehmen.

Schließlich ermöglicht Ihnen das Web Scraping naturgemäß, eine große Menge an Daten zu einem bestimmten Thema zu entdecken. Das meiste davon ist unstrukturiert, was normalerweise durch Analyse behoben wird, und unbeschriftet, was normalerweise von Menschen behoben wird. Strukturierte und gekennzeichnete Daten können eine hervorragende Grundlage für maschinelle Lernmodelle bieten.

Stoppen Sie Phishing

Der Aufbau eines automatisierten Phishing-Detektors durch Web Scraping erzeugt eine Menge Daten, die ausgewertet werden müssen. Einmal ausgewertet, würden die Daten in der Regel ihren Wert verlieren. Wie beim Recycling können diese Informationen jedoch mit einigen Anpassungen wiederverwendet werden.

Modelle für maschinelles Lernen haben den Nachteil, dass große Datenmengen erforderlich sind, um Vorhersagen von akzeptabler Qualität zu treffen. Wenn jedoch Phishing-Erkennungsalgorithmen mit Web Scraping beginnen würden, würde diese Datenmenge natürlich anfallen. Natürlich kann eine Etikettierung erforderlich sein, die einen erheblichen manuellen Aufwand erfordern würde.

Unabhängig davon wären die Informationen bereits strukturiert, um akzeptable Ergebnisse zu erzielen. Obwohl alle Machine-Learning-Modelle Black Boxes sind, sind sie nicht völlig undurchsichtig. Wir können vorhersagen, dass Daten, die auf eine bestimmte Weise strukturiert und gekennzeichnet sind, bestimmte Ergebnisse liefern.

Zur Verdeutlichung könnten Modelle des maschinellen Lernens als Anwendung der Mathematik auf die Physik betrachtet werden. Einige mathematische Modelle scheinen außergewöhnlich gut zu natürlichen Phänomenen wie der Schwerkraft zu passen. Die Gravitationsanziehung kann berechnet werden, indem man die Gravitationskonstante mit der Masse zweier Objekte multipliziert und das Ergebnis durch den Abstand zwischen ihnen im Quadrat dividiert. Wenn wir jedoch nur die erforderlichen Daten kennen würden, würden wir uns keine Vorstellung von der Schwerkraft selbst machen.

Modelle für maschinelles Lernen sind sehr ähnlich. Eine bestimmte Datenstruktur erzeugt die erwarteten Ergebnisse. Es ist jedoch nicht klar, wie diese Modelle zu ihren Vorhersagen kommen. Gleichzeitig ist der Rest in allen Phasen wie erwartet. Der "Black Box"-Charakter beeinträchtigt also, abgesehen von Randfällen, die Ergebnisse nicht wesentlich.

Darüber hinaus scheinen maschinelle Lernmodelle zu den effektivsten Methoden zur Erkennung von Phishing zu gehören. Einige automatisierte Crawler mit ML-Implementierungen könnten laut Springer Link-Forschung eine Genauigkeit von 99 % erreichen.

Die Zukunft des Web Scraping

Web Scraping scheint die perfekte Ergänzung zu allen gängigen Phishing-Lösungen zu sein. Schließlich sind für die meisten Cyber-Sicherheitslösungen viele Daten erforderlich, um die richtigen Schutzentscheidungen zu treffen. Phishing ist nicht anders. Zumindest durch die Linse der Cybersicherheit.

Es scheint eine heilige Dreifaltigkeit in der Cybersicherheit zu geben, die nur darauf wartet, ihr volles Potenzial auszuschöpfen: Analytik, Web Scraping und maschinelles Lernen. Es gab einige Versuche, zwei der drei miteinander zu kombinieren. Ich habe jedoch noch nicht gesehen, dass alle drei ihr volles Potenzial ausgeschöpft haben.