Dieses große Sprachmodell wurde im Dark Web trainiert, um Cybersicherheitsbedrohungen zu bewerten. Folgendes müssen Sie wissen:
Die Popularität großer Sprachmodelle (LLMs) nimmt rasant zu und es kommen ständig neue hinzu. Diese Modelle, wie ChatGPT, werden typischerweise auf verschiedenen Internetquellen trainiert, darunter Artikel, Websites, Bücher und soziale Medien.
In einem beispiellosen Schritt entwickelte ein Team südkoreanischer Forscher DarkBERT, ein LLM, das auf Datensätzen trainiert wurde, die ausschließlich aus dem Dark Web stammen. Ihr Ziel war es, ein KI-Tool zu entwickeln, das bestehende Sprachmodelle übertrifft und Bedrohungsforscher, Strafverfolgungsbehörden und Cybersicherheitsexperten bei der Bekämpfung von Cyberbedrohungen unterstützt.
Was ist DarkBERT?
DarkBERT ist ein transformatorbasiertes Encodermodell, das auf der RoBERTa-Architektur basiert. Der LLM wurde auf Millionen dunkler Webseiten geschult, darunter Daten aus Hacking-Foren, betrügerischen Websites und anderen Online-Quellen, die mit illegalen Aktivitäten in Verbindung stehen.
Der Begriff „Dark Web“ bezeichnet einen versteckten Internetbereich über Standard-Webbrowser nicht zugänglich. Der Unterabschnitt ist dafür bekannt, anonyme Websites und Marktplätze zu beherbergen, die für illegale Aktivitäten wie den Handel mit gestohlenen Daten, Drogen und Waffen berüchtigt sind.
Um DarkBERT zu trainieren, haben die Forscher gewonnen Zugang zum Dark Web über das Tor-Netzwerk und sammelte Rohdaten. Sie haben diese Daten mithilfe von Techniken wie Deduplizierung, Kategorieausgleich und Vorverarbeitung sorgfältig gefiltert Erstellen einer verfeinerten Dark-Web-Datenbank, die dann im Laufe von etwa 15 Tagen an RoBERTa weitergeleitet wurde DarkBERT.
Mögliche Einsatzmöglichkeiten von DarkBERT in der Cybersicherheit
DarkBERT verfügt über ein bemerkenswertes Verständnis der Sprache von Cyberkriminellen und ist hervorragend darin, spezifische potenzielle Bedrohungen zu erkennen. Es kann das Dark Web recherchieren und Cybersicherheitsbedrohungen wie Datenlecks und Ransomware erfolgreich identifizieren und kennzeichnen, was es zu einem potenziell nützlichen Werkzeug zur Bekämpfung von Cyberbedrohungen macht.
Um die Wirksamkeit von DarkBERT zu bewerten, verglichen die Forscher es mit zwei renommierten NLP-Modellen, BERT und RoBERTa bewertete ihre Leistung in drei entscheidenden Anwendungsfällen im Zusammenhang mit der Cybersicherheit, der Forschung, Veröffentlicht am arxiv.org, zeigt an.
1. Überwachen Sie Dark-Web-Foren auf potenziell schädliche Threads
Die Überwachung von Dark-Web-Foren, die häufig zum Austausch illegaler Informationen genutzt werden, ist von entscheidender Bedeutung, um potenziell gefährliche Threads zu identifizieren. Die manuelle Überprüfung kann jedoch zeitaufwändig sein, weshalb die Automatisierung des Prozesses für Sicherheitsexperten von Vorteil ist.
Die Forscher konzentrierten sich auf potenziell schädliche Aktivitäten in Hacking-Foren und entwickelten Anmerkungsrichtlinien für bemerkenswerte Threads, einschließlich der Weitergabe vertraulicher Daten und der Verbreitung kritischer Malware oder Schwachstellen.
DarkBERT übertraf andere Sprachmodelle in Bezug auf Präzision, Erinnerung und F1-Score und erwies sich als die beste Wahl für die Identifizierung bemerkenswerter Threads im Dark Web.
2. Erkennen Sie Websites, die vertrauliche Informationen hosten
Hacker und Ransomware-Gruppen nutzen das Dark Web, um Leak-Sites zu erstellen, auf denen sie vertrauliche Daten veröffentlichen, die von Organisationen gestohlen wurden, die sich weigern, Lösegeldforderungen nachzukommen. Andere Cyberkriminelle laden geleakte sensible Daten wie Passwörter und Finanzinformationen einfach ins Darknet hoch, mit der Absicht, sie zu verkaufen.
In ihrer Studie sammelten die Forscher Daten von berüchtigte Ransomware-Gruppen und analysierte Ransomware-Leak-Sites, die private Daten von Organisationen veröffentlichen. DarkBERT übertraf andere Sprachmodelle bei der Identifizierung und Klassifizierung solcher Websites und stellte sein Verständnis der Sprache unter Beweis, die in Untergrund-Hacking-Foren im Dark Web verwendet wird.
DarkBERT nutzt die Füllmaskenfunktion, eine inhärente Funktion der Sprachmodelle der BERT-Familie, um Schlüsselwörter im Zusammenhang mit illegalen Aktivitäten, einschließlich Drogenverkäufen im Dark Web, genau zu identifizieren.
Als das Wort „MDMA“ auf einer Drogenverkaufsseite maskiert wurde, generierte DarkBERT drogenbezogene Wörter, während andere Modelle allgemeine Wörter und Begriffe vorschlugen, die nichts mit Drogen zu tun hatten, wie z. B. verschiedene Berufe.
Die Fähigkeit von DarkBERT, Schlüsselwörter im Zusammenhang mit illegalen Aktivitäten zu identifizieren, kann bei der Verfolgung und Bekämpfung neu auftretender Cyber-Bedrohungen hilfreich sein.
Ist DarkBERT für die breite Öffentlichkeit zugänglich?
DarkBERT ist derzeit nicht für die Öffentlichkeit zugänglich, die Forscher sind jedoch offen für Anfragen zur Nutzung für akademische Zwecke.
Nutzen Sie die Leistungsfähigkeit der KI zur Bedrohungserkennung und -prävention
DarkBERT wurde auf Dark-Web-Daten vorab trainiert und übertrifft bestehende Sprachmodelle in mehreren Cybersicherheits-Anwendungsfällen und positioniert sich als entscheidendes Werkzeug für die Weiterentwicklung der Dark-Web-Forschung.
Die im Dark Web trainierte KI kann für verschiedene Cybersicherheitsaufgaben eingesetzt werden, einschließlich der Identifizierung von Websites, die geleakte Produkte verkaufen vertrauliche Daten, Überwachung von Dark-Web-Foren zur Erkennung illegaler Informationsweitergabe und Identifizierung von Schlüsselwörtern im Zusammenhang mit Cyberangriffen Bedrohungen.
Sie sollten jedoch immer bedenken, dass DarkBERT, wie andere LLMs auch, in Arbeit ist und seine Leistung durch kontinuierliches Training und Feinabstimmung verbessert werden kann.