Threat Intelligence

Neue Mimecast-Bedrohungsdaten: Wie ChatGPT E-Mail umkrempelt

Die Forscher von Mimecast haben eine Erkennungsmaschine entwickelt, die anhand einer Mischung aus aktuellen und historischen E-Mails sowie synthetischen, von KI generierten E-Mails zeigt, ob eine Nachricht von Menschen oder von KI generiert wurde.

by Andrew Williams

Apr. 17, 2025

Wichtige Punkte

KI-Tools ermöglichen es Bedrohungsakteuren, gut strukturierte und kontextgenaue E-Mails zu erstellen.
Insgesamt haben generative KI-E-Mails einen ausgefeilten und professionellen Ton, der sie überzeugender macht.
Analysten sollten bei ihren Untersuchungen verstärkt nach Wörtern und Phrasen suchen, die mit generativen KI-Modellen in Verbindung stehen, und nicht nur nach den Absenderinformationen und Nutzdaten.

In den meisten Cybersecurity-Medien nehmen die Verweise auf generative KI nicht nur exponentiell zu, sondern die Veröffentlichungen weisen auch darauf hin, dass sie für böswillige Aktivitäten eingesetzt wird, was potenzielle Auswirkungen auf jedes Unternehmen hat. Bei der Befragung von Mimecast-Bedrohungsforschern für unseren jüngsten Threat Intelligence-Bericht wurden Fragen zur Verbreitung von künstlicher Intelligenz in Phishing-E-Mails gestellt - es konnten jedoch keine Zahlen genannt werden. Dabei blieben Fragen unbeantwortet, wie z. B. die Frage, wie verbreitet dies ist und ob es gemessen werden kann. Unser Data-Science-Team nahm die Herausforderung an, indem es eine Erkennungsmaschine entwickelte, die anhand einer Mischung aus aktuellen und historischen E-Mails sowie synthetischen, von KI generierten E-Mails feststellt, ob eine Nachricht von Menschen oder von KI generiert wurde.

Die Untersuchung deutet auf einen Zeitpunkt hin, an dem wir einen zunehmenden Trend bei KI-generierten E-Mails beobachten können, der mit der Veröffentlichung von ChatGPT korreliert. Wir haben auch bösartige, von KI generierte BEC-, Betrugs- und Phishing-E-Mails beobachtet. Im Endeffekt bedeutet dies, dass Analysten/Sicherheitsteams und Endnutzer die Indikatoren für KI-generierte Inhalte verstehen müssen, die ihnen helfen könnten, diese Angriffe zu erkennen.

Verräterische Anzeichen für KI-generierte E-Mails

ChatGPT hat das KI-gestützte Schreiben von E-Mails für jedermann zugänglich gemacht, sogar für böswillige Akteure, aber das ist nicht das einzige Instrumentarium, das ihnen zur Verfügung steht. In einem früheren Blogbeitrag haben wir einige ihrer generativen KI-Tools vorgestellt. Früher waren solche Tools hauptsächlich für Unternehmen gedacht. Jetzt kann jeder mithilfe von KI gut formulierte E-Mails schreiben, die für verschiedene Situationen geeignet sind. Mit der zunehmenden Verbreitung von KI-generierten Inhalten wird es immer schwieriger, zwischen von Menschen geschriebenem und maschinell generiertem Text zu unterscheiden. Eines der bemerkenswertesten Merkmale von KI-Sprachmodellen ist die Verwendung komplexer Wörter und Satzstrukturen, die ihre Beteiligung am Schreiben verraten können. Forscher der Cornell University fanden heraus, dass KI-Sprachmodelle bestimmte Wörter in wissenschaftlichen Texten bevorzugen. Bei der Analyse von 14 Millionen Artikeln aus den Jahren 2010 bis 2024 stellten sie eine starke Zunahme spezifischer "Stilwörter" nach Ende 2022 fest, als KI-Tools allgemein verfügbar wurden. Zum Beispiel taucht "delves" im Jahr 2024 25 Mal häufiger auf als zuvor. Andere von der KI bevorzugte Wörter sind 'präsentieren', 'unterstreichen' und 'entscheidend'.

Eine Gruppe von Graphen mit Nummern

Beschreibung automatisch erstellt

Woher wir wissen, dass ChatGPT die E-Mail geändert hat

Das Data-Science-Team von Mimecast begann mit der Absicht, ein Modell zu trainieren, das die Unterschiede zwischen von Menschen und KI geschriebenen E-Mails erkennt. Insgesamt wurden über 20.000 E-Mails aus den Daten von Mimecast zusammen mit den von LLM generierten synthetischen Daten - GPT4o von OpenAI, Claude 3.5 Sonnet von Anthropic, Command R+ von Cohere, Jamba Instruct von AI21 und Llama3 von Meta - verwendet. Das erstellte Deep-Learning-Modell ermittelte, aufgrund welcher Merkmale die einzelnen Datenpunkte in Bezug auf die verwendete Sprache entweder von Menschen oder von KI geschrieben wurden. Um sicherzustellen, dass sich unser Modell nicht zu sehr an unsere Trainingsdaten anpasst, sondern gut verallgemeinern kann, haben wir vier Datensätze verwendet:

4.000 E-Mails von Mimecast
2.600 LLM-generierte synthetische Daten
Menschlicher und LLM-Datensatz von Kaggle(Link)
Betrugsdatensatz von Kaggle(Link). Es wird davon ausgegangen, dass alle E-Mails von Menschen geschrieben wurden, da sie vor dem Aufkommen der LLMs gesammelt wurden.

Nach Abschluss des Trainings wurde unserem Modell eine E-Mail nach der anderen gezeigt, und es wurde gebeten, zu bestimmen, ob das Beispiel von einem Menschen oder einer KI geschrieben wurde. Wir haben diese Übung Hunderte von Malen mit verschiedenen E-Mail-Sätzen wiederholt. Wir konnten damit eine Teilmenge von E-Mails analysieren, um vorherzusagen, ob sie von einem Menschen oder einer KI geschrieben wurden. Die Ergebnisse dieser Übung sind in Abbildung 1 zu sehen, die auch die Zunahme von KI-geschriebenen E-Mails zeigt. Es ist wichtig anzumerken, dass das Modell nicht darauf abzielte, bösartige, von KI geschriebene E-Mails zu identifizieren, sondern vielmehr darauf, die Verbreitung von KI abzuschätzen. Vor der Durchführung dieser Studie war bekannt, dass KI-geschriebene Nachrichten gesehen werden, aber wir kannten das Ausmaß nicht.

Abbildung 1 - Von Menschen geschriebene E-Mails im Vergleich zu KI-E-Mails

Wir haben von Januar 2022 bis Juni 2024 monatlich 1000 E-Mails in die Stichprobe aufgenommen. Diese Statistiken zeigen, dass von den 30.000 analysierten E-Mails 2330 von KI geschrieben wurden, was 7,8 % aller E-Mails im Datensatz entspricht. Wichtig ist jedoch, dass das Liniendiagramm nicht nur eine deutliche Zunahme des Einsatzes von KI beim Verfassen von E-Mails zeigt, sondern auch den Rückgang der von Menschen verfassten E-Mails, was mit den Ergebnissen der Veröffentlichungen übereinstimmt. Ob dies auf nicht-englischsprachige Sprecher oder auf den Einsatz von KI als Schreibhilfe zurückzuführen ist, um sie zu verbessern, ist derzeit nicht bekannt.

Beispiele für AI-generierte E-Mails

Bei der Überprüfung der eingereichten Beiträge wurden einige bösartige Beispiele gefunden, die eine auffällige Sprache enthalten.

Beispiel #1 der Gen AI spam Nachricht

Indikatoren:

"beschäftigt sich mit den Feinheiten von", "und navigiert durch die Komplexität von"
Übermäßiger Gebrauch von Kugeln

Beispiel #2 einer Gen AI BEC-Meldung

Indikatoren:

Ich hoffe, diese Nachricht ist für Sie von Nutzen. 
Wiederholung der Wörter "Geschenkkarten" und "Überraschung

Beispiel #3 einer Gen AI BEC Nachricht

Indikatoren:

Hallo!

Beispiel #4 einer Gen AI-Phishing-Nachricht

Indikatoren:

tiefer in die Materie eindringen".
stolperte" oder "stolperte über
Langes '-' wird bei ChatGPT verwendet

Empfehlungen

Diese Ergebnisse deuten darauf hin, dass manuelle Phishing-Untersuchungen weiterhin eine wichtige Schutzmaßnahme darstellen sollten, insbesondere wenn sie von Endbenutzern gemeldet werden. Es ist von entscheidender Bedeutung, dass Bedrohungsforscher die Sprache auf spezifische Marker hin untersuchen, die mit unseren Erkenntnissen übereinstimmen. Indem Sie Indikatoren wie "vertiefen Sie das" oder "Hallo!" mit bekannten Bedrohungsmustern abgleichen, können Sie Phishing-Bedrohungen effektiver identifizieren, die Zeit für die Behebung verkürzen und das Unternehmensrisiko verringern.

Wie immer sollten die Sicherheitsteams sicherstellen, dass ihre Indikatoren mit großen Sprachmodellen und neuen Datensätzen Schritt halten.

Nächster Punkt

Threat Intelligence | Apr. 22, 2025

CVE Program receives funding extension, but concerns remain

Neue Mimecast-Bedrohungsdaten: Wie ChatGPT E-Mail umkrempelt

Wichtige Punkte

Verwandte Artikel

Abonnieren Sie Cyber Resilience Insights für weitere Artikel wie diesen

Anmeldung erfolgreich