Nils Dohmen • 18.06.2026 | Cybersecurity Trends

Deepfake-Angriffe erkennen: Wie KI Social Engineering verändert

Inhalt

Wenn Vertrauen zur Angriffsfläche wird

Ein Anruf des CEOs mit einer dringenden Zahlungsfreigabe. Eine Videokonferenz mit bekannten Gesichtern. Eine Sprachnachricht eines Kollegen mit der Bitte um schnelle Unterstützung. Lange galten genau diese Kommunikationsformen als vertrauenswürdig. Doch mit dem Fortschritt generativer KI verändert sich die Realität digitaler Kommunikation grundlegend.

Social Engineering entwickelt sich von einzelnen Täuschungsversuchen zu hochpräzisen Angriffskampagnen. Moderne KI-Systeme können Stimmen imitieren, Texte personalisieren und Videoinhalte manipulieren. Damit verschiebt sich die zentrale Herausforderung der Cyber Defense: Technische Systeme werden heutzutage ebenso angegriffen wie menschliche Entscheidungsprozesse.

Für Unternehmen entsteht dadurch ein neues Risikoprofil. Angriffe wirken glaubwürdig, emotional und kontextbezogen. Gleichzeitig sinken die technischen Einstiegshürden für Angreifer kontinuierlich.

Wie moderne Deepfake-Angriffe aufgebaut sind

Moderne Deepfake-Kampagnen folgen häufig klar strukturierten Angriffsketten, die technisch deutlich ausgereifter sind als klassische Phishing-Angriffe. Am Anfang steht fast immer Reconnaissance. Angreifer analysieren öffentlich verfügbare Informationen über Zielpersonen, Kommunikationsstrukturen und interne Prozesse. Besonders wertvoll sind dabei Podcasts, Earnings Calls, Interviews, Konferenzvorträge oder Social-Media-Inhalte. Bereits wenige Sekunden Audiomaterial reichen heute aus, um Stimmen mit modernen Voice-Cloning-Modellen glaubwürdig zu synthetisieren.

Angreifer erstellen aus diesen Daten detaillierte Kommunikationsprofile. KI-Modelle analysieren typische Satzstrukturen, Betonungen, Reaktionsmuster und organisatorische Abläufe. Dadurch wirken spätere Kontaktaufnahmen organisatorisch eingebettet. Moderne Angriffskampagnen kombinieren dabei häufig mehrere Kommunikationskanäle gleichzeitig. Eine initiale E-Mail wird beispielsweise durch Teams-Nachrichten, Videokonferenzen oder Voice-Messages ergänzt. Genau diese Kombination erhöht die Glaubwürdigkeit erheblich.

Technisch kommen dabei häufig mehrere KI-Systeme parallel zum Einsatz. Large Language Models (LLMs) generieren kontextbezogene Kommunikation, Voice-Cloning-Systeme erzeugen synthetische Sprache und generative Videomodelle manipulieren Mimik oder Gesichtsbewegungen in Echtzeit. Die eigentliche Gefahr entsteht jedoch weniger durch einzelne Technologien als durch ihre orchestrierte Kombination innerhalb realistischer Kommunikationssituationen.

Warum klassische Awareness an Grenzen stößt

Viele Security-Awareness-Programme basieren weiterhin auf klassischen Phishing-Szenarien: schlechte Grammatik, auffällige Links oder offensichtliche Täuschungsversuche. Genau diese Muster verschwinden jedoch zunehmend.

KI-generierte Inhalte wirken professionell, sprachlich korrekt und individuell zugeschnitten. Angriffe orientieren sich an realen Kommunikationssituationen und nutzen hierarchischen und zeitlichen Druck gezielt aus.

Hinzu kommt ein struktureller Faktor: Moderne Arbeitsumgebungen setzen auf Geschwindigkeit. Entscheidungen erfolgen remote, hybride Zusammenarbeit nimmt zu und Abstimmungen finden immer häufiger über digitale Kanäle statt. Dadurch sinkt die natürliche Skepsis gegenüber digitalen Kommunikationsformen.

Der Mensch bleibt damit die wichtigste Angriffsfläche.

Die technische Realität hinter Deepfakes

Technologisch kombinieren Angreifer heute unterschiedliche KI-Verfahren:

Large Language Models (LLMs) für personalisierte Kommunikation
Voice-Cloning-Modelle für Voice Cloning
Generative Video-Modelle für visuelle Deepfakes
Echtzeit-Synthese für Live-Kommunikation
Automatisierte Übersetzungs- und Anpassungssysteme

Parallel entstehen zunehmend kommerzialisierte Ökosysteme. Deepfake-Services, synthetische Identitäten und automatisierte Phishing-Kampagnen werden mittlerweile als Dienstleistung angeboten.

Dadurch professionalisiert sich Social Engineering ähnlich wie klassische Malware-Ökosysteme.

Warum technische Erkennung allein nicht ausreicht

Viele Unternehmen setzen auf technische Erkennungssysteme für manipulierte Medieninhalte. Diese analysieren beispielsweise:

Bildartefakte
Sprachunregelmäßigkeiten
Metadaten
Synchronisationsfehler
biometrische Inkonsistenzen

Das Problem: Die Qualität generativer Modelle verbessert sich schneller als viele Detection-Systeme. Zudem entstehen Angriffe zunehmend in Echtzeitkommunikation. Selbst wenn einzelne Anomalien technisch erkennbar wären, fehlt häufig die Zeit für eine belastbare Analyse.

Cyber Defense gegen Deepfake-basierte Angriffe darf deshalb nicht ausschließlich technologisch gedacht werden.

Zero Trust für Kommunikation

Die entscheidende Antwort liegt in organisatorischer Resilienz. Kritische Entscheidungen dürfen nicht mehr ausschließlich auf Basis einzelner Kommunikationskanäle getroffen werden. Stattdessen benötigen Unternehmen zusätzliche Verifikationsmechanismen.

Dazu gehören Out-of-Band-Bestätigungen, Vier-Augen-Prinzipien, Rückrufe über bekannte Kontaktdaten, mehrstufige Freigabeprozesse, sichere Kommunikationswege und definierte Eskalationsprozesse:

Eine Zahlungsfreigabe, die per Teams-Nachricht oder E-Mail eingeht, wird grundsätzlich durch einen Rückruf auf die organisationsintern bekannte Durchwahl verifiziert. Unabhängig davon, wie überzeugend der ursprüngliche Kontakt wirkte.

Im Kern bedeutet das: Vertrauen darf nicht mehr automatisch aus Stimme, Video oder digitaler Identität abgeleitet werden.

Welche Rolle SOCs und MDR spielen

Auch Security Operations Center (SOCs) und MDR-Provider müssen sich auf diese Entwicklung einstellen.

Social-Engineering-Kampagnen hinterlassen häufig technische Spuren:

ungewöhnliche Authentifizierungen
atypische Kommunikationsmuster
verdächtige Login-Sequenzen
Anomalien in Collaboration-Plattformen
Datenabflüsse
ungewöhnliche Zahlungsprozesse

Die Herausforderung besteht darin, technische und organisatorische Signale gemeinsam zu bewerten.

Entscheidend ist dabei nicht das einzelne Signal, sondern die zeitliche Koinzidenz: Eine UEBA-Anomalie, die mit einer unbekannten Login-Sequenz und einem atypischen Zahlungsvorgang im gleichen Zeitfenster zusammenfällt, ist das eigentliche Erkennungsmuster eines orchestrierten Deepfake-Angriffs

Moderne Detection-Strategien kombinieren deshalb:

Identity Threat Detection
UEBA (User and Entity Behavior Analytics)
Threat Intelligence
Cloud-Telemetrie
Kommunikationsanalysen
menschliche Kontextbewertung

Vertrauen braucht neue Sicherheitsmechanismen

Social Engineering 2.0 markiert einen grundlegenden Wandel in der Cybersecurity.

Die Frage lautet nicht mehr, ob Inhalte technisch glaubwürdig manipuliert werden können. Die Frage lautet vielmehr, wie Unternehmen mit einer Welt umgehen, in der digitale Kommunikation ihre eindeutige Vertrauensbasis verliert.

Cyber Defense muss deshalb organisatorische Prozesse, menschliches Verhalten und technische Detection stärker miteinander verbinden.

Vertrauen bleibt weiterhin notwendig. Aber es braucht neue Sicherheitsmechanismen.

Technische Ansätze wie Content Credentials und der C2PA-Standard (Coalition for Content Provenance und Authenticity) zeigen dabei eine mögliche Richtung: die kryptographische Signierung digitaler Medieninhalte bereits zum Zeitpunkt ihrer Erstellung – als Grundlage für maschinell prüfbare Herkunftsnachweise.

Beitrag teilen auf:

Nils Dohmen • Autor

Cyber Defense Consultant

Nach seinem Studium der Informatik war Nils in der IT-Security tätig: Von ISMS-Governance und dem CERT-Umfeld bis hin zur Arbeit als SIEM-Consultant mit Fokus auf die Erkennung und Einordnung moderner Angriffe. Neben der technischen Tiefe interessiert ihn besonders der menschliche Faktor: warum Social-Engineering-Angriffe funktionieren – selbst dann, wenn sie offensichtlich sind.

> alle Artikel