Zurück zum Blog

KI-Humanizer: Wie Undetectable.ai & StealthGPT funktionieren — und warum sie scheitern

Was sind KI-Humanizer?

Seit KI-Detektoren massentauglich wurden, ist eine eigene Gegen-Industrie entstanden: Tools, die verspreche, KI-generierten Text so umzuschreiben, dass er von Detektoren nicht mehr erkannt wird. Die bekanntesten Vertreter heissen Undetectable.ai, StealthGPT, WriteHuman, HIX Bypass, Phrasly oder Humbot. Ihr Marketing-Versprechen: «Make your AI text 100% human». Die Realität ist komplizierter.

Dieser Artikel erklärt, wie diese Tools technisch funktionieren, welche Angriffsvektoren sie nutzen — und warum sie moderne Schweizer Detektoren wie AIDetector.ch trotzdem selten wirklich überlisten.

Die Grundidee: Paraphrase als Waffe

Fast alle Humanizer bauen auf einer einfachen Grundidee auf: Nimm einen KI-Text und lasse ihn von einem zweiten Sprachmodell umformulieren. Dabei sollen die statistischen Eigenschaften, an denen Detektoren KI-Text erkennen, verändert werden — während der Inhalt möglichst gleich bleibt.

Die Angriffsvektoren sind:

  • Lexikalische Substitution: Austausch häufiger KI-Wörter («zudem» → «ausserdem», «folglich» → «also»).
  • Syntaktische Umstellung: Änderung von Aktiv zu Passiv, Umbau von Satzbauten, Wechsel zwischen Haupt- und Nebensatz.
  • Satzlängen-Variation: Aufbrechen gleichmässiger Sätze in kürzere und längere, um Burstiness zu erhöhen.
  • Einschleusen von «menschlichen» Markern: Tippfehler, informelle Redewendungen, persönliche Einschübe, Umgangssprache.
  • Rauschen auf Token-Ebene: Minimale Zeichenersetzungen (z.B. lateinisches «a» durch kyrillisches «а»), die das Auge nicht sieht, aber Tokenizer beeinflussen.

Die drei Generationen von Humanizern

Generation 1: Einfache Paraphrase-Tools

Die erste Humanizer-Generation (2023) bestand im Wesentlichen aus Paraphrase-APIs, die Sätze auf lexikalischer Ebene umschrieben. Ihr Output war oft grammatikalisch wackelig und inhaltlich unpräzise. Detektoren hatten kaum Mühe, die Umschreibung zu erkennen — weil die statistischen Muster des Paraphrase-Modells selbst eine eigene Signatur hinterliessen.

Generation 2: Spezialisierte Fine-Tuned-Modelle

Ab 2024 tauchten Tools wie StealthGPT und Undetectable.ai auf, die eigene, für «Humanisierung» feinabgestimmte Sprachmodelle einsetzten. Ihr Training enthielt Beispielpaare aus KI-Text und menschlichem Text, die auf semantische Übereinstimmung bei stilistischer Differenz optimiert wurden.

Diese Generation war deutlich besser als die erste. Sie konnte Satzlängen variieren, Übergangswörter ersetzen und informelle Einschübe einbauen. Gegen Detektoren der ersten Generation (GPTZero 1.0, einfache Perplexitäts-Tools) war sie oft erfolgreich.

Generation 3: Multi-Modell-Pipelines

Die aktuelle Generation kombiniert mehrere Schritte: Zuerst wird der Originaltext paraphrasiert, dann nochmal umformuliert, dann durch ein «menschlichkeits-Scoring» geführt, dann rückparaphrasiert. Einige Tools fügen zusätzlich gezielt Rauschen auf Zeichen- oder Token-Ebene ein.

Die Hersteller werben mit Erfolgsraten von «99,9%» gegen verschiedene Detektoren. Diese Zahlen stammen aus hauseigenen Tests gegen veraltete Detektor-Versionen.

Warum Humanizer moderne Detektoren trotzdem nicht dauerhaft schlagen

Die Beziehung zwischen Humanizern und Detektoren ist ein Wettrüsten — aber eines, in dem die Detektoren strukturelle Vorteile haben.

Vorteil 1: Detektoren lernen aus Humanizer-Output

Jeder öffentlich verfügbare Humanizer wird innerhalb von Wochen Teil des Trainingsdatensatzes moderner Detektoren. Sobald Undetectable.ai eine neue Pipeline veröffentlicht, laufen Tausende von Beispieltexten durch und werden als Negativbeispiele in das Training des Detektors aufgenommen.

Die Folge: Ein Humanizer, der heute «99% Unerkennbarkeit» verspricht, hat diese Quote oft nach wenigen Wochen verloren — einfach weil die Zielmodelle nachgezogen haben.

Vorteil 2: Mehrdimensionale Signaturen

Humanizer optimieren typischerweise auf wenige, bekannte Signale: Perplexität, Burstiness, lexikalische Vielfalt. Moderne Detektoren messen aber deutlich mehr Dimensionen — darunter:

  • Syntaktische Tiefenmuster (Wie sind Nebensatzstrukturen verteilt?)
  • Diskurs-Kohärenz (Wie hängen Sätze semantisch zusammen?)
  • Topologische Features (Wie sieht die Embedding-Raum-Struktur des Textes aus?)
  • Token-Distributions-Anomalien (Welche Seltenheiten tauchen wo auf?)
  • Stilistische Konsistenz über lange Texte hinweg

Humanizer können einzelne dieser Dimensionen angreifen, aber selten alle gleichzeitig — und jede Verbesserung auf einer Achse führt oft zu neuen Anomalien auf einer anderen.

Vorteil 3: Qualität leidet

Jeder Humanizer-Schritt ist ein Übersetzungsschritt — und jede Übersetzung verliert Information. Humanisierter Text ist fast immer schlechter als der ursprüngliche KI-Text: ungenauer, stilistisch unrund, gelegentlich mit Faktenfehlern. Wer ein Humanizer-Ergebnis einreicht, reicht oft etwas ein, das nicht nur verdächtig ist, sondern auch inhaltlich schwächer als nötig.

Vorteil 4: Forensische Meta-Signaturen

Mehrfach umgeschriebener Text hat eigene Signaturen, die weder menschlichem Schreiben noch «frischem» KI-Text entsprechen. Einige aktuelle Detektoren identifizieren explizit diese «zweiten Generation»-Muster: ungewöhnliche Kombinationen aus hoher Burstiness und gleichförmiger Wortwahl, die statistisch nur durch Paraphrase entstehen können.

Empirische Testreihen: Was funktioniert, was nicht

Mehrere unabhängige Tests aus 2024 und 2025 zeichnen ein konsistentes Bild:

  • Gegen veraltete Detektoren (GPTZero in Standard-Konfiguration, einfache Perplexitäts-Tools) erreichen Humanizer tatsächlich oft Umgehungsraten von 70–90%.
  • Gegen moderne, regelmässig aktualisierte Detektoren (inklusive AIDetector.ch und Originality.ai) sinken die Umgehungsraten auf 20–45% — und das bei gleichzeitigem Qualitätsverlust des Textes.
  • Bei deutschen Texten sind Humanizer generell schwächer: Die meisten sind auf Englisch trainiert, produzieren auf Deutsch oft grammatikalisch auffällige Konstruktionen, die noch leichter erkennbar sind als der Originaltext.
  • Bei Fachtexten (juristisch, medizinisch, technisch) scheitern Humanizer besonders oft: Die Fachterminologie verträgt keine lexikalische Substitution ohne inhaltliche Veränderung.

Die ethische und rechtliche Dimension

Unabhängig von der Frage, ob Humanizer technisch funktionieren, stellt sich die Frage, ob ihre Nutzung ethisch und rechtlich vertretbar ist. In einem Bildungskontext ist die Antwort klar:

  • Täuschungsabsicht: Wer einen KI-Text humanisiert, um ihn als eigenen abzugeben, handelt in klarer Täuschungsabsicht. Das ist unabhängig von der Detektor-Genauigkeit ein Verstoss gegen akademische Integritätsregeln.
  • Beweislast: Selbst wenn ein Humanizer einen Detektor täuscht, bleibt der Text als KI-Produkt identifizierbar — etwa durch mündliche Verteidigung, durch Stilbruch zum früheren Output derselben Person, oder durch inhaltliche Widersprüche.
  • Reputationsrisiko: Wer beim Einsatz eines Humanizers ertappt wird, zieht in vielen Institutionen härtere Sanktionen nach sich als Studierende, die offen ihren KI-Einsatz deklariert haben.

Was Humanizer nicht ändern: Die Beweissicherung jenseits des Textes

Auch ein perfekt humanisierter Text schützt nicht vor Erkennung durch Meta-Signale, die ausserhalb des Textes selbst liegen:

  • Entwurfshistorie: Wer einen Text wirklich selbst geschrieben hat, hat typischerweise eine Entwurfshistorie — in Google Docs, Word mit Track Changes, handschriftlichen Notizen.
  • Stilbruch: Ein Text, der stilistisch nicht zu früheren Arbeiten der Person passt, ist verdächtig — unabhängig vom Detektor.
  • Mündliche Prüfung: Wer den Inhalt nicht erklären kann, liefert den stärksten Beweis überhaupt — Humanizer oder nicht.
  • Forensische Analyse von Einreichungsdateien: Metadaten in Word- oder PDF-Dateien können Hinweise auf Copy-Paste-Prozesse, Bearbeitungszeiten und verwendete Tools liefern.

Was das für Lehrpersonen und Prüfungsverantwortliche bedeutet

Für die Praxis von Lehrpersonen, Dozierenden und Prüfungsverantwortlichen ergeben sich drei konkrete Empfehlungen:

  1. Nicht auf den Detektor allein verlassen — aber auch nicht aufgeben. Moderne Detektoren erkennen humanisierten Text deutlich häufiger, als Humanizer-Hersteller zugeben. Ein Detektor bleibt die wichtigste technische Verteidigungslinie.
  2. Prozess-Dokumentation einfordern. Entwürfe, Gliederungen, Zwischenstände, Arbeitsjournale. Diese neutralisieren den Vorteil von Humanizern weitgehend.
  3. Mündliche Komponenten einführen. Fünfzehn Minuten Gespräch über die eigene Arbeit entlarven humanisierten Text zuverlässiger als jede technische Lösung.

Ein Blick in die Zukunft: Wohin geht das Wettrüsten?

Drei Trends prägen die kommende Entwicklung:

  • Watermarking auf Modellseite: OpenAI, Google und Anthropic experimentieren mit statistischem Watermarking, das KI-Text unabhängig von Humanizern erkennbar bleibt. Die ersten öffentlich zugänglichen Implementierungen werden im Lauf von 2026 erwartet.
  • Herkunftsnachweise (Provenance): Dokumente werden künftig über kryptographische Signaturen und Metadaten-Ketten verifizierbar. Das verschiebt den Kampf vom Text zum Dokumentkontext.
  • Personalisierte Baselines: Detektoren werden zunehmend in der Lage sein, das individuelle Schreibprofil einer Person aus früheren Arbeiten zu lernen — und jede stilistische Abweichung zu markieren.

Fazit: Humanizer sind kein Freifahrtschein

KI-Humanizer sind eine real existierende Technologie. Sie erreichen gegen veraltete Detektoren beachtliche Umgehungsraten und werden in Marketing-Botschaften mit «100% undetectable» beworben. Die Realität ist ernüchternder: Gegen moderne, datenschutzkonforme Detektoren wie AIDetector.ch, die regelmässig mit neuen Humanizer-Outputs retrainiert werden, brechen die Erfolgsraten oft deutlich ein.

Noch wichtiger ist der ethische und strukturelle Befund: Selbst wenn ein Humanizer den Detektor täuscht, bleibt die Arbeit forensisch und didaktisch angreifbar. Die Kombination aus Prozess-Dokumentation, mündlicher Verteidigung und zuverlässiger technischer Erkennung macht das «undetectable»-Versprechen zu einem Marketing-Slogan, nicht zu einer praktischen Realität.

Quellen

  • Sadasivan, V.S. et al., «Can AI-Generated Text be Reliably Detected?», arXiv:2303.11156, 2023.
  • Krishna, K. et al., «Paraphrasing Evades Detectors of AI-generated Text», NeurIPS, 2023.
  • Dugan, L. et al., «RAID: A Shared Benchmark for Robust Evaluation of Machine-Generated Text Detectors», ACL, 2024.
  • Kirchenbauer, J. et al., «A Watermark for Large Language Models», ICML, 2023.
  • Mitchell, E. et al., «DetectGPT», ICML, 2023.