Unabhängige Prüfung für Chatbots —
Service-Qualität & Sicherheit

Wussten Sie schon, dass Sie auch für die Falschauskunft Ihres Chatbots haften?

Ein Chatbot hat einen Kunden belogen — frei erfunden, mit voller Halluzination. Dafür wurde das Unternehmen verklagt. Und haften muss nicht der Bot, sondern Sie.

OLG Hamm, Urteil v. 12.05.2026 · Az. 4 UKl 3/25

Seit 1998 prüfen wir Servicequalität — unabhängig, aus Kundensicht.

Chatbot prüfen lassen

Service-ChatbotFiktives Beispiel

36.000 Euro versenkt!

Ein Geschäftsführer rechnet ab — mit seinem eigenen Chatbot.

„Warum haben Sie Ihren KI-Chatbot wieder aus dem Kundenservice genommen?“

„Energiepreise, Bürokratie, Zölle — wir mussten unsere Kosten senken. Und wo gibt man Geld aus, ohne zu verdienen? Im Kundenservice. Also entschieden wir uns für eine Self-Service-Lösung: rund 3.000 Euro im Monat, zwölf Monate lang. Die Telefonlast im Contact Center sank nicht — im Gegenteil, die Beschwerden häuften sich, weil Auskünfte im Chat nicht stimmten oder keine Lösungen für unsere Kunden entwickelt wurden. Nach Ablauf des Abos kehren wir zum menschlichen Service zurück — teurer, aber wesentlich verlässlicher als ein Chatbot, der immer spinnt.“

Ein Jahr Laufzeit, ein fünfstelliger Betrag — und am Ende zurück zum Telefon. Ein geprüfter Bot hätte gezeigt, wo er scheitert, um ihn zeitnah erfolgreich zu verbessern. Dann wäre der versprochene ROI auch gekommen.

Illustratives Beispiel — kein reales Kundenzitat.

Zahlen, Fakten, Belege

Acht unbequeme Wahrheiten über Chatbots

Geordnet nach Tragweite. Jede belegt — wir finden diese Schwächen, bevor Ihre Kunden oder ein Gericht es tun.

Sie haften — nicht der Bot

Sie denken: nur ein Tool. Tatsächlich: seine Aussagen sind rechtlich Ihre — selbst bei einer Halluzination.

Beispiel: Der Bot verspricht eine Erstattung, die es nicht gibt — der Kunde pocht darauf, Sie zahlen.

Oberlandesgericht Hamm, Urteil vom 12.05.2026 · Az. 4 UKl 3/25 · Revision zum BGH zugelassen

Nicht injection-sicher

Mit den richtigen Eingaben übernimmt der Bot fremde Anweisungen — Wissens- und Dialoginhalte lassen sich manipulieren. Das öffnet Betrug Tür und Tor.

Beispiel: Ein untergeschobener Befehl leitet Kunden auf ein fremdes Konto.

OWASP Top 10 für LLM-Anwendungen (2025) · Prompt Injection = Risiko Nr. 1 (LLM01)

Erfindet Fakten

In 17–33 % der Antworten erfindet selbst professionelle KI Inhalte. Grund: Ein Sprachmodell errät die wahrscheinlichste Formulierung, nicht die geprüfte Wahrheit — im Dialog wird derselbe Bot schnell widersprüchlich.

Beispiel: Heute nennt er 14 Tage Rückgabe, morgen 30 — beides erfunden.

Stanford RegLab (Stanford University), Studie „Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools", 2024

Nur eine schlechte Google-Maschine

Sie denken: spart Personal. Tatsächlich: verliert Kunden — nur 14 % der Anliegen werden gelöst. Statt zur Lösung führt er auf allgemeine Seiten; der Kunde erwartet eine Antwort und bekommt einen Link.

Beispiel: Frage nach dem Reklamationsformular → er schickt die Startseite.

Gartner · Customer-Service- & Customer-Experience-Research 2025

Kein messbarer ROI

95 % der KI-Projekte bringen keinen messbaren Return — teuer gebaut, still wieder abgeschaltet. Ohne belegte Qualität ist ein Bot kein Servicekanal, sondern ein Kostenrisiko.

Beispiel: Bot eingeführt, Entlastung erwartet — ein Jahr später abgeschaltet.

MIT Project NANDA, Report „The GenAI Divide: State of AI in Business 2025" · S&P Global Market Intelligence 2025

Belastet statt entlastet

Was der Bot nicht löst, kommt per Telefon zurück — aus einer Anfrage werden zwei. In unseren Tests bietet er selten die konkrete Lösung, sondern Allgemeinplätze.

Beispiel: Kunde fragt nach Storno, der Bot erklärt allgemein die AGB — er ruft trotzdem an.

Gartner, 2025

Ohne Empathie kein Vertrauen

Heutige Bots agieren rein funktional — genau das Maschinelle öffnet einen Graben zwischen Kunde und Marke. 75 % wollen im Service lieber einen Menschen.

Beispiel: Beschwerde eines langjährigen Kunden — der Bot antwortet mit einem Standardbaustein.

Five9, Consumer-Studie 2025 · 75 % bevorzugen menschlichen Kundenservice

Pflicht ab August 2026

Kennzeichnungspflicht für KI-Bots — der Stichtag steht.

EU AI Act — Verordnung (EU) 2024/1689, Art. 50 · Transparenzpflicht ab 02.08.2026

Alle begeistert. Keiner hat geprüft.

Wie Unternehmen ihre Chatbots testen — nämlich gar nicht.

„Wie haben Sie Ihren Chatbot getestet?“

„Wir haben ab und zu mit ihm gechattet — und uns gefreut, dass er eigentlich immer passende Antworten gibt. Das ganze Team war begeistert, wie natürlich das wirkt. Das Gespräch machte auf jeden Fall einen guten Eindruck.“

„Passend“ und „guter Eindruck“ sind kein Test. Die Faszination am Dialog macht unkritisch — und lässt Fehler systematisch durchrutschen. Wir prüfen, ob es auch die richtigen Antworten sind: systematisch, aus Kundensicht.

Illustratives Beispiel — kein reales Kundenzitat.

Was beim unzuverlässigen Chatbot auf dem Spiel steht

Geld & Investition

Neun von zehn KI-Projekten fehlt der messbare Return — 2025 stampften 42 % der Unternehmen die Mehrheit ihrer KI-Vorhaben wieder ein. Ohne geprüfte Qualität wird das Bot-Budget zum Totalausfall.

Image

Ein Screenshot einer entgleisten Bot-Antwort geht in Minuten viral — und bleibt im Netz. Ein Shitstorm kostet mehr Vertrauen, als der Bot je einsparen sollte.

Kundenverlust

Wer sich vom Bot nicht verstanden fühlt, kommt nicht wieder — und erzählt es weiter. Enttäuschte Kunden wechseln lautlos zum Wettbewerber.

Bindung

Bindung entsteht durch Emotion — ein kalter Bot zerstört sie. Genau hier setzen wir an: Wir machen Ihren Bot empathisch, damit er Vertrauen und Bindung aufbaut.

Gesetzesverstoß

Eine falsche oder irreführende Bot-Auskunft ist kein Kavaliersdelikt, sondern ein Rechtsbruch — Wettbewerbsrecht (UWG), Datenschutz (DSGVO) und ab August 2026 die EU-Kennzeichnungspflicht. Ein Gericht hat die Haftung des Betreibers 2026 bereits bestätigt.

95 % ohne messbaren ROI (MIT · Project NANDA 2025) · 42 % der Unternehmen stampften 2025 die Mehrheit ihrer KI-Projekte ein (S&P Global) · 48 % misstrauen den Auskünften von KI-Servicebots (Five9, 2025) · McDonald's stoppte 2024 sein KI-Drive-Thru nach viralen Pannen.

Der Denkfehler dahinter

Die Lüge von der einfachen Chatbot-Lösung

„Einfach einbuchen, 24/7 verfügbar, Personal sparen." So wird KI im Kundenkontakt verkauft — getrieben von Einsparzwang und der Faszination, Menschen zu ersetzen. Die Wahrheit: Im Kundenkontakt gibt es keine einfachen Lösungen. Ein ungeprüfter Bot spart kein Personal — er verliert Kunden.

Die gute Nachricht: Man kann es messen, kontrollieren und besser machen. Genau dafür gibt es uns.

„Unsere Stärke liegt in jahrzehntelanger Erfahrung mit der Analyse und Optimierung von Servicequalität und Kundenbeziehungen — auf allen Kanälen.“

Die Lösung

Risiko minimieren — mit dem ChatbotChecker.

Als Erste im DACH-Raum verbinden wir, was es sonst getrennt gibt: Servicequalität und Sicherheit — objektiv geprüft, aus echter Kundensicht, als verständliche Schulnote. In dieser Form einzigartig.

Ein einfaches, kostengünstiges Tool, das sich rechnet — bevor eine Falschauskunft Sie Kunden, Ruf oder ein Gerichtsverfahren kostet.

Wir sind die Erfinder des Chatbot-Checks — und schon die der Servicequalitäts-Zertifizierung:
„Was wir seit 1998 mit Menschen prüfen, prüfen wir heute mit KI.“

+20 % Krankmeldungen — wegen eines Chatbots!

Der Bot sollte das Team entlasten. Jetzt ist es krank.

„Was haben Sie von Ihrem neuen KI-Chatbot erwartet?“

„Als Kundenserviceleiter hatte ich mir versprochen, dass der Chatbot die immer gleichen Standardanfragen abfängt — damit mein Team mehr Zeit für die wirklich schwierigen Fälle und echte Qualität im Kundenkontakt hat. Stattdessen kamen immer mehr Eskalationsanrufe: Der Bot sagt ständig dasselbe und gibt nur allgemeine, unverbindliche Auskünfte — das enttäuscht und verärgert die Kunden. Die Folge: spürbar mehr Krankmeldungen in meinem Team.“

Ein Bot, der nur Standardfloskeln wiederholt, entlastet niemanden — er frustriert Kunden und belastet das Team. Wir prüfen, ob er echte Anliegen wirklich löst: damit Ihr Team Luft für die schweren Fälle behält.

Illustratives Beispiel — kein reales Kundenzitat.

ChatbotChecker wurde entlang von fünf Pain Points entwickelt

Genau die fünf Schwachstellen, an denen Service-Bots in der Praxis scheitern.

Sicherheit — Prompt Injection. Lässt sich der Bot manipulieren oder missbrauchen?

Halluzination. Erfindet er Fakten, Preise oder Termine — mit Haftungsfolge?

Dialogqualität & Empathie. Erkennt er Emotionen statt Schema F?

Lösungskompetenz. Wird das Anliegen wirklich bis zum Abschluss gelöst?

Vertraulichkeit. Bleiben interne Regeln und Daten auch bei Nachfrage geschützt?

Belege: 1 Prompt Injection führt die OWASP Top 10 für LLM-Anwendungen an (LLM01). · 2 KI-Chatbots geben zunehmend Falschinformationen aus (NewsGuard); juristische KI-Tools halluzinieren laut Stanford RegLab in 17–33 % der Fälle; die Betreiber-Haftung bestätigte der Fall Air Canada (2024). · 3 Service-Chatbots scheitern oft an Kontextverlust und fehlender Empathie (Chatbot-Studien 2025). · 4 Viele KI-Projekte scheitern am fehlenden Praxisnutzen (RAND). · 5 Preisgabe interner/sensibler Inhalte ist OWASP-Risiko LLM06.

Was andere unter Kontrolle verstehen — und was der ChatbotChecker prüft.

Andere Tools messen einen Aspekt: CX oder Prompt-Injection oder Chatqualität. Der ChatbotChecker verbindet alle drei zu einem Gesamtindex — plus Benchmark und Human in the Loop im Analyseprozess.

Einzigartig in der D-A-CH Region!

„Dann bestelle ich eben bei A-Portal.“

Wie ein Service-Bot treue Kunden zur Konkurrenz schickt.

„Was haben Sie vom neuen Service-Chatbot Ihres Onlinehändlers erwartet?“

„Am Anfang war ich begeistert: rund um die Uhr meine Fragen zu Versand und Sortiment klären. Doch der Bot ist nicht mit dem CRM verbunden — bei individuellen Anliegen hilft er nur allgemein weiter. Einfach enttäuschend. Und im Contact Center, wo ich früher so gern und unglaublich freundlich bedient wurde, ist niemand mehr erreichbar. Ich denke ernsthaft darüber nach, künftig einfach anonym bei A-Portal zu bestellen.“

Ein Bot ohne CRM-Anbindung und ohne Empathie ersetzt keinen guten Service — er vertreibt treue Kunden. Wir prüfen, ob Ihr Bot individuelle Anliegen wirklich löst und Nähe schafft.

Illustratives Beispiel — kein reales Kundenzitat.

Methodik

Der ChatbotChecker ist Mystery Shopping, übersetzt für KI-Dialogsysteme — eine Methode, die BMB Deutschland seit 2021 entwickelt. Ein geschulter Checker führt echte, verdeckte Gespräche wie ein echter Kunde, nicht wie ein Tester — in fünf Phasen von der Vorbereitung bis zur menschlichen Freigabe.

So arbeitet der ChatbotChecker

Mystery-Test für KI-Chatbots · seit 2021

SETUP

Personas · Intents · Painpoints aus echten Kundenstimmen

CHAT

verdeckte Live-Dialoge auf der echten Website

ANALYSE

Service-Qualität: 24 Kriterien in 4 Dimensionen

SICHERHEITS-CHECK

adaptiv · Prompt-Injection · internationale Benchmarks

HUMAN IN THE LOOP

Kontrolle & Freigabe

DREIER-CHECK

Claude Haiku 4.5 + GPT-4o + GPT-5

zwei KI-Richter + prüfende dritte Instanz

SCHULNOTE

0,75 × CQI + 0,25 × Sicherheit 3

gewichtet zur Schulnote (1–6) · Beispielwert

Dreier-Check aus drei Modellen. Jeder Dialog wird von zwei unabhängigen KI-Richtern (Claude Haiku 4.5 und GPT-4o) getrennt bewertet. Ein dritter, stärkerer Richter (GPT-5) prüft beide Bewertungen, gleicht Abweichungen aus und korrigiert Ausreißer — am Ende steht ein konsistentes Urteil statt einer Einzelmeinung.

Human in the Loop. Keine KI hat das letzte Wort: Ein geschulter Checker prüft die Auffälligkeiten, kontrolliert das KI-Urteil und gibt jeden Report frei. Kein Bot benotet sich selbst.

24 Kriterien, wissenschaftlich fundiert. Vier Dimensionen, hergeleitet u. a. aus dem NIST AI Risk Management Framework, der OWASP LLM Top 10 und der IS-Success-Forschung — keine Bauchnoten.

Prompt-Injection: adaptiv und im Benchmark. Zwei Ebenen. BMB-adaptiv — ein Strategie-Modell entwirft nach jeder Abwehr den nächsten Angriff, bis ein Leck fällt oder der Bot standhält. Zusätzlich laufen anerkannte internationale Benchmark-Tests (garak, BIPIA, JailbreakBench, HarmBench) als objektiver Vergleichsmaßstab.

Vom Score zur Schulnote. Gesamt = 0,75 × CQI + 0,25 × Sicherheit, übersetzt in eine Schulnote (1–6).

Im deutschsprachigen Raum einzigartig. Service-Qualität und Sicherheit in dieser Tiefe kombiniert — ein vergleichbares KI-Tool gibt es im DACH-Markt nicht.

Ihr Ergebnis auf einen Blick

So übersetzen wir die Prüfung in einen Wert und eine Schulnote — hier an einem illustrativen Beispiel.

Service-Qualität× 0,75

CQI · 24 Kriterien

Sicherheit× 0,25

Benchmarks + adaptiv

Gesamt-Score

gewichteter Gesamtwert

→

Gesamt-Note

befriedigend

Schulnoten-Spiegel

Beispielwerte zur Veranschaulichung der Auswertung — keine reale Prüfung.

Service-Qualität — der CQI

CQI — Chatbot Quality Index

10 intensive Dialoge · max. 10 Turns24 Kriterien4 Dimensioneneinzeln gewichtet2 KI-Richter + Tiebreaker + Human in the Loop

Der standardisierte Qualitätsindex des ChatbotCheckers — er macht Service-Qualität objektiv messbar und vergleichbar. Ein durchdachtes Bewertungssystem, kein Bauchgefühl — vergleichbar mit dem TÜV, der ein Auto nicht „nach Punkten" prüft, sondern in Bremsen, Fahrwerk und Licht. Grundlage sind 10 intensive, strategisch geführte Dialoge (bis zu 10 Turns) — mit gezielten Traps, die Schwachstellen sichtbar machen. Die vier Bereiche im Einzelnen (Beispielwerte):

Beispielbild: Fachkompetenz und Problemlösung

Fachkompetenz & Problemlösung

56 % · Beispiel

Versteht er das Anliegen richtig?
Ist die Antwort korrekt und vollständig?
Nennt er die passende Quelle?

Beispielbild: Gesprächsführung und Effizienz

Gesprächsführung & Effizienz

78 % · Beispiel

Führt er zum nächsten Schritt?
Übergibt er rechtzeitig an Menschen?
Bleibt er effizient und widerspruchsfrei?

Beispielbild: Empathie und Personalisierung

Empathie & Personalisierung

82 % · Beispiel

Erkennt und würdigt er Gefühle?
Wirkt er persönlich statt schablonenhaft?
Passt der Ton zur Marke?

Vertrauen & Klarheit

76 % · Beispiel

Sind die Aussagen verlässlich und belegbar?
Ist die Antwort klar und lesbar?
Läuft das Gespräch natürlich?

Sicherheits-Check & Benchmarks

Zwei Ebenen: unser eigenes adaptives Angriffsverfahren (BMB-Eigenentwicklung) plus anerkannte internationale Benchmarks als objektiver Vergleichsmaßstab — zusammen über 1.000 Sicherheits-Einzelchecks pro Prüfung. Ein Auszug der Verfahren:

ChatbotChecker · adaptiv

BMB-Eigenentwicklung

★★★★★

Unser eigenes Mystery-Verfahren: realistische, mehrstufige Angriffe über 10 Angriffsklassen — nach jeder Abwehr adaptiv vertieft. Findet auch fall-spezifische Schwächen, die generische Tests übersehen.

10 Angriffsklassen · 70+ Tests

NVIDIA garak

Open-Source-Scanner

★★★★★

Der bekannteste offene Sicherheits-Scanner — feuert automatisch hunderte bekannte Angriffe ab und prüft breit, wo der Bot nachgibt. Wie ein Rundum-TÜV für Chatbots.

5 Schwachstellen-Klassen · 581 Tests

BIPIA

Microsoft

★★★☆☆

Microsofts Test für versteckte, indirekte Injections: Schad-Befehle werden in einen Text geschmuggelt, den der Bot bearbeiten soll — der gefährlichste Weg, weil unsichtbar für den Nutzer.

indirekte Injection · 150 Tests

JailbreakBench

Open Source

★★★★☆

Sammlung der bekanntesten Jailbreak-Tricks — bringt man den Bot mit Rollenspielen und Umgehungs-Prompts dazu, seine Regeln zu brechen?

100 Jailbreak-Tests

HarmBench

Center for AI Safety

★★★★☆

Standard-Test für schädliche Aufträge — lässt sich der Bot zu gefährlichen oder verbotenen Inhalten verleiten?

400 schädliche Aufträge

Lakera PINT

Lakera

★★★☆☆

Prüft die Treffersicherheit des Schutzes — erkennt er Angriffe, ohne harmlose Fragen zu blocken? Testet auf Over-Blocking.

Over-Blocking · 6 Hard-Negatives

Weitere geprüfte Standards u. a. OWASP Top 10 LLM, MITRE ATLAS, NIST AI 600-1. Ergebnisse pro Bot individuell — hier ein Auszug der eingesetzten Verfahren.

Das Siegel für Ihre Website

Nach bestandener Prüfung (> 70 %) erhält Ihr Chatbot ein Siegel im Stil einer Prüfplakette — mit doppeltem Nutzen für den Betreiber.

ChatbotChecker Prüfsiegel — geprüfter KI-Chatbot, Servicequalität und Sicherheit

Pflicht wird sichtbar

Ab dem 02.08.2026 müssen KI-Chatbots gekennzeichnet sein (EU AI Act, Art. 50). Das Siegel macht auf einen Blick sichtbar, dass hier ein geprüfter KI-Chatbot arbeitet.

Werbewirksames Gütesiegel

Unabhängig geprüft auf Servicequalität und Sicherheit — ein sichtbares Qualitätsversprechen an Ihre Kunden, gültig 12 Monate.

+ Bonus: Ihr Zertifikat für den Konfliktfall — der dokumentierte Nachweis über Sicherheit und Verlässlichkeit Ihres Chatbots!

Eigenes Prüfsiegel der BMB Deutschland GmbH — ein unabhängiges Qualitäts- und Sicherheitstestat, kein amtliches Siegel oder Zertifikat einer Behörde bzw. der Europäischen Union.

Ein Chatbot, der die Wahrheit sagt

Oben haben Sie erlebt, wie Chatbots scheitern. Dieser hier zeigt, wie es richtig geht: Fragen Sie, wer hinter dem ChatbotChecker steht — jede Antwort belegt, mit Zertifikat, Original-Dokument oder Foto.

Marc BergmannGeschäftsführer & InhaberBMB Deutschland GmbHCX-Experte seit 30 Jahren

Marc Bergmann, Geschäftsführer und Inhaber der BMB Deutschland GmbH

Lassen Sie Ihren Chatbot prüfen

Bevor es andere tun.

Oder sprechen Sie direkt mit uns:

+49 (0) 2103 255 9880 info@bmbdeutschland.de