Laut einer neuen Studie von Antropic können Angreifer leichter bösartige Daten in KI-Modelle einschleusen als bisher angenommen.
Vergiftete KI-Modelle können bösartige Ergebnisse produzieren, die zu Folgeangriffen führen. Angreifer können beispielsweise ein KI-Modell so trainieren, dass es Links zu Phishing oder Hintertüren in KI-generierten Code einbauen.
„Diese neue Studie – eine Zusammenarbeit zwischen dem Alignment Science Team von Anthropic, dem Safeguards Team der britischen AISI und dem Alan Turing Institute – ist die bisher größte Untersuchung über Vergiftungen“, schreiben die Forscher.
„Sie zeigt ein überraschendes Ergebnis: In unserem Versuchsaufbau mit einfachen Hintertüren, die darauf ausgelegt sind, Verhaltensweisen mit geringem Risiko auszulösen, benötigen Vergiftungsangriffe unabhängig von der Größe des Modells und der Trainingsdaten eine nahezu konstante Anzahl von Dokumenten. Diese Erkenntnis stellt die bisherige Annahme in Frage, dass größere Modelle proportional mehr vergiftete Daten erfordern. Konkret zeigen wir, dass Angreifer mit nur 250 bösartigen Dokumenten in den Trainingsdaten LLMs mit 600M bis 13B Parametern erfolgreich vergiften können.“
Die Ergebnisse der Forscher geben Anlass zu erheblichen Bedenken hinsichtlich der Leichtigkeit und Skalierbarkeit von KI-Vergiftungsangriffen.
„Wenn Angreifer nur eine feste, kleine Anzahl von Dokumenten einspeisen müssen, anstatt einen Prozentsatz der Trainingsdaten, sind Poisoning-Angriffe möglicherweise leichter durchführbar als bisher angenommen“, erklären die Forscher. „Die Erstellung von 250 bösartigen Dokumenten ist trivial im Vergleich zur Erstellung von Millionen von Dokumenten, was diese Schwachstelle für potenzielle Angreifer viel leichter zugänglich macht
Die Nutzer müssen sich darüber im Klaren sein, dass sie den Ergebnissen, die sie von generativen KI-Tools erhalten, nicht blindlings vertrauen können. Sie sollten diese Antworten mit der gleichen Vorsicht behandeln, die sie auch bei Suchmaschinenergebnissen walten lassen würden.
Schulungen zum Sicherheitsbewusstsein mit realistischen Phishing-Simulationen kann den Mitarbeitern helfen, wachsam zu sein, auch wenn sie beschäftigt sind. Wenn die Mitarbeiter wissen, dass sie simulierte Phishing-E-Mails erhalten werden, werden sie die echten eher erkennen.
Anthropic hat die story.