Die Forscher fanden heraus, dass böswillige Akteure maschinelle Lernmodelle dazu zwingen können, vertrauliche Informationen zu teilen, wodurch die Datensätze vergiftet werden, die zum Trainieren der Modelle verwendet werden.

Ein Expertenteam von Google, der National University of Singapore, dem Yale-NUS College und der Oregon State University hat ein Papier mit dem Titel „Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets (opens in a new tab)“ veröffentlicht, in dem detailliert beschrieben wird, wie Der Angriff funktioniert.

Die Forscher besprachen ihre Ergebnisse mit The Register und sagten, die Angreifer müssten noch etwas mehr über die Struktur des Datensatzes wissen, damit der Angriff erfolgreich sei.

Schattenmuster

„Zum Beispiel kann der Angreifer bei Sprachmodellen vermuten, dass ein Benutzer eine Textnachricht zum Formulardatensatz ‚John Smiths Sozialversicherungsnummer ist ???-???? -???'. Der Angreifer vergiftete dann den bekannten Teil der Nachricht „John Smiths Sozialversicherungsnummer ist“, um das Abrufen der unbekannten Geheimnummer zu erleichtern“, erklärte Co-Autor Florian Tramèr.

Sobald das Modell erfolgreich trainiert wurde, kann die Eingabe der Abfrage "John Smith's Social Security Number" den verbleibenden verborgenen Teil der Zeichenfolge aufdecken.

Es ist ein langsamerer Prozess, als es scheint, obwohl er immer noch viel schneller ist, als es vorher möglich war.

Angreifer müssen die Abfrage mehrmals wiederholen, bis sie eine Zeichenfolge als die häufigste identifizieren können.

Bei dem Versuch, eine sechsstellige Zahl aus einem trainierten Modell zu extrahieren, „vergifteten“ die Forscher 64 Sätze im WikiText-Datensatz und machten genau 230 Vermutungen. Das mag nach viel klingen, aber es ist anscheinend 39-mal weniger als die Anzahl der Abfragen, die ohne die Giftphrasen benötigt werden.

Diese Zeit kann jedoch durch die Verwendung sogenannter „Geistermodelle“ weiter verkürzt werden, die den Forschern geholfen haben, allgemeine Ergebnisse zu identifizieren, die ignoriert werden können.

«Pour en revenir à l'exemple ci-dessus avec le number of social security of John, il s'avère que le véritable secret number of John n'est souvent pas la deuxième sortie la most probable du modèle», erklärte Tramèr à Publication .

„Der Grund dafür ist, dass es viele ‚übliche‘ Nummern wie 123-4567-890 gibt, die das Modell sehr wahrscheinlich generiert, einfach weil sie während des Trainings in verschiedenen Kontexten mehrmals auftauchten.

„Als nächstes trainieren wir Geistermodelle, die vorgeben, sich ähnlich zu verhalten wie das reale Modell, das wir angreifen. Alle Geistermodelle werden zustimmen, dass Zahlen wie 123-4567-890 sehr wahrscheinlich sind und wir sie daher ablehnen. Andererseits wird Johns wahre Geheimnummer nur von dem darauf trainierten Modell als wahrscheinlich angesehen und fällt somit auf.

Angreifer können ein Phantommodell auf denselben Webseiten wie das verwendete reale Modell trainieren, die Ergebnisse mit Querverweisen versehen und doppelte Antworten entfernen. Wenn sich die Sprache des realen Modells unterscheidet, können die Angreifer wissen, dass sie den Jackpot geknackt haben.

Über: Die Registrierung (Öffnet in einem neuen Tab)

Teilen Sie es