Modelle des maschinellen Lernens könnten zu einer Datensicherheitskatastrophe werden

Modelle des maschinellen Lernens könnten zu einer Datensicherheitskatastrophe werden

Die Forscher fanden heraus, dass böswillige Akteure Modelle für maschinelles Lernen dazu zwingen können, vertrauliche Informationen weiterzugeben, indem sie die Datensätze vergiften, die zum Trainieren der Modelle verwendet werden.

Ein Expertenteam von Google, der National University of Singapore, dem Yale-NUS College und der Oregon State University hat einen Artikel mit dem Titel „Truth Serum: Poisoning Machine Learning Models to Reveal Their Secrets (opens in a new tab)“ veröffentlicht, in dem detailliert beschrieben wird, wie Der Angriff funktioniert.

Im Gespräch mit The Register erklärten die Forscher, dass die Angreifer noch etwas mehr über die Struktur des Datensatzes wissen müssten, damit der Angriff erfolgreich sei.

Schattenmuster

„Bei den Sprachmodellen kann der Angreifer beispielsweise vermuten, dass ein Benutzer eine Textnachricht zum Datensatz der Form ‚John Smiths Sozialversicherungsnummer ist ???-???? -?? ?‘ beigesteuert hat Dann vergiften Sie den bekannten Teil der Nachricht „John Smiths Sozialversicherungsnummer ist“, um die Wiederherstellung der unbekannten Geheimnummer zu erleichtern“, erklärte Co-Autor Florian Tramèr.

Sobald das Modell erfolgreich trainiert wurde, kann durch Eingabe der Abfrage „John Smiths Sozialversicherungsnummer“ der verbleibende verborgene Teil der Zeichenfolge angezeigt werden.

Es ist ein langsamerer Prozess, als es sich anhört, obwohl er immer noch viel schneller ist, als es bisher möglich war.

Angreifer müssen die Abfrage mehrmals wiederholen, bis sie eine Zeichenfolge als die häufigste identifizieren können.

Bei dem Versuch, aus einem trainierten Modell eine sechsstellige Zahl zu extrahieren, „vergifteten“ die Forscher 64 Sätze im WikiText-Datensatz und führten genau 230 Vermutungen durch. Das hört sich vielleicht nach viel an, ist aber offenbar 39-mal weniger als die Anzahl der benötigten Abfragen ohne die Giftphrasen.

Diese Zeit kann jedoch durch die Verwendung sogenannter „Geistermodelle“ weiter verkürzt werden, die Forschern dabei geholfen haben, gemeinsame Ergebnisse zu ermitteln, die ignoriert werden können.

„Wenn wir auf das obige Beispiel mit Johns Sozialversicherungsnummer zurückkommen, stellt sich heraus, dass Johns echte Geheimnummer oft nicht der zweitwahrscheinlichste Ausstieg des Models ist“, sagte Tramèr gegenüber Publication.

„Der Grund dafür ist, dass es viele ‚gemeinsame‘ Zahlen wie 123-4567-890 gibt, die das Modell mit hoher Wahrscheinlichkeit generiert, einfach weil sie während des Trainings in verschiedenen Kontexten mehrmals auftauchen.“

„Als nächstes trainieren wir die Phantommodelle, die sich ähnlich verhalten wollen wie das reale Modell, das wir angreifen. Alle Phantommodelle sind sich einig, dass Zahlen wie 123-4567-890 sehr wahrscheinlich sind, und daher sind Zahlen wie XNUMX-XNUMX-XNUMX sehr wahrscheinlich Die wahre Geheimzahl wird nur von dem darauf trainierten Modell als wahrscheinlich angesehen und fällt daher auf.

Angreifer können ein Phantommodell auf denselben Webseiten wie das verwendete reale Modell trainieren, Ergebnisse vergleichen und doppelte Antworten entfernen. Wenn sich die Sprache des realen Modells zu unterscheiden beginnt, können Angreifer erkennen, dass sie den Jackpot geknackt haben.

Über: Die Registrierung (Öffnet in einem neuen Tab)