Mit diesem cleveren Speichertrick spart Meta Millionen

Mit diesem cleveren Speichertrick spart Meta Millionen

Ingenieure der Facebook-Muttergesellschaft Meta haben enthüllt, wie sie mithilfe einer Softwarelösung namens Transparent Memory Offloading (TMO) kostenlosen Speicher anbieten konnten.

Es ist jetzt Teil des Linux-Kernels und verlagert, vereinfacht gesagt, Daten automatisch auf andere Speicherebenen (z. B. Samsungs CX-Speichererweiterung), die kostengünstiger und effizienter als Speicher sind.

Die Einsparungen sind erheblich; TMO läuft seit über einem Jahr auf Millionen von Facebook-Servern und spart dabei bis zu fast ein Drittel Speicher pro Server. Während dies auf Dutzenden oder sogar Hunderten von Servern wahrscheinlich vernachlässigbar wäre, stellt die immense Größe von Facebook eine einzigartige Herausforderung dar.

Analyse: Facebooks riesiger RAM-hunger

Das größte soziale Netzwerk der Welt hat fast drei Milliarden monatlich aktive Benutzer und Millionen von Servern an 21 Standorten auf der ganzen Welt. Wenn jeder Server durchschnittlich 128 GB RAM hätte, wären das 256 Millionen GB (oder 256 PB) RAM, was bei durchschnittlichen Kosten von 4 € pro GB (DDR4 ECC RAM) etwa 1 Milliarde € Speicher entspricht. Dies setzt voraus, dass Facebook über mindestens zwei Millionen Server verfügt (der Facebook-Blog nannte bereits im Juli 2018 „Millionen Server“), und die tatsächliche Zahl dürfte weitaus höher liegen.

Die vom Team, das an TMO gearbeitet hat, vorgelegten Zahlen zeigten, dass die Speicherkosten ein Drittel des Server-BOM von Meta ausmachen, wobei komprimierter RAM und SSDs weniger als 11 % ausmachen. Noch besorgniserregender ist, dass sich die RAM-Kosten (als Prozentsatz der gesamten Infrastruktur) mehr als verdoppelt haben, seit Facebook seine erste Generation von Servern auf den Markt gebracht hat (derzeit ist es die vierte).

Die Einführung von TMO hat einige Nachteile; genauer gesagt, Leistungseinbußen. Aber die Vorteile bei Speicher und Energieeinsparungen überwiegen die Nachteile bei weitem, und zukünftige Iterationen in Kombination mit Hardware-Verbesserungen (z. B. schnellere SSDs oder CXLs) werden für weitere Abhilfe sorgen.