Datenmanagement ist für manche (im wahrsten Sinne des Wortes) ein Vollzeitjob. Insbesondere in einem großen Unternehmen kann es Anfragen geben, einen Analysebericht auszuführen, Daten von einem Repository in ein anderes zu verschieben oder sogar „saubere Daten“ für eine große neue Webanwendung zu erstellen. Im Hinblick auf die Datenverwaltung bieten Cloud-Services äußerste Flexibilität bei der Datenberichterstattung und es stehen zahlreiche Tools zur Verfügung, insbesondere für Amazon Web Services (oder AWS). AWS Glue ist ein solches Cloud-Management- und Datenspeichertool. Es ist als Managed ETL bekannt, was bedeutet, dass es zum Extrahieren, Transformieren und Laden von Daten zur Vorbereitung von Berichten und Analysen verwendet wird. AWS Glue ist ein Datenkatalog zum Speichern von Metadaten in einem zentralen Repository. Dies ist eine Möglichkeit, ETL zu automatisieren, um AWS Glue auf auf AWS gespeicherte Daten zu verweisen. Die Daten sind für alle Cloud-Berichte und -Analysen, die Sie benötigen, durchsuchbar und durchsuchbar. Es ist hilfreich, ETL zu verstehen, bevor Sie sich mit AWS Glue und den Vorteilen seiner Verwendung befassen. Bei ETL handelt es sich um die Art und Weise, wie Datenverwaltungsmitarbeiter in einem Unternehmen Daten zusammenführen, damit sie für eine Abfrage verwendet werden können. In der Cloud können mehrere Data Warehouses und mehrere Datenbanken vorhanden sein, aber ETL bereitet die Daten vor, ohne dass die Data Warehouses verschoben werden müssen. ETL bereitet die Daten im Wesentlichen so vor, dass sie für die Analyse und Berichterstellung bereit sind, anstatt die Daten zu verschieben, zu isolieren und dann Abfragen auszuführen. zur Vorbereitung einer Analyse oder eines Berichts. AWS Glue ist das Tool, das ETL-Code für die Programmiersprachen Scala oder Python generiert. Sobald Sie die Katalogdaten generiert haben, können Sie die Daten im Wesentlichen mithilfe von Cloud-Computing-Tools wie Amazon Athena, Amazon EMR und Amazon Redshift Spectrum abfragen und abfragen, die alle darauf ausgelegt sind, Unternehmen bei der Speicherung und Verwendung von Daten in Anwendungen zu unterstützen. AWS Glue funktioniert auch mit Virtual Private Cloud (Amazon VPC) auf Amazon EC2. Um zu verstehen, was AWS Glue ist, ist es hilfreich zu verstehen, wie es funktioniert. Zu Beginn können Datenverwaltungsmitarbeiter, Entwickler und Datenwissenschaftler die AWS Management Console verwenden, um Datenquellen zu registrieren. Nach der Analyse der Daten erstellt ETL Kataloge mit Klassifikatoren wie JSON, CSV und Parquet. Anschließend wählen die Mitarbeiter eine Quelle für die ETL aus und generieren den für die Berichterstellung und Analyse erforderlichen Code. Schließlich kann ETL wiederkehrende Jobs planen und Daten für Tools wie AWS Lambda vorbereiten.