
Brasidas — Nutzung von AWS-Services, Pipeline für unstrukturierte Daten
Die Brasidas Group mit Hauptsitz in der Nähe von Zürich, Schweiz, und Niederlassungen in New Jersey, USA, und Belgrad, Serbien, ist ein multinationales Unternehmen für strategische Intelligenz und Risikoberatung. Basierend auf den Prinzipien der Geheimhaltung, Zuverlässigkeit, Wahrhaftigkeit und Aktualität bieten sie hochwertige, maßgeschneiderte Business-Intelligence-Dienste an. Ihr Ziel als Partner für globale Risikoberatung ist es, aktuelle internationale Schlagzeilen vorherzusagen und nützliche Informationen bereitzustellen, die Leben verändern. Sie baten uns um Hilfe bei der Nutzung der AWS-Services und beim Data Lake-Management.
Der Ausgangspunkt
Brasidas verfügte über verschiedene unstrukturierte Daten in verschiedenen Formaten und an verschiedenen Orten. Ihr Wunsch war es, mehrere Datenquellen in einem zentralen Data Lake zu aggregieren. Nutzen Sie die AWS-ETL-Services, um die Daten aufzunehmen und sie dann für spätere Datenanalysezwecke per SQL abzufragen.
Die Herausforderung
Das Projekt hatte mehrere Ideen, wie die Datenpipeline angegangen werden sollte, aber die wahrscheinlich größte Herausforderung bestand darin, alle Verbindungen zu verschiedenen Ressourcen herzustellen und mit der Konvertierung nicht unterstützter Datenformate umzugehen, was anhand eines Prototyps eines Glue-Python-Skripts als Beispiel und der AWS Glue DataBrew-Pipeline als zweites erledigt wurde.
Was wir gemacht haben
Die Architektur besteht aus einer 3-Tier-VPC für private, öffentliche und Datenbank-Workloads, RDS-Instance, Bastion Host EC2, S3-Buckets sowie Glue-Jobs und -Crawler. Athena wird verwendet, um die gecrawlten Daten über SQL-Anweisungen abzufragen.
Alle vertraulichen Daten wie Geheimnisse werden in Secrets Manager-Tresoren aufbewahrt, die mit einem projektgebundenen KMS-Schlüssel entschlüsselt werden können. Die IAM-Sicherheitsrichtlinien basieren auf ABAC (Attribute-based Access Control), was bedeutet, dass die Ressourcen über entsprechende Attribute verfügen müssen, damit AWS-Services darauf zugreifen können.
Das Projekt zeigt mehrere Beispiele für die Verwendung von Glue for ETL-Prozessen und ermöglicht es Glue, mit verschiedenen Diensten und Ressourcen zu kommunizieren, um Daten abzurufen.
Das gesamte Projekt ist in Terraform geschrieben. Aktualisierungen und Änderungen sollten vorgenommen werden und werden in Terraform statt in Console/UI vorgenommen, um Konfigurationsabweichungen zu vermeiden.

Ergebnisse
Testimonial

Fragen Sie unsere Experten
Hinterlassen Sie uns einen Kontakt, wir melden uns bei Ihnen





