Brasidas — Nutzung von AWS-Services, Pipeline für unstrukturierte Daten

Trustsoft half Brasidas beim Aufbau einer sicheren AWS-Pipeline zur effizienten Verarbeitung und Analyse unstrukturierter Daten.
Client
Brasidas
Date
Die Brasidas Group mit Hauptsitz in der Nähe von Zürich, Schweiz, und Niederlassungen in New Jersey, USA, und Belgrad, Serbien, ist ein multinationales Unternehmen für strategische Intelligenz und Risikoberatung. Basierend auf den Prinzipien der Geheimhaltung, Zuverlässigkeit, Wahrhaftigkeit und Aktualität bieten sie hochwertige, maßgeschneiderte Business-Intelligence-Dienste an. Ihr Ziel als Partner für globale Risikoberatung ist es, aktuelle internationale Schlagzeilen vorherzusagen und nützliche Informationen bereitzustellen, die Leben verändern. Sie baten uns um Hilfe bei der Nutzung der AWS-Services und beim Data Lake-Management.

Der Ausgangspunkt

Brasidas verfügte über verschiedene unstrukturierte Daten in verschiedenen Formaten und an verschiedenen Orten. Ihr Wunsch war es, mehrere Datenquellen in einem zentralen Data Lake zu aggregieren. Nutzen Sie die AWS-ETL-Services, um die Daten aufzunehmen und sie dann für spätere Datenanalysezwecke per SQL abzufragen.

Die Herausforderung

Das Projekt hatte mehrere Ideen, wie die Datenpipeline angegangen werden sollte, aber die wahrscheinlich größte Herausforderung bestand darin, alle Verbindungen zu verschiedenen Ressourcen herzustellen und mit der Konvertierung nicht unterstützter Datenformate umzugehen, was anhand eines Prototyps eines Glue-Python-Skripts als Beispiel und der AWS Glue DataBrew-Pipeline als zweites erledigt wurde.

Was wir gemacht haben

Die Architektur besteht aus einer 3-Tier-VPC für private, öffentliche und Datenbank-Workloads, RDS-Instance, Bastion Host EC2, S3-Buckets sowie Glue-Jobs und -Crawler. Athena wird verwendet, um die gecrawlten Daten über SQL-Anweisungen abzufragen.
Alle vertraulichen Daten wie Geheimnisse werden in Secrets Manager-Tresoren aufbewahrt, die mit einem projektgebundenen KMS-Schlüssel entschlüsselt werden können. Die IAM-Sicherheitsrichtlinien basieren auf ABAC (Attribute-based Access Control), was bedeutet, dass die Ressourcen über entsprechende Attribute verfügen müssen, damit AWS-Services darauf zugreifen können.

Das Projekt zeigt mehrere Beispiele für die Verwendung von Glue for ETL-Prozessen und ermöglicht es Glue, mit verschiedenen Diensten und Ressourcen zu kommunizieren, um Daten abzurufen.
Das gesamte Projekt ist in Terraform geschrieben. Aktualisierungen und Änderungen sollten vorgenommen werden und werden in Terraform statt in Console/UI vorgenommen, um Konfigurationsabweichungen zu vermeiden.

Ergebnisse

VORHER
KEINE PIPELINE FÜR DIE GROSSE DATENMENGE
VIELE ANWENDUNGEN UND RESSOURCEN, DIE NICHT ZUSAMMENGEARBEITET HABEN
WENIGER AUTOMATISIERUNG — SKRIPTE WERDEN MANUELL HOCHGELADEN
XLSX - CSV-KONVERTIERUNG UNBEFRIEDIGEND
JETZT
VOLLSTÄNDIGE PIPELINE FÜR AUFNAHME UND ABFRAGE
DATEN, VERSCHIEDENE RESSOURCEN, KOMMUNIKATION MIT AWS GLUE
AUTOMATISIERUNG
HOHE DATENSICHERHEIT
DIE KONVERTIERUNG VON XLSX NACH CSV WURDE VERBESSERT

Testimonial

No items found.

Fragen Sie unsere Experten

Hinterlassen Sie uns einen Kontakt, wir melden uns bei Ihnen

Danke! Wir haben deine E-Mail erhalten.
Hoppla! Bitte versuchen Sie es später erneut.