L’ingénierie des données fait référence au processus de création et de maintenance de structures et de systèmes qui collectent, stockent et transforment les données dans un format qui peut être facilement analysé et utilisé par les data scientists, les analystes et les parties prenantes de l’entreprise. Cette feuille de route vous guidera dans la maîtrise de divers concepts et outils, vous permettant de créer et d’exécuter efficacement différents types de pipelines de données.
La conteneurisation permet aux développeurs de regrouper leurs applications et dépendances dans des conteneurs légers et portables qui peuvent s’exécuter de manière cohérente dans différents environnements. L’Infrastructure as Code, quant à elle, est la pratique de gestion et de provisionnement de l’infrastructure via du code, permettant aux développeurs de définir, de versionner et d’automatiser l’infrastructure cloud.
Dans la première étape, vous découvrirez les principes fondamentaux de la syntaxe SQL, des conteneurs Docker et de la base de données Postgres. Vous apprendrez comment lancer un serveur de base de données à l’aide de Docker localement, ainsi que comment créer un pipeline de données dans Docker. De plus, vous développerez une compréhension de Google Cloud Provider (GCP) et de Terraform. Terraform vous sera particulièrement utile pour déployer vos outils, bases de données et frameworks sur le cloud.
L’orchestration des flux de travail gère et automatise le flux de données à travers différentes étapes de traitement, telles que l’ingestion, le nettoyage, la transformation et l’analyse des données. Il s’agit d’une manière de faire plus efficace, fiable et évolutive.
Dans la deuxième étape, vous découvrirez les outils d’orchestration de données comme Airflow, Mage ou Prefect. Ils sont tous open source et sont dotés de plusieurs fonctionnalités essentielles pour observer, gérer, déployer et exécuter un pipeline de données. Vous apprendrez à configurer Prefect à l’aide de Docker et à créer un pipeline ETL à l’aide de Postgres, de Google Cloud Storage (GCS) et des API BigQuery.
Vérifiez 5 alternatives de flux d’air pour l’orchestration des données et choisissez celui qui vous convient le mieux.
L’entreposage de données est le processus de collecte, de stockage et de gestion de grandes quantités de données provenant de diverses sources dans un référentiel centralisé, facilitant ainsi l’analyse et l’extraction d’informations précieuses.
Dans la troisième étape, vous apprendrez tout sur l’entrepôt de données Postgres (local) ou BigQuery (cloud). Vous découvrirez les concepts de partitionnement et de clustering, et découvrirez les bonnes pratiques de BigQuery. BigQuery fournit également une intégration de machine learning qui vous permet d’entraîner des modèles sur des données volumineuses, le réglage des hyperparamètres, le prétraitement des fonctionnalités et le déploiement de modèles. C’est comme SQL pour l’apprentissage automatique.
L’ingénierie analytique est une discipline spécialisée qui se concentre sur la conception, le développement et la maintenance de modèles de données et de pipelines analytiques pour les équipes de business intelligence et de science des données.
Dans la quatrième étape, vous apprendrez à créer un pipeline analytique à l’aide de dbt (Data Build Tool) avec un entrepôt de données existant, tel que BigQuery ou PostgreSQL. Vous acquerrez une compréhension des concepts clés tels que ETL vs ELT, ainsi que de la modélisation des données. Vous apprendrez également les fonctionnalités avancées de DBT telles que les modèles incrémentiels, les balises, les hooks et les instantanés.
En fin de compte, vous apprendrez à utiliser des outils de visualisation tels que Google Data Studio et Metabase pour créer des tableaux de bord interactifs et des rapports d’analyse de données.
Le traitement par lots est une technique d’ingénierie des données qui implique le traitement de gros volumes de données par lots (chaque minute, heure ou même jour), plutôt que de traiter les données en temps réel ou quasi réel.
Au cours de la cinquième étape de votre parcours d’apprentissage, vous serez initié au traitement par lots avec Apache Spark. Vous apprendrez à l’installer sur différents systèmes d’exploitation, à utiliser Spark SQL et DataFrames, à préparer des données, à effectuer des opérations SQL et à comprendre les composants internes de Spark. Vers la fin de cette étape, vous apprendrez également comment démarrer des instances Spark dans le cloud et les intégrer à l’entrepôt de données BigQuery.
Le streaming fait référence à la collecte, au traitement et à l’analyse de données en temps réel ou quasi réel. Contrairement au traitement par lots traditionnel, où les données sont collectées et traitées à intervalles réguliers, le traitement des données en continu permet une analyse continue des informations les plus récentes.
Dans la sixième étape, vous découvrirez le streaming de données avec Apache Kafka. Commencez par les bases, puis plongez dans l’intégration avec Confluent Cloud et des applications pratiques qui impliquent les producteurs et les consommateurs. De plus, vous devrez en savoir plus sur les jointures de flux, les tests, le fenêtrage et l’utilisation de Kafka ksqldb & Connect.
Si vous souhaitez explorer différents outils pour différents processus d’ingénierie des données, vous pouvez vous référer à 14 outils d’ingénierie de données essentiels à utiliser en 2024.
Dans la dernière étape, vous utiliserez tous les concepts et outils que vous avez appris au cours des étapes précédentes pour créer un projet complet d’ingénierie de données de bout en bout. Cela impliquera de créer un pipeline pour traiter les données, de stocker les données dans un lac de données, de créer un pipeline pour transférer les données traitées du lac de données vers un entrepôt de données, de transformer les données dans l’entrepôt de données et de les préparer pour le tableau de bord. . Enfin, vous créerez un tableau de bord qui présente visuellement les données.
Toutes les étapes mentionnées dans ce guide se trouvent dans le ZoomCamp sur l’ingénierie des données. Ce ZoomCamp se compose de plusieurs modules, chacun contenant des didacticiels, des vidéos, des questions et des projets pour vous aider à apprendre et à créer des pipelines de données.
Dans cette feuille de route d’ingénierie des données, nous avons appris les différentes étapes nécessaires pour apprendre, créer et exécuter des pipelines de données pour le traitement, l’analyse et la modélisation des données. Nous avons également découvert à la fois les applications et outils cloud ainsi que les outils locaux. Vous pouvez choisir de tout construire localement ou d’utiliser le cloud pour plus de facilité d’utilisation. Je recommanderais d’utiliser le cloud car la plupart des entreprises le préfèrent et souhaitent que vous acquériez de l’expérience sur les plates-formes cloud telles que GCP.
Abid Ali Awan (@1abidaliawan) est un professionnel certifié en data scientist qui adore créer des modèles d’apprentissage automatique. Actuellement, il se concentre sur la création de contenu et rédige des blogs techniques sur les technologies d’apprentissage automatique et de science des données. Abid est titulaire d’une maîtrise en gestion technologique et d’un baccalauréat en ingénierie des télécommunications. Sa vision est de créer un produit d’IA utilisant un réseau neuronal graphique pour les étudiants aux prises avec une maladie mentale.