10 référentiels GitHub pour maîtriser l’ingénierie des données

Image par auteur | DALLE-3 & Canva

L’ingénierie des données connaît une croissance rapide et les entreprises embauchent désormais plus d’ingénieurs de données que de data scientists. Les emplois opérationnels tels que l’ingénierie des données, l’architecture cloud et l’ingénierie MLOps sont très demandés.

En tant qu’ingénieur de données, vous devez maîtriser la conteneurisation, l’infrastructure en tant que code, l’orchestration des flux de travail, l’ingénierie analytique, le traitement par lots et les outils de streaming. Outre ces outils, vous devez maîtriser l’infrastructure cloud et gérer des services comme Databricks et Snowflakes.

Dans ce blog, nous découvrirons 10 référentiels GitHub qui vous aideront à maîtriser tous les outils et concepts de base. Ces référentiels GitHub contiennent des cours, des expériences, des feuilles de route, une liste d’outils essentiels, des projets et un manuel. Tout ce que vous avez à faire est de les ajouter à vos favoris tout en apprenant à devenir un ingénieur de données professionnel.

1. Ingénierie des données impressionnante

Le Ingénierie des données impressionnante Le référentiel contient une liste d’outils, de frameworks et de bibliothèques pour l’ingénierie des données, ce qui en fait un excellent point de départ pour tous ceux qui souhaitent se lancer dans ce domaine.

Il couvre les outils sur les bases de données, l’ingestion de données, le système de fichiers, le streaming, le traitement par lots, la gestion des lacs de données, l’orchestration des flux de travail, la surveillance, les tests, ainsi que les graphiques et tableaux de bord.

Lien: igorbarinov/génial-ingénierie-des-données

2. Zoomcamp sur l’ingénierie des données

Zoomcamp sur l’ingénierie des données est un cours complet qui offre une expérience d’apprentissage pratique en ingénierie des données. Vous apprenez de nouveaux concepts et outils à l’aide de didacticiels vidéo, de quiz, de projets, de devoirs et d’évaluations communautaires.

Le Zoomcamp d’ingénierie des données couvre :

Conteneurisation et infrastructure en tant que code
Orchestration du flux de travail
Ingestion de données
Entrepôt de données
Ingénierie analytique
Le traitement par lots
Streaming

Lien: DataTalksClub/data-engineering-zoomcamp

3. Le livre de recettes sur l’ingénierie des données

Le Livre de recettes sur l’ingénierie des données est une collection d’articles et de didacticiels qui couvrent divers aspects de l’ingénierie des données, notamment l’ingestion de données, le traitement des données et l’entreposage de données.

Le livre de recettes sur l’ingénierie des données comprend :

Compétences de base en ingénierie
Compétences avancées en ingénierie
Cours pratiques/tutoriels gratuits
Études de cas
Meilleures pratiques des plateformes cloud
Plus de 130 sources de données Science des données
1001 questions d’entretien
Livres, cours et podcasts recommandés

Lien: andkret/Livre de recettes

4. Feuille de route de l’ingénieur de données

Le Feuille de route de l’ingénieur de données Le référentiel fournit un guide étape par étape pour devenir ingénieur de données. Ce référentiel couvre tout, des bases de l’ingénierie des données aux sujets avancés tels que les infrastructures en tant que code et le cloud computing.

La feuille de route de l’ingénieur de données comprend :

Fondamentaux CS
Apprendre Python
Essai
Base de données
Entrepôt de données
Informatique en cluster
Traitement de l’information
Messagerie
Planification du flux de travail
Réseau
Les infrastructures comme code
CI/CD
Sécurité et confidentialité des données

Lien: datastacktv/data-engineer-roadmap

5. Comment faire sur l’ingénierie des données

Comment faire de l’ingénierie des données est une ressource adaptée aux débutants pour apprendre l’ingénierie des données à partir de zéro. Il contient une liste de didacticiels, de cours, de livres et d’autres ressources pour vous aider à construire une base solide dans les concepts et les meilleures pratiques d’ingénierie des données. Si vous êtes nouveau dans le domaine, ce référentiel vous aidera à naviguer facilement dans le vaste paysage de l’ingénierie des données.

Comment devenir un ingénieur de données comprend :

Articles et blogs utiles
Pourparlers
Algorithmes et structures de données
SQL
La programmation
Bases de données
Systèmes distribués
Livres
Cours
Outils
Plateformes cloud
Communautés
Emplois
Lettres d’information

Lien: adilkhash/Data-Engineering-HowTo

6. Superbe ingénierie de données Open Source

Ingénierie de données Open Source géniale est une liste d’outils d’ingénierie de données open source qui constitue une mine d’or pour quiconque cherche à y contribuer ou à les utiliser pour créer des projets d’ingénierie de données réels. Il contient une multitude d’informations sur les outils et frameworks open source, ce qui en fait une excellente ressource pour tous ceux qui cherchent à explorer des solutions alternatives d’ingénierie des données.

Le référentiel comprend des outils open source sur :

Analytique
L’intelligence d’entreprise
Données Lakehouse
Modifier la capture de données
Banques de données
Gouvernance des données et registres
Virtualisation des données
Orchestration des données
Formats
L’intégration
Infrastructure de messagerie
Spécifications et normes
Traitement des flux
Essai
Surveillance et journalisation
Gestion des versions
Gestion du flux de travail

Lien: gunnarmorling/génial-opensource-data-engineering

7. Exemple de projet Pyspark

Exemple de projet Pyspark Le référentiel fournit un exemple pratique de mise en œuvre des meilleures pratiques pour les tâches et applications PySpark ETL.

PySpark est un outil populaire pour le traitement des données, et ce référentiel vous aidera à le maîtriser. Vous apprendrez à structurer votre code, à gérer les transformations de données et à optimiser efficacement vos flux de travail PySpark.

Le projet couvre :

Structure d’un travail ETL
Transmission des paramètres de configuration au travail ETL
Dépendances des tâches ETL d’empaquetage
Exécuter le travail ETL
Débogage des tâches Spark
Tests automatisés
Gestion des dépendances du projet

Lien: AlexIoannides/pyspark-exemple-projet

8. Manuel de l’ingénieur de données

Manuel de l’ingénieur de données est une collection complète de ressources couvrant tous les aspects de l’ingénierie des données. Il comprend des tutoriels, des articles et des livres sur tous les sujets liés à l’ingénierie des données. Que vous recherchiez un guide de référence rapide ou des connaissances approfondies, ce manuel s’adresse aux ingénieurs de données de tous niveaux.

Le manuel comprend :

Grands livres
Communautés à suivre
Entreprises à surveiller
Blogs à lire
Papiers blanc
Excellentes chaînes YouTube
Excellents podcasts
Lettres d’information
Influenceurs LinkedIn, Twitter, TikTok et Instagram à suivre
Cours
Certifications
Conférences

Lien: DataExpert-io/data-engineer-handbook

9. Wiki d’ingénierie des données

Le Wiki d’ingénierie des données Le référentiel est un wiki communautaire qui fournit une ressource complète pour l’apprentissage de l’ingénierie des données. Ce référentiel couvre un large éventail de sujets, notamment les pipelines de données, l’entreposage de données et la modélisation des données.

Le wiki d’ingénierie des données comprend :

Concepts d’ingénierie des données
Foire aux questions sur l’ingénierie des données
Guides sur la façon de prendre des décisions en matière d’ingénierie des données
Outils couramment utilisés pour l’ingénierie des données
Guides étape par étape pour les tâches d’ingénierie des données
Ressources d’apprentissage

Lien: communauté-d’ingénierie-de-données/wiki-d’ingénierie-de-données

10. Pratique de l’ingénierie des données

Pratique de l’ingénierie des données propose une approche pratique de l’apprentissage de l’ingénierie des données. Il propose des projets pratiques et des exercices pour vous aider à appliquer vos connaissances et compétences dans des scénarios du monde réel. En travaillant sur ces projets, vous acquerrez une expérience pratique et construirez un portefeuille qui mettra en valeur vos capacités en ingénierie de données.

Les problèmes pratiques d’ingénierie des données comprennent des exercices sur :

Téléchargement de fichiers
Web Scraping + Téléchargement + Pandas
Boto3 AWS + s3 + Python.
Convertir JSON en CSV + répertoires Ragged
Modélisation de données pour Postgres + Python
Ingestion et agrégation avec PySpark
Utilisation de diverses fonctions PySpark
Utiliser DuckDB pour l’analyse et les transformations
Utilisation du calcul paresseux Polars

Lien: danielbeach/pratique-d’ingénierie-de-données

Derniers mots

Maîtriser l’ingénierie des données nécessite du dévouement, de la persévérance et une passion pour l’apprentissage de nouveaux concepts et outils. Ces 10 référentiels GitHub fournissent une multitude d’informations et de ressources pour vous aider à devenir un ingénieur de données professionnel et vous tenir au courant des tendances actuelles.

Que vous soyez débutant ou ingénieur de données expérimenté, je vous encourage à explorer ces ressources, à contribuer à des projets open source et à rester engagé auprès de la communauté dynamique d’ingénierie de données sur GitHub.

Abid Ali Awan (@1abidaliawan) est un professionnel certifié en data scientist qui adore créer des modèles d’apprentissage automatique. Actuellement, il se concentre sur la création de contenu et rédige des blogs techniques sur les technologies d’apprentissage automatique et de science des données. Abid est titulaire d’une maîtrise en gestion technologique et d’un baccalauréat en ingénierie des télécommunications. Sa vision est de créer un produit d’IA utilisant un réseau neuronal graphique pour les étudiants aux prises avec une maladie mentale.

Source