10 référentiels GitHub pour maîtriser l’ingénierie des données

Photo de couverture du blog 10 référentiels GitHub pour Master Data Engineering


Image par auteur | DALLE-3 & Canva

L’ingénierie des données connaît une croissance rapide et les entreprises embauchent désormais plus d’ingénieurs de données que de data scientists. Les emplois opérationnels tels que l’ingénierie des données, l’architecture cloud et l’ingénierie MLOps sont très demandés.

En tant qu’ingénieur de données, vous devez maîtriser la conteneurisation, l’infrastructure en tant que code, l’orchestration des flux de travail, l’ingénierie analytique, le traitement par lots et les outils de streaming. Outre ces outils, vous devez maîtriser l’infrastructure cloud et gérer des services comme Databricks et Snowflakes.

Dans ce blog, nous découvrirons 10 référentiels GitHub qui vous aideront à maîtriser tous les outils et concepts de base. Ces référentiels GitHub contiennent des cours, des expériences, des feuilles de route, une liste d’outils essentiels, des projets et un manuel. Tout ce que vous avez à faire est de les ajouter à vos favoris tout en apprenant à devenir un ingénieur de données professionnel.

1. Ingénierie des données impressionnante

Le Ingénierie des données impressionnante Le référentiel contient une liste d’outils, de frameworks et de bibliothèques pour l’ingénierie des données, ce qui en fait un excellent point de départ pour tous ceux qui souhaitent se lancer dans ce domaine.

Il couvre les outils sur les bases de données, l’ingestion de données, le système de fichiers, le streaming, le traitement par lots, la gestion des lacs de données, l’orchestration des flux de travail, la surveillance, les tests, ainsi que les graphiques et tableaux de bord.

Lien: igorbarinov/génial-ingénierie-des-données

2. Zoomcamp sur l’ingénierie des données

Zoomcamp sur l’ingénierie des données est un cours complet qui offre une expérience d’apprentissage pratique en ingénierie des données. Vous apprenez de nouveaux concepts et outils à l’aide de didacticiels vidéo, de quiz, de projets, de devoirs et d’évaluations communautaires.

Le Zoomcamp d’ingénierie des données couvre :

  1. Conteneurisation et infrastructure en tant que code
  2. Orchestration du flux de travail
  3. Ingestion de données
  4. Entrepôt de données
  5. Ingénierie analytique
  6. Le traitement par lots
  7. Streaming

Lien: DataTalksClub/data-engineering-zoomcamp

3. Le livre de recettes sur l’ingénierie des données

Le Livre de recettes sur l’ingénierie des données est une collection d’articles et de didacticiels qui couvrent divers aspects de l’ingénierie des données, notamment l’ingestion de données, le traitement des données et l’entreposage de données.

Le livre de recettes sur l’ingénierie des données comprend :

  1. Compétences de base en ingénierie
  2. Compétences avancées en ingénierie
  3. Cours pratiques/tutoriels gratuits
  4. Études de cas
  5. Meilleures pratiques des plateformes cloud
  6. Plus de 130 sources de données Science des données
  7. 1001 questions d’entretien
  8. Livres, cours et podcasts recommandés

Lien: andkret/Livre de recettes

4. Feuille de route de l’ingénieur de données

Le Feuille de route de l’ingénieur de données Le référentiel fournit un guide étape par étape pour devenir ingénieur de données. Ce référentiel couvre tout, des bases de l’ingénierie des données aux sujets avancés tels que les infrastructures en tant que code et le cloud computing.

La feuille de route de l’ingénieur de données comprend :

  1. Fondamentaux CS
  2. Apprendre Python
  3. Essai
  4. Base de données
  5. Entrepôt de données
  6. Informatique en cluster
  7. Traitement de l’information
  8. Messagerie
  9. Planification du flux de travail
  10. Réseau
  11. Les infrastructures comme code
  12. CI/CD
  13. Sécurité et confidentialité des données

Lien: datastacktv/data-engineer-roadmap

5. Comment faire sur l’ingénierie des données

Comment faire de l’ingénierie des données est une ressource adaptée aux débutants pour apprendre l’ingénierie des données à partir de zéro. Il contient une liste de didacticiels, de cours, de livres et d’autres ressources pour vous aider à construire une base solide dans les concepts et les meilleures pratiques d’ingénierie des données. Si vous êtes nouveau dans le domaine, ce référentiel vous aidera à naviguer facilement dans le vaste paysage de l’ingénierie des données.

Comment devenir un ingénieur de données comprend :

  1. Articles et blogs utiles
  2. Pourparlers
  3. Algorithmes et structures de données
  4. SQL
  5. La programmation
  6. Bases de données
  7. Systèmes distribués
  8. Livres
  9. Cours
  10. Outils
  11. Plateformes cloud
  12. Communautés
  13. Emplois
  14. Lettres d’information

Lien: adilkhash/Data-Engineering-HowTo

6. Superbe ingénierie de données Open Source

Ingénierie de données Open Source géniale est une liste d’outils d’ingénierie de données open source qui constitue une mine d’or pour quiconque cherche à y contribuer ou à les utiliser pour créer des projets d’ingénierie de données réels. Il contient une multitude d’informations sur les outils et frameworks open source, ce qui en fait une excellente ressource pour tous ceux qui cherchent à explorer des solutions alternatives d’ingénierie des données.

Le référentiel comprend des outils open source sur :

  1. Analytique
  2. L’intelligence d’entreprise
  3. Données Lakehouse
  4. Modifier la capture de données
  5. Banques de données
  6. Gouvernance des données et registres
  7. Virtualisation des données
  8. Orchestration des données
  9. Formats
  10. L’intégration
  11. Infrastructure de messagerie
  12. Spécifications et normes
  13. Traitement des flux
  14. Essai
  15. Surveillance et journalisation
  16. Gestion des versions
  17. Gestion du flux de travail

Lien: gunnarmorling/génial-opensource-data-engineering

7. Exemple de projet Pyspark

Exemple de projet Pyspark Le référentiel fournit un exemple pratique de mise en œuvre des meilleures pratiques pour les tâches et applications PySpark ETL.

PySpark est un outil populaire pour le traitement des données, et ce référentiel vous aidera à le maîtriser. Vous apprendrez à structurer votre code, à gérer les transformations de données et à optimiser efficacement vos flux de travail PySpark.

Le projet couvre :

  1. Structure d’un travail ETL
  2. Transmission des paramètres de configuration au travail ETL
  3. Dépendances des tâches ETL d’empaquetage
  4. Exécuter le travail ETL
  5. Débogage des tâches Spark
  6. Tests automatisés
  7. Gestion des dépendances du projet

Lien: AlexIoannides/pyspark-exemple-projet

8. Manuel de l’ingénieur de données

Manuel de l’ingénieur de données est une collection complète de ressources couvrant tous les aspects de l’ingénierie des données. Il comprend des tutoriels, des articles et des livres sur tous les sujets liés à l’ingénierie des données. Que vous recherchiez un guide de référence rapide ou des connaissances approfondies, ce manuel s’adresse aux ingénieurs de données de tous niveaux.

Le manuel comprend :

  1. Grands livres
  2. Communautés à suivre
  3. Entreprises à surveiller
  4. Blogs à lire
  5. Papiers blanc
  6. Excellentes chaînes YouTube
  7. Excellents podcasts
  8. Lettres d’information
  9. Influenceurs LinkedIn, Twitter, TikTok et Instagram à suivre
  10. Cours
  11. Certifications
  12. Conférences

Lien: DataExpert-io/data-engineer-handbook

9. Wiki d’ingénierie des données

Le Wiki d’ingénierie des données Le référentiel est un wiki communautaire qui fournit une ressource complète pour l’apprentissage de l’ingénierie des données. Ce référentiel couvre un large éventail de sujets, notamment les pipelines de données, l’entreposage de données et la modélisation des données.

Le wiki d’ingénierie des données comprend :

  1. Concepts d’ingénierie des données
  2. Foire aux questions sur l’ingénierie des données
  3. Guides sur la façon de prendre des décisions en matière d’ingénierie des données
  4. Outils couramment utilisés pour l’ingénierie des données
  5. Guides étape par étape pour les tâches d’ingénierie des données
  6. Ressources d’apprentissage

Lien: communauté-d’ingénierie-de-données/wiki-d’ingénierie-de-données

10. Pratique de l’ingénierie des données

Pratique de l’ingénierie des données propose une approche pratique de l’apprentissage de l’ingénierie des données. Il propose des projets pratiques et des exercices pour vous aider à appliquer vos connaissances et compétences dans des scénarios du monde réel. En travaillant sur ces projets, vous acquerrez une expérience pratique et construirez un portefeuille qui mettra en valeur vos capacités en ingénierie de données.

Les problèmes pratiques d’ingénierie des données comprennent des exercices sur :

  1. Téléchargement de fichiers
  2. Web Scraping + Téléchargement + Pandas
  3. Boto3 AWS + s3 + Python.
  4. Convertir JSON en CSV + répertoires Ragged
  5. Modélisation de données pour Postgres + Python
  6. Ingestion et agrégation avec PySpark
  7. Utilisation de diverses fonctions PySpark
  8. Utiliser DuckDB pour l’analyse et les transformations
  9. Utilisation du calcul paresseux Polars

Lien: danielbeach/pratique-d’ingénierie-de-données

Derniers mots

Maîtriser l’ingénierie des données nécessite du dévouement, de la persévérance et une passion pour l’apprentissage de nouveaux concepts et outils. Ces 10 référentiels GitHub fournissent une multitude d’informations et de ressources pour vous aider à devenir un ingénieur de données professionnel et vous tenir au courant des tendances actuelles.

Que vous soyez débutant ou ingénieur de données expérimenté, je vous encourage à explorer ces ressources, à contribuer à des projets open source et à rester engagé auprès de la communauté dynamique d’ingénierie de données sur GitHub.

Abid Ali Awan (@1abidaliawan) est un professionnel certifié en data scientist qui adore créer des modèles d’apprentissage automatique. Actuellement, il se concentre sur la création de contenu et rédige des blogs techniques sur les technologies d’apprentissage automatique et de science des données. Abid est titulaire d’une maîtrise en gestion technologique et d’un baccalauréat en ingénierie des télécommunications. Sa vision est de créer un produit d’IA utilisant un réseau neuronal graphique pour les étudiants aux prises avec une maladie mentale.

Source