Image générée par l’auteur avec DALL·E 3
Pour de nombreux data scientists professionnels, Jupyter Notebook est devenu l’outil de prédilection. Personnellement, c’est toujours mon premier choix pour toute expérience ou flux de travail en science des données.
Jupyter Notebook se distingue comme un IDE unique pour les data scientists, car il permet d’exécuter du code indépendamment dans chaque cellule, tout en offrant la possibilité d’expliquer chaque étape. Cette caractéristique rend les notebooks réutilisables et idéaux pour servir de modèles de projet.
Dans cet article, nous explorerons cinq modèles gratuits pour créer des projets de science des données sur Jupyter Notebook. Quels sont ces modèles ? Découvrons-les ensemble.
1. Modèle Cookiecutter pour les projets de science des données Python
Le premier modèle dont nous parlerons n’est pas un projet de code complet prêt à l’emploi, mais une structure de projet complète prenant en charge Jupyter Notebook. Il s’agit des Projets de science des données Python par AWS.
Ce modèle crée une structure de projet de science des données prête à l’emploi. En utilisant Cookiecutter CLI, vous pouvez générer une structure de répertoires similaire à celle-ci :
|-- bin/
|-- notebooks # Répertoire pour les fichiers notebooks
| |-- *.ipynb
| `-- my_nb_path.py # Importé par *.ipynb pour traiter src/ comme PYTHONPATH
|-- requirements/
|-- src
| |-- my_custom_module # Votre module personnalisé
| |-- my_nb_color.py # Importé par *.ipynb pour coloriser leurs sorties
| `-- source_dir # Codes supplémentaires comme le répertoire source SageMaker
|-- tests/ # Tests unitaires
|-- MANIFEST.in # Requis par setup.py (si le nom du module est spécifié)
|-- setup.py # Pour installer votre module Python (si le nom du module est spécifié)
# Ces fichiers de configuration sont également générés automatiquement :
|-- .editorconfig # Configuration de l'éditeur (pour IDE / éditeur qui le supporte)
|-- .gitattributes # Exemple de .gitattributes
|-- .gitleaks.toml # Configuration Gitleaks (si pre_commit est avancé)
|-- .gitignore # Exemple de .gitignore
|-- .pre-commit-config.yaml # Hooks precommit
|-- LICENSE # Modèle de licence
|-- README.md # Modèle à personnaliser
|-- pyproject.toml # Configurations pour les chaînes d'outils Python
`-- tox.ini # Configurations pour les chaînes d'outils Python
Pour voir comment ce modèle est appliqué à un projet réel, consultez cet exemple de cas d’utilisation.
2. Modèles de notebooks de science des données par Coen Meintjes
Le prochain modèle est proposé par Coen Meintjes. Il s’agit d’une collection de notebooks couvrant des étapes allant de l’exploration des données à l’évaluation des modèles. Ce modèle n’est pas spécifique à un projet, mais fournit le code essentiel nécessaire pour démarrer divers types de projets.
Ce modèle de base est adaptable à différents projets avec quelques modifications mineures. Il est particulièrement utile pour les débutants et les professionnels, car il explique en détail de nombreux processus.
3. Projets de science des données par Yusuf Cinarci
Pour un modèle plus spécifique, explorez les modèles de notebooks Jupyter pour projets de science des données par Yusuf Cinarci. Ces modèles sont parfaits pour développer des projets simples pour votre portfolio ou pour des besoins commerciaux.
Vous trouverez une variété de projets, allant de l’exploration des données salariales à la création de systèmes de détection de fausses nouvelles et de recommandation de films. Ces modèles sont idéaux pour les débutants souhaitant démarrer facilement leurs projets.
4. Projets de science des données par Sukman Singh
Pour des modèles plus complexes, consultez les modèles de notebooks Jupyter de projets de science des données par Sukman Singh. Ils sont parfaits pour ceux qui souhaitent développer des modèles de prédiction et ont besoin d’inspiration pour leurs idées.
Cette collection comprend des projets tels que la prévision du taux de désabonnement des clients, l’approbation des prêts et la détection de fraude. Ces projets peuvent enrichir votre portfolio et sont extensibles pour s’adapter à différents ensembles de données.
5. Superbes notebooks Jupyter Naas
Enfin, découvrons les Superbes notebooks Jupyter Naas. Ce projet vise à créer le plus grand catalogue de modèles Jupyter Notebook prêts pour la production, avec une multitude de modèles gratuits disponibles.
Ces modèles couvrent divers cas d’utilisation, du développement de l’IA à l’analyse des entonnoirs commerciaux et au téléchargement de vidéos YouTube. Une bonne compréhension de Python et de la science des données est nécessaire pour tirer pleinement parti de ces modèles.
Conclusion
Jupyter Notebook est un outil essentiel pour de nombreux data scientists professionnels, offrant une plateforme idéale pour les avancées en science des données. Sa capacité à être facilement partagé et réutilisé en fait un excellent choix pour créer des modèles de projet.
Dans cet article, nous avons exploré cinq modèles Jupyter Notebook gratuits pour améliorer vos projets de science des données :
- Modèle Cookiecutter pour les projets de science des données Python
- Modèles de notebooks de science des données par Coen Meintjes
- Projets de science des données par Yusuf Cinarci
- Projets de science des données par Sukman Singh
- Superbes notebooks Jupyter Naas
Cornellius Yudha Wijaya est directeur adjoint de la science des données et rédacteur de données. Travaillant à temps plein chez Allianz Indonesia, il partage ses conseils sur Python et les données via les réseaux sociaux et la rédaction. Cornellius écrit sur divers sujets liés à l’IA et à l’apprentissage automatique.