Amine Barrak à la conférence AAAI, Vancouver, en février 2024.
Le Consortium doctoral AAAI/SIGAI offre l’occasion à un groupe de doctorants de discuter et d’explorer leurs intérêts de recherche et leurs objectifs de carrière dans le cadre d’un atelier interdisciplinaire avec un panel de chercheurs établis. Cette année, 30 étudiants ont été sélectionnés pour ce programme et nous avons entendu leurs témoignages sur leurs recherches. Dans cet entretien, Barres d’aminesnous parle de son travail visant à accélérer l’apprentissage automatique grâce à l’informatique sans serveur.
Pourriez-vous nous donner une brève introduction : où étudiez-vous et le sujet de votre recherche ?
Je m’appelle Amine Barrak et je fais mon doctorat à l’Université du Québec. Mon objectif est d’accélérer l’apprentissage automatique en utilisant l’informatique sans serveur.
Mes recherches visent à trouver un moyen de réaliser efficacement une formation en apprentissage automatique dans de petits environnements sans serveur. Cela signifie diviser les grandes tâches de la formation en tâches plus petites qui peuvent se dérouler en parallèle. Cela permet d’économiser beaucoup de temps et d’argent.
Pourriez-vous nous en dire plus sur la technologie sans serveur et sur le lien avec l’apprentissage automatique ?
L’informatique sans serveur est la technologie du cloud qui vous permet d’exécuter un morceau de code. C’est une fonction que vous pouvez écrire et exécuter, et vous ne serez facturé que pour le temps nécessaire à l’exécution de cette fonction et pour la mémoire (la RAM) utilisée pour exécuter cette fonction.
Lorsque j’ai entendu parler de cette technologie, je me suis demandé si je pouvais l’utiliser pour l’apprentissage automatique. J’ai commencé par faire une revue systématique de la littérature sur le sans serveur dans le machine learning pour savoir si les gens l’utilisaient déjà pour le machine learning ou non. J’ai découvert qu’il était déjà utilisé pour différentes étapes de l’apprentissage automatique, depuis le prétraitement des données, la formation de modèles, le réglage des hyperparamètres et le déploiement de modèles. J’ai donc fait une revue de la littérature, et ce travail a été accepté.
Après cet examen, j’ai demandé ce qui manquait ? Comment pouvons-nous utiliser cette technologie pour améliorer la formation ? La première idée qui m’est venue à l’esprit était de savoir comment adapter la formation en machine learning à ce type de technologie. Je me suis donc concentré sur la formation. C’est un peu différent de l’entraînement régulier. Dans un ordinateur normal, tout s’exécute sur cet ordinateur, où vous êtes limité à ses ressources : vous n’avez pas besoin de télécharger de données, d’envoyer des données, etc. Dans l’informatique sans serveur, c’est sans état, vous ne conservez donc aucune donnée une fois l’opération terminée. la tâche assignée et s’arrête. Cela signifie que vous devez l’adapter pour l’utiliser pour la formation en apprentissage automatique. Vous avez besoin d’un endroit où elles peuvent être avec état, en d’autres termes, d’un endroit où les données peuvent être stockées pendant la formation. La présence de la base de données était cruciale et pour gagner du temps, nous devions intégrer des opérations de machine learning au sein de la base de données.
Grâce à l’informatique sans serveur, vous pouvez gagner beaucoup de temps en effectuant des opérations d’apprentissage automatique en parallèle. Nous prenons en compte la tolérance aux pannes en gardant la formation décentralisée, inspirante du réseau peer-to-peer. Cette approche peut être appliquée dans un environnement disposant de ressources informatiques limitées, tel que les environnements Internet des objets (IoT). J’applique également cela au sein d’une entreprise, en préparant des solutions pour différents clients.
Y a-t-il un projet spécifique qui a été particulièrement intéressant dans le cadre de votre doctorat ?
Un projet de doctorat particulier concerne la modélisation de la base de données Redis pour réaliser des opérations au sein de la base de données. Je me demandais pourquoi nous devons toujours compter sur la base de données uniquement comme canal de communication. Donc, au lieu de récupérer les données, d’effectuer des calculs et de les sauvegarder dans la base de données, pourquoi ne pas les utiliser pour effectuer des calculs supplémentaires dans la base de données. La base de données Redis était parfaite à utiliser. Dans notre cas, nous utilisons Redis AI, où ils intègrent plusieurs frameworks d’apprentissage automatique au sein de la base de données. Nous le modifions pour effectuer la formation et la mise à jour du modèle au sein de la base de données. Je pense que cela pourrait être très utile aux gens à l’avenir. Les gens pourraient faire un apprentissage automatique plus opérationnel au sein de la base de données, en particulier lorsque nous parlons de technologies qui ne conservent pas l’état, comme les ordinateurs sans serveur.
Architecture SPIRT, une architecture d’apprentissage automatique sans serveur qui rationalise la formation dans des environnements distribués. SPIRT a été proposé par Amine Barrak, Mayssa Jaziri, Ranim Trabelsi, Fehmi Jaafar et Fabio Petrillo en SPIRT : une architecture de formation ML sans serveur peer-to-peer fiable et tolérante aux pannes.
Quelle est la prochaine étape de vos recherches ?
Je travaille actuellement à comparer ce travail avec d’autres solutions. En parlant spécifiquement d’architectures, mon idée était basée sur une formation distribuée et décentralisée inspirée du paradigme peer-to-peer. Par exemple, certains systèmes s’appuient sur un seul serveur pour orchestrer le traitement et sont donc exposés à un point de défaillance unique. Mon idée est de trouver un moyen de répartir le traitement pour éviter ce genre de pannes.
Mes futures recherches vont se concentrer sur l’amélioration du pipeline d’apprentissage automatique, du prétraitement des données jusqu’à l’inférence de modèle. Je travaille actuellement sur l’aspect formation, mais je prévois également d’explorer la sécurisation du processus de développement du modèle.
Comment s’est déroulée l’expérience AAAI ?
Ce fut une conférence extraordinaire ; J’ai beaucoup appris. J’ai rencontré beaucoup de personnes travaillant avec de grands modèles de langage. J’ai eu de nouvelles idées et inspiration pour savoir où appliquer mes recherches à l’avenir. La séance du consortium doctoral a été particulièrement utile – cela m’a vraiment inspiré. Ils nous ont donné des conseils sur la marche à suivre après le doctorat, comment se préparer à des postes postdoctoraux ou devenir professeur. Ils ont également parlé de la possibilité de se lancer dans l’industrie, ce qui constitue également une bonne opportunité.
Le professeur Scott Sanner était la personne qui présidait le consortium doctoral. Lui et son postdoctorant ont évalué mon travail et m’ont donné quelques idées. Il m’a expliqué en quoi les différentes parties de mes projets sont intéressantes, comment elles pourraient être appliquées dans l’industrie, et quelques conseils pour de futurs travaux.
Amine présentant son affiche à l’AAAI 2024.
Avez-vous des idées sur ce que vous souhaitez faire après le doctorat ?
Mon objectif est de poursuivre en postdoctorat à l’Université de Toronto ou à l’Université de Waterloo. Je cherche à faire un partenariat entre un partenaire industriel et l’université. Au Canada, nous avons des programmes Mitacs, où on peut trouver un partenaire industriel qui paie la moitié du montant du salaire d’un postdoctorant. Mitacs paie ensuite l’autre moitié. Vous devez ensuite trouver un professeur avec qui collaborer. Y parvenir serait une étape importante dans mon plan.
Qu’est-ce qui vous a donné envie d’étudier l’apprentissage automatique ? Quelle a été l’inspiration ?
Avant mon doctorat, j’ai travaillé avec des modèles simples d’apprentissage automatique comme la régression logistique et la forêt aléatoire pendant mon master. J’ai obtenu de très bons résultats, ce qui m’a fait penser que je pouvais faire plus que simplement utiliser ces outils. De plus, mon implication dans un projet explorant la traçabilité de l’évolution du pipeline ML a profondément influencé ma décision. Cette expérience a renforcé ma détermination à me concentrer sur l’amélioration du développement du pipeline d’apprentissage automatique dans mes études ultérieures.
Je suis vraiment intéressé par les techniques d’apprentissage automatique derrière les développements récents des grands modèles de langage et leurs applications. J’ai assisté à une conférence intéressante à l’Université de la Colombie-Britannique. Le professeur a parlé de ses travaux sur l’IA explicable. Je me suis inspiré de ce discours.
Pourriez-vous nous raconter un fait intéressant sur vous-même ?
Je viens donc de Tunisie, et j’étudiais à l’Institut Supérieur d’Informatique (ISI), lorsque le gouvernement tunisien m’a accordé une bourse en informatique pour poursuivre mes études au Canada. J’ai eu beaucoup de chance car cette bourse n’est accordée chaque année qu’à deux à quatre personnes venant de toute la Tunisie, et j’étais l’une de ces quatre personnes en 2016. Je serai toujours reconnaissante à la Tunisie d’avoir changé mon avenir et de m’avoir permis de Je dispose d’un environnement formidable pour poursuivre mes recherches.
À propos d’Amine
Barres d’amines est titulaire d’un doctorat. candidat en génie logiciel à l’Université du Québec, spécialisé dans l’intégration de l’informatique sans serveur avec une formation en apprentissage automatique distribué. Titulaire d’une maîtrise de Polytechnique Montréal, il s’est concentré sur les changements de vulnérabilités de sécurité dans le code logiciel. Tout au long de sa carrière universitaire, Amine a publié dans des revues de premier plan et des conférences internationales, remportant le prix du meilleur article étudiant au CASCON 2018. Au cours de son doctorat, Amine a également contribué au monde universitaire en donnant des cours sur le cloud computing, les systèmes distribués et la cryptographie. |
Mots clés: AAAI, Consortium doctoral AAAI, AAAI2024, ACM SIGAI
Lucy Smith, rédactrice en chef d’AIhub.