La promesse de Edge AI et les approches pour une adoption efficace

La promesse de Edge AI et les approches pour une adoption efficace

pradhan_promise_edge_ai_approaches_effective_adoption_1 La promesse de Edge AI et les approches pour une adoption efficace NEWS
Image par l’éditeur

Le paysage technologique actuel connaît une évolution cruciale vers l’informatique de pointe, stimulée par les progrès rapides de l’IA générative (GenAI) et des charges de travail d’IA traditionnelles. Historiquement dépendantes du cloud computing, ces charges de travail d’IA se heurtent désormais aux limites de l’IA basée sur le cloud, notamment en matière de sécurité des données, de souveraineté et de connectivité réseau.

En contournant ces limites de l’IA basée sur le cloud, les organisations cherchent à adopter l’informatique de pointe. La capacité de l’Edge Computing à permettre une analyse et des réponses en temps réel au moment où les données sont créées et consommées est la raison pour laquelle les organisations la considèrent comme essentielle à l’innovation en matière d’IA et à la croissance de leur entreprise.

Avec sa promesse d’un traitement plus rapide avec une latence nulle ou minimale, l’IA de pointe peut transformer considérablement les applications émergentes. Même si les capacités informatiques des appareils de pointe s’améliorent de plus en plus, il existe encore des limites qui peuvent rendre difficile la mise en œuvre de modèles d’IA très précis. Les technologies et approches telles que la quantification de modèles, l’apprentissage par imitation, l’inférence distribuée et la gestion distribuée des données peuvent aider à éliminer les obstacles à des déploiements d’IA de pointe plus efficaces et plus rentables afin que les organisations puissent exploiter leur véritable potentiel.

L’inférence de l’IA dans le cloud est souvent impactée par des problèmes de latence, entraînant des retards dans le mouvement des données entre les appareils et les environnements cloud. Les organisations se rendent compte du coût du déplacement des données entre les régions, vers le cloud, et des allers-retours du cloud vers la périphérie. Cela peut gêner les applications qui nécessitent des réponses extrêmement rapides et en temps réel, telles que les transactions financières ou les systèmes de sécurité industrielle. De plus, lorsque les organisations doivent exécuter des applications basées sur l’IA dans des emplacements distants où la connectivité réseau n’est pas fiable, le cloud n’est pas toujours à portée de main.

Les limites d’une stratégie d’IA « uniquement cloud » deviennent de plus en plus évidentes, en particulier pour les applications de nouvelle génération basées sur l’IA qui exigent des réponses rapides et en temps réel. Des problèmes tels que la latence du réseau peuvent ralentir les informations et le raisonnement qui peuvent être transmis à l’application dans le cloud, entraînant des retards et une augmentation des coûts associés à la transmission de données entre le cloud et les environnements périphériques. Cela est particulièrement problématique pour les applications en temps réel, notamment dans les zones reculées où la connectivité réseau est intermittente. Alors que l’IA occupe une place centrale dans la prise de décision et le raisonnement, la physique du déplacement des données peut être extrêmement coûteuse et avoir un impact négatif sur les résultats commerciaux.

Gartner prédit que plus de 55 % de toutes les analyses de données effectuées par les réseaux neuronaux profonds auront lieu au point de capture dans un système périphérique d’ici 2025, contre moins de 10 % en 2021. L’informatique périphérique contribue à réduire la latence, l’évolutivité, la sécurité des données, la connectivité et davantage de défis, en remodelant la manière dont le traitement des données est géré et, par conséquent, en accélérant l’adoption de l’IA. Le développement d’applications avec une approche hors ligne sera essentiel au succès des applications agiles.

Grâce à une stratégie Edge efficace, les organisations peuvent tirer davantage de valeur de leurs applications et prendre des décisions commerciales plus rapidement.

À mesure que les modèles d’IA deviennent de plus en plus sophistiqués et que les architectures d’applications deviennent plus complexes, le défi du déploiement de ces modèles sur des appareils de pointe soumis à des contraintes informatiques devient plus prononcé. Cependant, les progrès technologiques et l’évolution des méthodologies ouvrent la voie à l’intégration efficace de modèles d’IA puissants dans le cadre de l’informatique de pointe, allant de :

Compression et quantification du modèle

Des techniques telles que l’élagage et la quantification des modèles sont cruciales pour réduire la taille des modèles d’IA sans compromettre significativement leur précision. L’élagage du modèle élimine les informations redondantes ou non critiques du modèle, tandis que la quantification réduit la précision des nombres utilisés dans les paramètres du modèle, rendant les modèles plus légers et plus rapides à exécuter sur des appareils aux ressources limitées. La quantification de modèle est une technique qui consiste à compresser de grands modèles d’IA pour améliorer la portabilité et réduire la taille des modèles, les rendant ainsi plus légers et adaptés aux déploiements en périphérie. À l’aide de techniques de réglage fin, notamment la quantification post-formation généralisée (GPTQ), l’adaptation de bas rang (LoRA) et la LoRA quantifiée (QLoRA), la quantification du modèle réduit la précision numérique des paramètres du modèle, rendant les modèles plus efficaces et accessibles aux appareils de pointe comme tablettes, passerelles Edge et téléphones mobiles.

Cadres d’IA spécifiques à la périphérie

Le développement de frameworks et de bibliothèques d’IA spécialement conçus pour l’edge computing peut simplifier le processus de déploiement des charges de travail d’IA de pointe. Ces frameworks sont optimisés pour les limitations informatiques du matériel de pointe et prennent en charge une exécution efficace des modèles avec une surcharge de performances minimale.

Bases de données avec gestion de données distribuées

Grâce à des fonctionnalités telles que la recherche vectorielle et l’analyse en temps réel, aidez à répondre aux exigences opérationnelles de la périphérie et prenez en charge le traitement des données locales, en gérant divers types de données, tels que l’audio, les images et les données de capteurs. Ceci est particulièrement important dans les applications en temps réel telles que les logiciels de véhicules autonomes, où divers types de données sont constamment collectés et doivent être analysés en temps réel.

Inférence distribuée

Le fait de placer des modèles ou des charges de travail sur plusieurs appareils périphériques avec des échantillons de données locaux sans échange réel de données peut atténuer les problèmes potentiels de conformité et de confidentialité des données. Pour les applications, telles que les villes intelligentes et l’IoT industriel, qui impliquent de nombreux appareils de périphérie et IoT, il est crucial de prendre en compte la distribution de l’inférence.

Même si l’IA a été principalement traitée dans le cloud, il sera essentiel de trouver un équilibre avec la périphérie pour accélérer les initiatives en matière d’IA. La plupart, sinon la totalité, des secteurs ont reconnu l’IA et la GenAI comme un avantage concurrentiel. C’est pourquoi la collecte, l’analyse et l’obtention rapide d’informations à la pointe de la technologie seront de plus en plus importantes. À mesure que les organisations font évoluer leur utilisation de l’IA, la mise en œuvre de la quantification des modèles, des capacités multimodales, des plateformes de données et d’autres stratégies de pointe contribueront à générer des résultats commerciaux significatifs en temps réel.

Rahul Pradhan est vice-président des produits et de la stratégie chez Couchbase (NASDAQ : BASE), fournisseur d’une base de données moderne de premier plan pour les applications d’entreprise dont dépendent 30 % des entreprises du Fortune 100. Rahul a plus de 20 ans d’expérience dans la direction et la gestion d’équipes d’ingénierie et de produits axées sur les technologies de bases de données, de stockage, de réseau et de sécurité dans le cloud. Avant Couchbase, il a dirigé l’équipe de gestion des produits et de stratégie commerciale pour les divisions Technologies émergentes et Stockage de milieu de gamme de Dell EMC afin de commercialiser tous les produits Flash NVMe, Cloud et SDS.

Source