Quantification et LLM : condensation des modèles à des tailles gérables

Quantification et LLM : condensation des modèles à des tailles gérables

vu-quantization-llms-condensing-models-sizes Quantification et LLM : condensation des modèles à des tailles gérables NEWS

L’ampleur et la complexité des LLM

Les incroyables capacités des LLM sont alimentées par leurs vastes réseaux neuronaux constitués de milliards de paramètres. Ces paramètres sont le résultat d’une formation sur des corpus de textes approfondis et sont affinés pour rendre les modèles aussi précis et polyvalents que possible. Ce niveau de complexité nécessite une puissance de calcul importante pour le traitement et le stockage.

Exx-blog-quantization-LLM-condensing-2 Quantification et LLM : condensation des modèles à des tailles gérables NEWS Exx-blog-quantization-LLM-condensing-2 Quantification et LLM : condensation des modèles à des tailles gérables NEWS

Le graphique à barres ci-joint délimite le nombre de paramètres à différentes échelles de modèles de langage. À mesure que nous passons des modèles plus petits aux modèles plus grands, nous assistons à une augmentation significative du nombre de paramètres avec des modèles de langage « petits » avec de modestes millions de paramètres et des modèles « grands » avec des dizaines de milliards de paramètres.

Cependant, c’est le modèle GPT-4 LLM avec 175 milliards de paramètres qui éclipse la taille des paramètres des autres modèles. Non seulement GPT-4 utilise le plus grand nombre de paramètres parmi les graphiques, mais il alimente également le modèle d’IA générative le plus reconnaissable, ChatGPT. Cette présence imposante sur le graphique est représentative des autres LLM de sa catégorie, affichant les exigences nécessaires pour alimenter les chatbots d’IA du futur, ainsi que la puissance de traitement requise pour prendre en charge de tels systèmes d’IA avancés.

Le coût de fonctionnement des LLM et de la quantification

Le déploiement et l’exploitation de modèles complexes peuvent s’avérer coûteux en raison de la nécessité de recourir au cloud computing sur du matériel spécialisé, tel que GPU haut de gamme, accélérateurs d’IA et consommation d’énergie continue. Réduire les coûts en choisissant une solution sur site peut permettre d’économiser beaucoup d’argent et d’augmenter la flexibilité des choix de matériel et la liberté d’utiliser le système n’importe où, avec un compromis en termes de maintenance et d’emploi d’un professionnel qualifié. Les coûts élevés peuvent compliquer la tâche des déploiements de petites entreprises pour former et alimenter une IA avancée. C’est ici que la quantification est utile.

Qu’est-ce que la quantification ?

La quantification est une technique qui réduit la précision numérique de chaque paramètre d’un modèle, diminuant ainsi son empreinte mémoire. Cela revient à compresser une image haute résolution vers une résolution inférieure tout en conservant l’essence et les aspects les plus importants, mais avec une taille de données réduite. Cette approche permet le déploiement de LLM avec moins de matériel sans perte de performances substantielle.

ChatGPT a été formé et est déployé à l’aide de milliers de systèmes NVIDIA DGX, de millions de dollars de matériel et de dizaines de milliers d’autres pour l’infrastructure. La quantification peut permettre une bonne preuve de concept, voire des déploiements à part entière avec du matériel moins spectaculaire (mais toujours très performant).

Dans les sections qui suivent, nous analyserons le concept de quantification, ses méthodologies et son importance pour combler le fossé entre la nature très gourmande en ressources des LLM et les aspects pratiques de l’utilisation quotidienne de la technologie. Le pouvoir transformateur des LLM peut devenir un incontournable dans les applications à plus petite échelle, offrant de vastes avantages à un public plus large.

Bases de la quantification

La quantification d’un grand modèle de langage fait référence au processus de réduction de la précision des valeurs numériques utilisées dans le modèle. Dans le contexte des réseaux de neurones et des modèles d’apprentissage profond, y compris les grands modèles de langage, les valeurs numériques sont généralement représentées sous forme de nombres à virgule flottante avec une grande précision (par exemple, format à virgule flottante 32 bits ou 16 bits). En savoir plus sur Précision en virgule flottante ici.

La quantification résout ce problème en convertissant ces nombres à virgule flottante de haute précision en représentations de moindre précision, telles que des entiers de 16 ou 8 bits, pour rendre le modèle plus efficace en mémoire et plus rapide pendant l’entraînement et l’inférence en sacrifiant la précision. En conséquence, la formation et l’inférence du modèle nécessitent moins de stockage, consomment moins de mémoire et peuvent être exécutées plus rapidement sur du matériel prenant en charge des calculs de moindre précision.

Types de quantification

Pour ajouter de la profondeur et de la complexité au sujet, il est essentiel de comprendre que la quantification peut être appliquée à différentes étapes du cycle de vie de développement et de déploiement d’un modèle. Chaque méthode présente des avantages et des compromis distincts et est sélectionnée en fonction des exigences et des contraintes spécifiques du cas d’utilisation.

1. Quantification statique

La quantification statique est une technique appliquée pendant la phase de formation d’un modèle d’IA, où les poids et les activations sont quantifiés avec une précision binaire inférieure et appliqués à toutes les couches. Les poids et les activations sont quantifiés à l’avance et restent fixes partout. La quantification statique est idéale pour les besoins de mémoire connus du système sur lequel le modèle prévoit d’être déployé.

  • Avantages de la quantification statique
    • Simplifie la planification du déploiement car les paramètres de quantification sont fixes.
    • Réduit la taille du modèle, le rendant plus adapté aux appareils de périphérie et aux applications en temps réel.
  • Inconvénients de la quantification statique
    • Les baisses de performances sont prévisibles ; Ainsi, certaines parties quantifiées peuvent souffrir davantage en raison d’une approche statique large.
    • Adaptabilité limitée pour la quantification statique pour différents modèles d’entrée et mise à jour moins robuste des poids.

2. Quantification dynamique

La quantification dynamique implique la quantification statique des poids, mais les activations sont quantifiées à la volée lors de l’inférence du modèle. Les poids sont quantifiés à l’avance, tandis que les activations sont quantifiées dynamiquement au fur et à mesure que les données transitent par le réseau. Cela signifie que la quantification de certaines parties du modèle est exécutée avec des précisions différentes, par opposition à une quantification fixe par défaut.

  • Avantages de la quantification dynamique
    • Équilibre la compression du modèle et l’efficacité d’exécution sans perte significative de précision.
    • Utile pour les modèles où la précision d’activation est plus critique que la précision du poids.
  • Inconvénients de la quantification dynamique
    • Les améliorations des performances ne sont pas prévisibles par rapport aux méthodes statiques (mais ce n’est pas nécessairement une mauvaise chose).
    • Le calcul dynamique signifie plus de temps de calcul et des temps d’entraînement et d’inférence plus longs que les autres méthodes, tout en restant plus léger que sans quantification.

3. Quantification post-formation (PTQ)

Dans cette technique, la quantification est intégrée au processus de formation lui-même. Cela implique d’analyser la distribution des poids et des activations, puis de mapper ces valeurs à une profondeur de bits inférieure. PTQ est déployé sur des appareils aux ressources limitées comme les appareils de périphérie et les téléphones mobiles. PTQ peut être statique ou dynamique.

  • Avantages du PTQ
    • Peut être appliqué directement à un modèle pré-entraîné sans avoir besoin de recyclage.
    • Réduit la taille du modèle et diminue les besoins en mémoire.
    • Vitesses d’inférence améliorées permettant des calculs plus rapides pendant et après le déploiement.
  • Inconvénients du PTQ
    • Perte potentielle de précision du modèle en raison de l’approximation des poids.
    • Nécessite un calibrage minutieux et un réglage fin pour atténuer les erreurs de quantification.
    • Peut ne pas être optimal pour tous les types de modèles, en particulier ceux sensibles à la précision du poids.

4. Formation sensible à la quantification (QAT)

Pendant la formation, le modèle est conscient des opérations de quantification qui seront appliquées lors de l’inférence et les paramètres sont ajustés en conséquence. Cela permet au modèle d’apprendre à gérer les erreurs induites par la quantification.

  • Avantages du QAT
    • A tendance à préserver la précision du modèle par rapport au PTQ puisque la formation du modèle prend en compte les erreurs de quantification pendant la formation.
    • Plus robuste pour les modèles sensibles à la précision et meilleur pour l’inférence même sur des précisions inférieures.
  • Inconvénients du QAT
    • Nécessite de recycler le modèle, ce qui entraîne des temps de formation plus longs.
    • Plus gourmand en calcul car il intègre une vérification des erreurs de quantification.

5. Quantification ternaire binaire

Ces méthodes quantifient les poids à deux valeurs (binaire) ou à trois valeurs (ternaire), ce qui représente la forme de quantification la plus extrême. Les poids sont limités à +1, -1 pour la quantification binaire ou à +1, 0, -1 pour la quantification ternaire pendant ou après l’entraînement. Cela réduirait considérablement le nombre de valeurs de poids de quantification possibles tout en restant quelque peu dynamique.

  • Avantages de la quantification ternaire binaire
    • Maximise la compression du modèle et la vitesse d’inférence et nécessite un minimum de mémoire.
    • Les calculs d’inférence et de quantification rapides sont utiles sur du matériel sous-alimenté.
  • Inconvénients de la quantification ternaire binaire
    • Une compression élevée et une précision réduite entraînent une baisse significative de la précision.
    • Ne convient pas à tous les types de tâches ou d’ensembles de données et a du mal à gérer des tâches complexes.

Les avantages et les défis de la quantification

Exx-blog-quantization-LLM-condensing-3 Quantification et LLM : condensation des modèles à des tailles gérables NEWS Exx-blog-quantization-LLM-condensing-3 Quantification et LLM : condensation des modèles à des tailles gérables NEWS

La quantification des grands modèles linguistiques apporte de multiples avantages opérationnels. Principalement, cela permet une réduction significative des besoins en mémoire de ces modèles. Notre objectif pour les modèles de post-quantification est que l’empreinte mémoire soit nettement plus petite. Une efficacité plus élevée permet le déploiement de ces modèles sur des plates-formes dotées de capacités de mémoire plus modestes et la diminution de la puissance de traitement nécessaire pour exécuter les modèles une fois quantifiés se traduit directement par des vitesses d’inférence accrues et des temps de réponse plus rapides qui améliorent l’expérience utilisateur.

D’un autre côté, la quantification peut également introduire une certaine perte de précision du modèle puisqu’elle implique une approximation de nombres réels. Le défi est de quantifier le modèle sans affecter de manière significative ses performances. Cela peut être fait en testant la précision et le temps d’achèvement du modèle avant et après la quantification avec vos modèles pour évaluer l’efficacité, l’efficience et la précision.

En optimisant l’équilibre entre performances et consommation de ressources, la quantification élargit non seulement l’accessibilité des LLM, mais contribue également à des pratiques informatiques plus durables.

Original. Republié avec autorisation.

Kevin Vu gère Blog d’Exxact Corp. et travaille avec plusieurs de ses auteurs talentueux qui écrivent sur différents aspects du Deep Learning.

Source