J’ai essayé 8 des derniers produits et mises à jour d’IA de Google lors de l’I/O 2024.

La longue fenêtre contextuelle améliorée peut même extraire des informations de plusieurs documents lorsque vous répondez à une seule invite. Dans le panneau latéral de Docs, j’ai demandé de l’aide pour rédiger un exemple de lettre à un candidat potentiel. Dans l’invite, j’ai lié le document de description de poste et le portfolio PDF du candidat, tous deux dans mon Drive. J’ai immédiatement reçu un e-mail. projet, qui tenait compte des détails pertinents des deux documents.

Cependant, Gemini 1.5 Pro n’est pas notre seul nouveau modèle brillant : j’ai également pu essayer le nouveau modèle récemment annoncé. Image 3, notre modèle de conversion texte-image de la plus haute qualité à ce jour. L’une des nouvelles capacités qui m’intéressait était sa capacité à générer du texte et des lettres décoratives, alors je l’ai mis à l’épreuve. J’ai commencé par demander un alphabet stylisé – comme des lettres écrites sur de la confiture sur du pain grillé ou avec des ballons argentés flottant dans le ciel. Imagen 3 a généré un alphabet complet de lettres, que je pouvais ensuite utiliser pour rédiger mes propres (délicieux) menus.

Après mon intermède Imagen 3, j’ai continué avec d’autres démos Gemini. Dans l’un d’eux, je pouvais afficher la superposition de Gemini sur un téléphone Android et poser des questions sur tout ce qui s’affichait à l’écran. Cela a vraiment montré comment nous élargissons non seulement ce que vous pouvez demander à Gemini, mais que nous tenons également compte du contexte de Gemini, afin qu’il puisse anticiper vos besoins et fournir des suggestions utiles.

Le cas d’utilisation ici était un long manuel de four. Qu’il s’agisse d’une démo ou de la vie réelle, ce n’est pas quelque chose que j’aurais hâte de lire. Au lieu de parcourir le document, j’ai consulté Gemini et j’ai immédiatement reçu une suggestion « Demander ce PDF ». J’ai testé des questions telles que « comment mettre à jour l’horloge » et j’ai rapidement obtenu des réponses précises. Cela fonctionnait tout aussi bien avec les vidéos YouTube. Au lieu de regarder une vidéo d’entraînement de 20 minutes, j’ai posé une question rapide sur la façon de modifier les planches, j’ai obtenu une réponse et j’étais en route vers la démo suivante, où j’ai testé un nouveau mode de conversation appelé Gémeaux en direct qui vous permet de parler avec Gemini dans l’application, aucune saisie n’est requise.

Parler avec Gemini a été une expérience différente de celle de l’interface de chatbot traditionnelle : les réponses de Gemini sont beaucoup plus conversationnelles que les paragraphes de textes et les listes à puces que vous pourriez habituellement obtenir. Dans ma démo, j’ai appris que vous pouviez même couper les Gémeaux au milieu d’une réponse. Après avoir demandé une liste d’activités pour les enfants pendant les vacances d’été, j’ai pu interrompre une liste de suggestions pour approfondir les matériaux dont j’aurais besoin pour teindre une chemise.

Le Projet Astra – ou « agent réactif avancé pour voir et parler » – la démo est allée encore plus loin pour montrer l’avant-garde de la direction que prennent nos projets d’IA conversationnelle.

Source

Autres articles

Podcast The Machine Ethics : fictions sur l’IA avec Alex Shvartsman

5 cours en ligne gratuits pour apprendre les fondamentaux de la science des données

Les étudiants de premier cycle dont le revenu familial est inférieur à 200 000 $ peuvent s’attendre à fréquenter le MIT sans frais de scolarité à partir de 2025 | Actualités du MIT