Google, OpenAI, le créateur de ChatGPT, Meta et Amazon prennent des mesures furieuses pour publier des modèles d'IA plus puissants malgré leur coût énorme et certaines questions sur leur utilité immédiate pour l'économie au sens large

San Francisco (AFP) - Google a annoncé mercredi le lancement de Gemini 2.0, son modèle d'intelligence artificielle le plus avancé à ce jour, alors que les géants technologiques mondiaux se battent pour prendre la tête de cette technologie en plein développement.

Le PDG Sundar Pichai a déclaré que le nouveau modèle marquerait ce que la société appelle « une nouvelle ère d'agentivité » dans le développement de l'IA, avec des modèles d'IA conçus pour comprendre et prendre des décisions sur le monde qui vous entoure.

« Gemini 2.0 vise à rendre l'information beaucoup plus utile », a déclaré Pichai dans l'annonce, soulignant la capacité améliorée du modèle à comprendre le contexte, à anticiper plusieurs étapes et à prendre des mesures supervisées au nom des utilisateurs.

Ces évolutions « nous rapprochent de notre vision d’un assistant universel », a-t-il ajouté.

Cette publication a fait grimper les actions de Google de plus de quatre pour cent à Wall Street, un jour après que l'action ait déjà gagné 3,5 pour cent après la sortie d'une puce quantique révolutionnaire.

Les géants de la technologie prennent des mesures furieuses pour lancer des modèles d’IA plus puissants malgré leur coût immense et certaines questions sur leur utilité immédiate pour l’économie au sens large.

Un « agent » IA, la dernière tendance de la Silicon Valley, est un assistant numérique censé détecter son environnement, prendre des décisions et entreprendre des actions pour atteindre des objectifs spécifiques.

Les géants de la technologie promettent que les agents seront la prochaine étape d'une révolution de l'IA déclenchée par le lancement en 2022 de ChatGPT, qui a pris le monde d'assaut.

Gemini 2.0 est initialement déployé auprès des développeurs et des testeurs de confiance, avec des plans pour une intégration plus large dans les produits de Google, en particulier dans la recherche et la plate-forme Gemini.

- Pas de Nvidia -

La technologie est alimentée par le matériel TPU (Tensor Processing Unit) de sixième génération de Google, baptisé Trillium, que la société a désormais mis à la disposition de ses clients.

Google a souligné que les processeurs Trillium étaient utilisés exclusivement pour la formation et l'exécution de Gemini 2.0.

La plupart des formations en IA ont été monopolisées par le géant des puces Nvidia, qui a été propulsé par l'explosion de l'IA pour devenir l'une des entreprises les plus valorisées au monde

La plupart des formations en IA ont été monopolisées par le géant des puces électroniques Nvidia, qui a été propulsé par l'explosion de l'IA pour devenir l'une des entreprises les plus valorisées au monde.

Google a déclaré que des millions de développeurs créent déjà des applications avec la technologie Gemini, qui a été intégrée dans sept produits Google, chacun servant plus de deux milliards d'utilisateurs.

Le déploiement plus large des capacités de recherche améliorées de Gemini 2.0 est prévu pour début 2025, avec des plans visant à étendre les aperçus de l'IA à des pays et des langues supplémentaires tout au long de l'année.

La première version de la famille de modèles 2.0 sera Gemini 2.0 Flash, offrant des performances plus rapides tout en gérant plusieurs types d'entrée (texte, images, vidéo, audio) et de sortie (y compris les images générées et la parole).

L'application Gemini bénéficie d'une intégration Flash 2.0 à l'échelle mondiale, avec des projets d'extension à davantage de produits Google début 2025.

Google a également annoncé qu'il expérimentait un produit capable d'utiliser des applications logicielles, des sites Web et d'autres outils en ligne, à la manière d'un utilisateur humain. OpenAI et Anthropic ont dévoilé des fonctionnalités similaires.

La société a également présenté une nouvelle version du projet Astra, un assistant numérique pour smartphone comme Siri d'Apple qui répond aux images ainsi qu'aux commandes verbales.