- Hier, Google Deepmind a annoncé le lancement prochain de Gemini Robotics, une déclinaison de son modèle phare pour l’IA embarquée.
- Apptronik, Agile Robots et Boston Dynamics testent déjà Gemini Robotics-ER, pour aider les constructeurs à doter les robots d’IA avec une compréhension de l’espace autour d’eux.
- La filiale d’Alphabet a également lancé Gemma 3, la nouvelle version de son modèle d’IA open source, en quatre versions de 1 à 27 milliards de paramètres.
- Google affirme que ce modèle est le plus performant sur une seule GPU, surpassant Llama, DeepSeek et OpenAI en termes de performances dans ces contraintes, typiques de l’IA embarquée.
- Cela permet de l’embarquer sur de petits objets, comme des téléphones.
- La vision de Gemma 3 est améliorée, avec un encodeur prenant en charge les images haute résolution et non carrées, ainsi qu’un classificateur de sécurité, ShieldGemma 2, conçu pour filtrer les contenus explicites ou dangereux.
- Le modèle prend désormais en charge 140 langues, un contexte élargi à 128K tokens et la possibilité d’analyser du texte, des images et des vidéos courtes.
- À SURVEILLER : Google et les communautés. Avec Gemma-3 et Gemini Robotics, Alphabet tente de répéter son succès avec Androïd et les constructeurs de téléphones mobiles. Des doutes subsistent toutefois sur les restrictions de la licence open source de Gemma-3 ; Gemini Robotics semble lui destiné à rester propriétaire.