Les actus IA en bref
Partager la publication
Google lance MedASR, un modèle IA spécialisé dans la transcription médicale
L'équipe Google Health AI a lancé MedASR, un modèle de reconnaissance vocale spécialisé dans la transcription médicale. Ce modèle open source basé sur l'architecture Conformer (combinaison de réseaux convolutionnels et d'attention) cible spécifiquement la dictée clinique et les conversations médecin-patient.
MedASR est un modèle compact de 105 millions de paramètres qui accepte de l'audio monocanal à 16 kHz et génère des transcriptions textuelles. Il a été entraîné sur environ 5000 heures de parole médicale désidentifiée, incluant des dictées de radiologues, de médecins généralistes et de médecins de famille. Le modèle est disponible en anglais uniquement et fait partie du programme Health AI Developer Foundations (fondations pour développeurs en intelligence artificielle de santé) de Google, aux côtés d'autres modèles comme MedGemma.
Les résultats montrent que MedASR surpasse significativement les modèles généralistes. En radiologie, il atteint un taux d'erreur de 4,6% avec décodage linguistique, contre 10% pour Gemini 2.5 Pro et 25,3% pour Whisper v3 Large. En médecine générale, MedASR obtient 6,9% d'erreur contre 16,4% pour Gemini 2.5 Pro et 33,1% pour Whisper v3 Large. Cette précision s'explique par sa spécialisation sur le vocabulaire médical et les schémas de formulation clinique.
Le modèle est conçu pour s'intégrer directement dans les workflows d'intelligence artificielle modernes. Les développeurs peuvent l'utiliser comme point de départ pour créer des applications vocales de santé, telles que des outils de dictée radiologique ou des systèmes de capture de notes de visite. Les transcriptions générées peuvent ensuite être transmises à des modèles génératifs comme MedGemma pour analyse sémantique, résumé ou réponse aux questions.
Nvidia acquiert Groq pour 20 milliards de dollars et renforce sa domination sur l'IA
Nvidia a conclu un accord pour acquérir les actifs de Groq, une startup spécialisée dans les puces d'accélération pour l'intelligence artificielle, pour un montant de 20 milliards de dollars en espèces. Cette transaction représente la plus importante acquisition jamais réalisée par le géant américain des semi-conducteurs, dépassant largement les 6,9 milliards de dollars déboursés pour l'achat de Mellanox Technologies en 2020. L'accord a été finalisé rapidement, seulement quelques mois après que Groq a levé 750 millions de dollars lors d'un tour de financement en septembre 2024, portant sa valorisation à 6,9 milliards de dollars.
Groq a été fondée en 2016 par Jonathan Ross, ancien ingénieur de Google qui avait dirigé le développement du TPU (Tensor Processing Unit, unité de traitement tensoriel). L'entreprise s'est spécialisée dans les puces d'inférence IA avec sa technologie LPU (Language Processing Unit, unité de traitement du langage), conçue spécifiquement pour exécuter les modèles de langage à grande échelle avec une vitesse et une efficacité énergétique jusqu'à 10 fois supérieures aux GPU traditionnels. Cette architecture innovante utilise une approche déterministe avec de la mémoire intégrée sur la puce, permettant un traitement ultra-rapide en temps réel.
Dans le cadre de cet accord non exclusif, Jonathan Ross et d'autres dirigeants clés de Groq rejoindront Nvidia pour contribuer à l'intégration de cette technologie sous licence. Groq conservera néanmoins son indépendance en tant qu'entreprise distincte sous la direction de Simon Edwards, qui passe du poste de directeur financier à celui de PDG. L'activité cloud de Groq, encore à ses débuts, n'est pas incluse dans la transaction et continuera de fonctionner normalement.
Cette acquisition stratégique permet à Nvidia de consolider sa position dominante sur le marché des puces IA, qui représente plus de 50% de parts de marché, dans un contexte où la demande pour les capacités d'inférence IA
Suivez le Père Noël en temps réel grâce à l'intelligence artificielle
Cette année, les outils de suivi du Père Noël intègrent l'intelligence artificielle pour enrichir l'expérience des enfants. Le NORAD et Google proposent des plateformes qui permettent de suivre la tournée du Père Noël en direct.
Le NORAD a récemment collaboré avec OpenAI pour ajouter des fonctionnalités innovantes à son traceur. Les familles peuvent désormais transformer leurs photos en personnages d'elfes animés grâce à un générateur d'images, créer des idées de jouets convertibles en pages de coloriage imprimables, et utiliser un outil de création d'histoires personnalisées en ajoutant des noms et lieux.
Le traceur utilise une représentation 3D construite sur la bibliothèque de cartographie open source de Cesium, combinée aux images satellites de Bing Maps pour un rendu réaliste. Cette technologie remplace l'ancienne animation 2D et offre une visualisation immersive du voyage du Père Noël à travers le globe. Une "Santa Cam" diffuse des vidéos du Père Noël livrant ses cadeaux à travers le monde. Le site est disponible en huit langues, dont le français.
Le village du Pôle Nord propose également un compte à rebours, des jeux d'arcade, de la musique festive et une bibliothèque en ligne. Le service est accessible sur noradsanta.org, via l'application mobile (iOS et Android), sur les réseaux sociaux comme Facebook, X (Twitter) et Instagram, ou par téléphone au 1-877-HI-NORAD (USA 1-877-446-6732) où des bénévoles répondent aux questions des enfants.
YouTube lance un outil pour créer des jeux vidéo en quelques clics
YouTube Gaming a annoncé le lancement de Playables Builder, un outil qui permet aux créateurs de concevoir des mini-jeux sans aucune compétence en programmation. Cette application web prototype, développée avec le modèle d'intelligence artificielle Gemini 3, transforme de simples descriptions textuelles, des images ou des vidéos en expériences de jeu fonctionnelles que les créateurs peuvent partager avec leur audience.
Les créateurs sélectionnés peuvent décrire leur idée de jeu en quelques lignes, et l'outil génère automatiquement un jeu jouable en quelques minutes. Cette initiative s'inscrit dans la continuité de YouTube Playables, une fonctionnalité lancée initialement pour les abonnés Premium il y a deux ans, qui proposait des jeux casual sur la plateforme. YouTube a collaboré avec plusieurs créateurs tels que Sambucha, AyChristene, Gohar Khan et Mogswamp pour développer les premiers jeux avec cet outil.
Le programme est actuellement en phase de test bêta fermé et n'est accessible qu'aux créateurs situés aux États-Unis, au Canada, en Grande-Bretagne et en Australie. Pour participer, les candidats doivent posséder une chaîne YouTube active et une adresse électronique valide, puis soumettre leur candidature via le site officiel de Playables Builder. Une fois approuvés, YouTube leur transmet les identifiants de connexion pour accéder à l'outil.
L'intelligence artificielle accélère de 30% le diagnostic du cancer du rein
Une nouvelle avancée dans le domaine de l'imagerie médicale pourrait transformer la détection précoce du cancer du rein. Des chercheurs de l'Université de Tartu en Estonie ont développé BMVision, un outil d'intelligence artificielle basé sur l'apprentissage profond qui assiste les radiologues dans l'analyse des scanners CT (tomodensitométrie). Cette innovation arrive à point nommé face à la pénurie mondiale de radiologues et à la demande croissante d'examens d'imagerie.
L'étude, publiée dans la revue Nature, a testé BMVision auprès de six radiologues analysant 2 400 scanners. Les résultats sont impressionnants : le temps nécessaire pour identifier, mesurer et rapporter les lésions malignes a été réduit de 30%. Dans certains cas, le temps de lecture des scanners a diminué de 52%. La génération automatique de rapports a considérablement réduit le temps de saisie et de dictation, tandis que la sensibilité de détection s'est améliorée de 6%, renforçant la précision et la cohérence entre radiologues.
Dmytro Fishman, cofondateur de Better Medicine, la startup qui commercialise le logiciel, souligne que "le cancer du rein est l'un des cancers les plus fréquents du système urinaire". Selon les chercheurs, l'IA ne remplacera pas les radiologues mais deviendra un assistant précieux, permettant d'offrir aux patients des résultats plus rapides et plus fiables.
SoftBank joue son va-tout pour boucler un financement record d’OpenAI
Le groupe japonais SoftBank tente de réunir 22,5 milliards de dollars avant la fin de l’année 2025 afin de respecter son engagement financier envers OpenAI. Cette somme correspond à la seconde tranche d’un investissement total pouvant atteindre 30 milliards de dollars, après un premier versement effectue plus tôt dans l’année.
Pour tenir ce calendrier serre, SoftBank a engagé une vaste opération de mobilisation de liquidités. Le groupe a notamment vendu l’intégralité de sa participation dans Nvidia, pour un montant estime a 5,8 milliards de dollars, et cède une partie importante de ses actions T-Mobile US, générant environ 4,8 milliards de dollars supplémentaires. D’autres leviers sont également envisagés, comme des emprunts adosses a la participation du groupe dans Arm Holdings, dont la valeur a fortement progressé depuis son introduction en bourse.
En parallèle, SoftBank a quasiment mis à l’arrêt les nouveaux investissements de son Vision Fund. Toute opération supérieure a 50 millions de dollars doit désormais recevoir l’aval direct de Masayoshi Son. Cette stratégie illustre un choix de concentration extrême, le dirigeant japonais misant prioritairement sur OpenAI.
Ce pari repose sur une appréciation rapide de la valeur de l’entreprise, entrée en discussions sur une valorisation proche de 900 milliards de dollars, contre environ 300 milliards quelques mois plus tôt. Un potentiel gain théorique majeur, mais qui s’accompagne de risques élevés tant que la rentabilité d’OpenAI n’est pas atteinte.
Alibaba devoile Qwen-Image-Layered : une IA d'édition d’images en calques RGBA, plus précise et plus contrôlable
Alibaba, via son projet Qwen, met en avant Qwen-Image-Layered, un modèle qui cherche a rapprocher l'édition d’images par intelligence artificielle des usages des logiciels de création classiques. L’enjeu est simple : dans beaucoup de solutions actuelles, une retouche demandée par texte peut entrainer des changements non désirés ailleurs dans l’image, car tout est modifie "en bloc".
Qwen-Image-Layered adopte une approche différente en décomposant l’image en plusieurs calques RGBA (Rouge, Vert, Bleu, Alpha : canal de transparence). Concrètement, chaque calque peut correspondre a une partie de la scène (un personnage, un objet, l’arrière-plan), avec sa propre transparence, ce qui permet de travailler élément par élément plutôt que sur un rendu unique.
Cette organisation en calques rend les instructions plus spécifiques : recolorer un vêtement sans changer la peau, remplacer un objet sans détruire l’éclairage global, supprimer un élément sans "manger" les contours, ou ajuster un détail tout en préservant le reste de la composition. Le résultat attendu est une édition plus fiable, car les modifications sont cantonnées au bon niveau, a la manière des flux de travail des designers.
Sur le plan technique, la publication associe le modèle a une approche de type diffusion et insiste sur l’idée de calques "sémantiquement desentremêlés", afin que chaque couche reste exploitable pour des retouches successives. Cela ouvre aussi la voie a des itérations plus rapides : on peut affiner un seul élément plusieurs fois (couleurs, texture, forme) sans régénérer toute l’image, ce qui facilite le contrôle créatif et la cohérence visuelle.
A court terme, ce type de modèle peut intéresser la création de contenus, le prototypage graphique, ou la production de visuels marketing, car il combine prompt et logique de calques dans un même pipeline.
Mistral OCR-3 : Une précision inédite pour la reconnaissance de documents
L'entreprise française Mistral AI affirme son expertise technologique avec le déploiement de Mistral OCR 3
, son modèle de traitement documentaire le plus avancé à ce jour. Ce nouvel outil repousse les limites de l'OCR (“Optical Character Recognition” ou Reconnaissance Optique de Caractères) en affichant un taux de “victoire” global de 74% face à sa version précédente, Mistral OCR-2, lors de tests de performance internes.
Optimisé pour les défis du monde réel, ce modèle excelle particulièrement dans l'analyse de documents dits difficiles. Il traite avec une aisance remarquable les images de mauvaise qualité, les formulaires administratifs complexes, les tableaux à cellules fusionnées et même l'écriture manuscrite cursive. Au-delà de la simple extraction de texte, il comprend la mise en page, restituant les données sous forme de code Markdown et de tables HTML parfaitement structurées.
Cette capacité de structuration est essentielle pour alimenter les systèmes de RAG (“Retrieval-Augmented Generation” ou Generation Augmentee par la Recuperation), permettant aux assistants IA de comprendre des documents comme un humain le ferait. Accessible notamment via l'interface “Document AI Playground”, cette solution proposée à 2 dollars les 1000 pages positionne fermement la pépite française face aux géants du secteur.
