Les actus IA en bref
Partager la publication
Meta lance SAM Audio, un modèle d'intelligence artificielle pour isoler les sons
Meta a dévoilé SAM Audio le 17 décembre 2025, le premier modèle unifié d'intelligence artificielle capable de segmenter et d'isoler des sons à partir de mélanges audio complexes. Ce modèle, disponible en source ouverte, permet aux utilisateurs d'extraire des sources sonores spécifiques en utilisant trois types d'instructions différentes : textuelles, visuelles ou temporelles.
Avec les instructions textuelles, les utilisateurs peuvent décrire le son souhaité comme "batterie" ou "bruit de fond". Les instructions visuelles permettent de cliquer sur un objet ou une personne dans une vidéo pour isoler le son associé. Enfin, les instructions temporelles, une première dans l'industrie, permettent de marquer un segment de temps spécifique où le son cible se produit.
SAM Audio repose sur une architecture de transformateur de diffusion utilisant la technique "flow-matching" et fonctionne dans un espace latent DAC-VAE (Codage Audio Discret - Auto-Encodeur Variationnel). Le modèle génère deux sorties audio distinctes : la piste cible isolée et le résidu contenant tous les autres sons.
Les applications pratiques incluent la production musicale pour séparer les instruments, le nettoyage de dialogues, l'extraction d'effets sonores spécifiques et l'élimination du bruit de fond. Le modèle traite l'audio plus rapidement que le temps réel avec un facteur de 0,7, et ses performances surpassent l'état de l'art actuel, particulièrement lorsque plusieurs modalités d'instructions sont combinées.
L'IA Mindpeak et le biotechnologue Tubulis s'allient pour guérir les tumeurs
Une alliance stratégique majeure vient d'être scellée entre deux pépites de l'innovation allemande : Tubulis, une biotech munichoise, et Mindpeak, une start-up hambourgeoise spécialisée dans l'intelligence artificielle. Leur objectif commun est d'améliorer l'efficacité des traitements oncologiques en développant de nouveaux biomarqueurs prédictifs.
Au cœur de cette collaboration se trouvent les "Antibody-Drug Conjugates" (ADC, ou conjugués anticorps-médicament). Ces thérapies ciblées agissent comme des missiles guidés, transportant une charge chimiothérapeutique directement vers les cellules cancéreuses tout en épargnant les tissus sains. Tubulis apporte ici son expertise avec une technologie agissant comme une "super-colle" moléculaire, garantissant des ADC ultra-stables.
Pour que ces traitements sophistiqués soient efficaces, il est crucial d'identifier les patients réceptifs. C'est là qu'intervient Mindpeak. Ses algorithmes d'apprentissage profond analysent des images de tissus pathologiques en quelques secondes pour détecter et quantifier des cellules tumorales ou des protéines spécifiques. En combinant ces deux expertises, les partenaires espèrent affiner la sélection des patients lors des essais cliniques et accélérer l'avènement d'une médecine de précision, où chaque malade reçoit le traitement le plus adapté à son profil biologique unique.
Anthropic lance Claude pour Chrome : l'assistant IA directement dans votre navigateur
Anthropic a dévoilé "Claude pour Chrome", une extension de navigateur expérimentale qui intègre son intelligence artificielle Claude directement dans Chrome. Cette extension, actuellement déployée auprès de 1 000 utilisateurs du plan Max (entre 100 et 200 dollars par mois), fonctionne via un panneau latéral qui reste ouvert pendant la navigation.
L'extension permet à Claude de visualiser le contenu de l'onglet actif du navigateur et d'interagir avec les pages web. Les utilisateurs peuvent demander à Claude de résumer des articles, de répondre à des questions sur le contenu affiché, de remplir des formulaires ou de naviguer sur des sites, le tout sans avoir à copier-coller du texte. L'assistant peut également gérer des calendriers, rédiger des réponses aux courriels ou organiser des notes de frais.
Anthropic a mis en place plusieurs mesures de sécurité pour cette version de recherche. Les utilisateurs peuvent limiter l'accès de Claude à certains sites via les paramètres de l'application, et l'entreprise bloque par défaut l'accès aux sites proposant des services financiers, du contenu pour adultes ou du contenu piraté. Claude demande également la permission de l'utilisateur avant d'effectuer des actions à haut risque comme publier du contenu, effectuer un achat ou partager des données personnelles.
Cette extension s'inscrit dans la stratégie d'Anthropic visant à développer des agents IA capables d'agir dans le monde réel en interagissant directement avec l'environnement numérique où les utilisateurs passent le plus de temps.
Les lunettes intelligentes de Meta améliorent l'audition dans les environnements bruyants
Meta a dévoilé mardi une mise à jour majeure pour ses lunettes connectées Ray-Ban Metaet Oakley Meta HSTN. Cette nouveauté, disponible aux États-Unis et au Canada, intègre une fonction qui amplifie les conversations dans des environnements bruyants grâce aux haut-parleurs à oreille ouverte des lunettes.
Initialement présentée lors de la conférence Connect de Meta, cette fonctionnalité d'amplification vocale permet aux utilisateurs d'ajuster le niveau sonore en glissant leur doigt sur la branche droite des lunettes ou via les paramètres. Cette technologie vise à améliorer l'intelligibilité des conversations dans des lieux comme les restaurants bondés, les bars, les clubs ou les transports en commun.
Meta n'est pas seul sur ce créneau. Les AirPods d'Apple proposent déjà une fonction "Conversation Boost" (amélioration de conversation), et les modèles Pro intègrent même une aide auditive de qualité clinique.
La mise à jour (v21) inclut également une intégration avec Spotify qui permet de lancer de la musique en lien avec ce que l'utilisateur regarde. Par exemple, en observant une pochette d'album, les lunettes peuvent jouer un morceau de cet artiste. Cette fonction Spotify est disponible dans 19 pays, dont la France, l'Allemagne, l'Espagne et le Royaume-Uni.
La mise à jour sera d'abord accessible aux membres du programme Early Access Program (programme d'accès anticipé) de Meta avant un déploiement général.
Claude Code s'enrichit de nouvelles fonctionnalités pour améliorer l'utilisation par des développeurs
Claude Code, l'assistant de programmation développé par Anthropic, vient de déployer plusieurs mises à jour significatives pour faciliter le travail des développeurs. L'outil propose désormais la coloration syntaxique pour les différences de code (diffs), permettant une meilleure visualisation des modifications apportées aux fichiers. Cette fonctionnalité s'ajoute aux capacités déjà existantes de l'outil qui fonctionne directement dans le terminal, l'environnement de développement intégré (IDE en anglais), Slack ou sur le web.
Les suggestions de prompts constituent une autre nouveauté majeure, offrant aux utilisateurs des recommandations contextuelles pour optimiser leurs interactions avec l'intelligence artificielle. Claude Code intègre également une marketplace de plugins propriétaires, ouvrant la voie à une personnalisation accrue de l'outil selon les besoins spécifiques de chaque développeur. Cette plateforme permettra aux utilisateurs d'étendre les fonctionnalités de base avec des extensions développées par Anthropic.
Enfin, le système de passes invités partageables facilite l'intégration de nouveaux utilisateurs. Ces invitations offrent un accès d'essai de sept jours à Claude Pro, incluant Claude Code, permettant aux développeurs de tester l'outil avant de s'engager dans un abonnement payant. L'outil utilise le modèle Opus 4.5 pour une compréhension approfondie du code et permet des modifications coordonnées sur plusieurs fichiers simultanément.
Google fait de Gemini 3 Flash son modèle par défaut dans l'application Gemini
Google a lancé son modèle Gemini 3 Flash, basé sur Gemini 3, et l'a désigné comme modèle par défaut dans l'application Gemini et le mode IA de son moteur de recherche. Ce nouveau modèle arrive six mois après Gemini 2.5 Flash et affiche des performances nettement supérieures.
Sur le benchmark (test de performance) Humanity's Last Exam, conçu pour évaluer l'expertise dans différents domaines, Gemini 3 Flash obtient un score de 33,7% sans utilisation d'outils, se rapprochant des performances de Gemini 3 Pro (37,5%) et GPT 5.2 (34,5%). Il surpasse même tous ses concurrents sur le benchmark MMMU-Pro avec un score de 81,2%.
Le modèle excelle dans l'identification de contenus multimodaux et peut analyser des vidéos, des dessins ou des enregistrements audio. Les utilisateurs peuvent également créer des prototypes d'applications directement dans l'application Gemini.
Pour les développeurs, le modèle est disponible via l'API et Antigravity, le nouvel outil de codage de Google. Des entreprises comme JetBrains, Figma, Cursor, Harvey et Latitude l'utilisent déjà. La tarification s'établit à 0,50 dollar par million de tokens en entrée et 3 dollars en sortie, légèrement plus élevée que Gemini 2.5 Flash, mais Google affirme qu'il est trois fois plus rapide et utilise 30% de tokens en moins pour les tâches de réflexion.
Adobe Firefly intègre l'édition vidéo par prompts et de nouveaux modèles de génération vidéo
Adobe enrichit considérablement son application de génération vidéo par IA, Firefly, en introduisant un éditeur vidéo basé sur des prompts textuels et en ajoutant plusieurs modèles tiers de génération d'images et de vidéos.
Jusqu'à présent, Firefly ne permettait que la génération initiale par prompts, obligeant les utilisateurs à recréer entièrement une vidéo pour toute modification. Le nouvel éditeur permet désormais d'utiliser des instructions textuelles pour modifier des éléments vidéo, des couleurs et des angles de caméra. Une nouvelle vue chronologique facilite l'ajustement des images, des sons et d'autres caractéristiques.
Annoncé en octobre en version bêta privée, cet éditeur est maintenant accessible à tous les utilisateurs. Grâce au modèle Aleph de Runway, les utilisateurs peuvent donner des instructions précises comme "Changer le ciel en nuageux et réduire le contraste". Le modèle Firefly Video d'Adobe permet également de télécharger une image de départ et une vidéo de référence pour recréer un mouvement de caméra spécifique.
Adobe intègre aussi le modèle Astra de Topaz Labs pour l'upscaling (montée en résolution) vidéo en 1080p ou 4K, ainsi que le modèle de génération d'images FLUX.2 de Black Forest Labs, disponible immédiatement sur Firefly et dès janvier sur Adobe Express.
Pour attirer davantage d'utilisateurs face à la concurrence, Adobe offre des générations illimitées jusqu'au 15 janvier pour certains abonnements premium.
OpenAI lance GPT Image 1.5 pour contrer la concurrence de Google
OpenAI déploie GPT Image 1.5, une nouvelle version de son générateur d'images pour ChatGPT qui promet une meilleure compréhension des instructions, des capacités d'édition plus précises et une vitesse de génération jusqu'à quatre fois supérieure. Disponible depuis mardi pour tous les utilisateurs de ChatGPT et via l'API (interface de programmation d'applications), ce lancement s'inscrit dans une stratégie offensive face à Google.
Cette annonce fait suite à la déclaration d'un "code rouge" par Sam Altman, PDG d'OpenAI, dans un mémo interne divulgué le mois dernier. Le document révélait les plans d'OpenAI pour reconquérir sa position de leader après que Google ait gagné des parts de marché avec Gemini 3 et Nano Banana Pro, qui dominent actuellement le classement LMArena sur plusieurs benchmarks.
GPT Image 1.5 se distingue par ses fonctionnalités de post-production permettant un contrôle granulaire des modifications tout en maintenant la cohérence visuelle, notamment pour l'apparence faciale, l'éclairage, la composition et les tons de couleur. Contrairement à la plupart des outils d'IA générative qui réinterprètent entièrement l'image à chaque modification demandée, ce nouveau modèle préserve la consistance lors d'ajustements spécifiques.
Selon Fidji Simo, PDG des applications chez OpenAI, ChatGPT intègre également un point d'entrée dédié dans la barre latérale fonctionnant "davantage comme un studio créatif", avec de nouveaux écrans de visualisation et d'édition facilitant la création d'images correspondant à la vision de l'utilisateur.
