L'ascension de DeepSeek, l'IA chinoise qui peut changer la donne

DeepSeek, une startup chinoise d'IA, se distingue par son modèle open source qui nécessite beaucoup moins de puissance de calcul et de puces spécialisées que ses concurrents. En plus de son efficacité, DeepSeek se démarque en expliquant comment il parvient à ses réponses, ajoutant une couche de transparence à ses interactions. Cette approche innovante a propulsé DeepSeek en tête des classements des applications aux États-Unis.
DeepSeek, l'IA chinoise qui peut changer la donne
DeepSeek, l'IA chinoise peu gourmande en calcul

Partager la publication

DeepSeek est actuellement considéré comme le fournisseur d'IA du moment. Cette startup chinoise domine les classements des applications aux États-Unis, ce qui se ressent également sur les marchés boursiers. En Allemagne et aux États-Unis, les actions de certaines grandes entreprises technologiques ont chuté de manière significative.

 

La startup chinoise d'IA DeepSeek attire beaucoup d'attention, certains investisseurs la voyant comme un concurrent sérieux pour les entreprises occidentales dominantes dans ce secteur. Aux États-Unis, l'application de DeepSeek a même dépassé ChatGPT, se hissant à la première place des applications iPhone les plus téléchargées. Ce succès se reflète également sur les marchés boursiers, où certaines actions technologiques américaines et allemandes ont perdu entre cinq et dix pour cent de leur valeur lundi. D'autres ont subi des baisses encore plus importantes.

 

Ce qui rend DeepSeek si particulier, c'est que, selon ses développeurs, il nécessite beaucoup moins de puissance de calcul pour l'entraînement de son modèle d'IA, et donc beaucoup moins de puces hautement spécialisées, qui sont cruciales pour l'industrie de l'IA et produites par l'entreprise américaine Nvidia. Selon un rapport du "New York Times", DeepSeek n'a besoin que d'un ordinateur équipé d'environ 2 000 puces Nvidia, alors que d'autres entreprises utilisent souvent des superordinateurs avec jusqu'à 16 000 de ces puces pour entraîner leurs modèles d'IA.

Réaction aux restrictions d'exportation

La motivation derrière le développement d'un tel système semble être liée aux restrictions d'exportation. Les États-Unis cherchent à limiter l'exportation de matériel d'IA performant, comme celui développé et produit par Nvidia, vers la Chine. En réponse, le fonds spéculatif High Flyer, basé à Huangzhou et derrière DeepSeek, a acheté des milliers de puces Nvidia et les a assemblées pour créer un superordinateur nommé Fire-Flyer II.

 

Les faibles exigences matérielles du modèle DeepSeek ont un impact direct sur les coûts. Il est rapporté que six millions de dollars ont suffi pour lancer l'IA chinoise. Cependant, il reste flou quelles données l'entreprise a utilisées pour entraîner son IA et d'où proviennent ces données.

 

Les données d'entraînement pour l'intelligence artificielle sont une ressource précieuse et souvent controversée. Par exemple, les entreprises médiatiques s'opposent à l'utilisation de leurs contenus sans compensation pour l'entraînement des modèles d'IA. DeepSeek, quant à lui, révèle seulement que son Large Language Model (LLM) a été développé à partir de zéro, en utilisant un ensemble de données de "2 billions de tokens en anglais et en chinois". (Les LLM décomposent le langage en tokens, qui peuvent être des syllabes, des mots, des parties de mots ou des signes de ponctuation.)

Importance de la langue chinoise

La compréhension de la langue chinoise joue un rôle crucial pour DeepSeek. L'entreprise se vante que son LLM surpasse celui de GPT 3.5 d'OpenAI en matière de langue chinoise. De plus, DeepSeek affirme que son modèle est supérieur à Llama2, un LLM de Meta, dans les domaines de l'argumentation, de la programmation, des mathématiques et, encore une fois, du chinois.

Argumentation dans les réponses

Une autre différence notable par rapport aux chatbots traditionnels est que, avant de fournir une réponse, le modèle DeepSeek R1 explique comment il est parvenu à cette réponse et quels aspects il a pris en compte. En d'autres termes, il argumente.

 

DeepSeek a mis son modèle d'IA en téléchargement gratuit sur internet. Les personnes familières avec cette technologie peuvent donc tester ce modèle d'IA sur leur propre système informatique et vérifier si elle tient ses promesses.

 

Le site de DeepSeek
Essayer DeepSeek sur Huggingface
Le modèle DeepSeek sur GitHub

D'autres articles qui pourraient vous intéresser...
Retour en haut