La bataille des modèles d'IA : de l'innovation académique à la compétition en ingénierie.

La "guerre des cent modèles" dans le domaine de l'IA : de l'innovation académique à la technologie d'ingénierie

Le mois dernier, une "guerre des animaux" a éclaté dans le secteur de l'IA.

D'un côté, il y a Llama (le lama) lancé par Meta. Grâce à sa nature open-source, il est très apprécié par la communauté des développeurs. Après avoir étudié le papier et le code source de Llama, la société NEC a rapidement développé une version japonaise de ChatGPT, résolvant ainsi le goulet d'étranglement technologique du Japon dans le domaine de l'IA.

L'autre partie est un grand modèle appelé Falcon. En mai de cette année, Falcon-40B a été lancé, surpassant le lama pour atteindre la première place du "classement LLM open source".

Ce classement est réalisé par la communauté des modèles open source et fournit des critères d'évaluation des capacités des LLM. Le classement est essentiellement dominé par Llama et Falcon qui alternent en tête.

Après le lancement de Llama 2, la famille des lamas a repris de l'avance ; mais début septembre, Falcon a lancé la version 180B, obtenant à nouveau un meilleur classement.

Fait intéressant, les développeurs de "Falcon" proviennent de l'Institut de recherche en innovation technologique d'Abou Dhabi, la capitale des Émirats Arabes Unis. Des responsables gouvernementaux ont déclaré qu'ils s'engagent dans ce domaine pour bouleverser les acteurs clés.

Le lendemain de la publication de la version 180B, le ministre des IA des Émirats arabes unis a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" ; avec lui, ont également été sélectionnés le "père de l'IA" Geoffrey Hinton, Sam Altman d'OpenAI, ainsi que le fondateur de Baidu, Robin Li.

Aujourd'hui, le domaine de l'IA est entré dans la phase de "la lutte des chefs" : les pays et entreprises disposant d'un certain pouvoir financier sont, plus ou moins, en train de développer leur propre modèle de langage. Rien que dans le cercle des pays du Golfe, il n'y a pas qu'un seul acteur - en août, l'Arabie Saoudite a récemment acheté plus de 3000 puces H100 pour les universités nationales, afin de former des LLM.

Un investisseur s'est plaint sur les réseaux sociaux : "À l'époque, je méprisais l'innovation des modèles commerciaux sur Internet, pensant qu'il n'y avait pas de barrières : la bataille des centaines de groupes, la bataille des centaines de voitures, la bataille des centaines de diffusions ; je ne pensais pas que l'entrepreneuriat dans les grandes technologies et les grands modèles serait également une bataille des centaines de modèles..."

Comment la technologie matérielle, autrefois considérée comme difficile, est-elle devenue un domaine auquel tout le monde peut participer ?

Transformer change les règles du jeu

Les start-ups américaines, les géants technologiques chinois et les magnats du pétrole du Moyen-Orient peuvent s'engager dans le domaine des grands modèles grâce à ce célèbre article : « Attention Is All You Need ».

En 2017, huit chercheurs en informatique de Google ont publié l'algorithme Transformer dans cet article. Cet article est actuellement le troisième le plus cité de l'histoire de l'IA, et l'apparition du Transformer est devenue le catalyseur de cette vague actuelle d'IA.

Les différents grands modèles actuels, y compris la série GPT qui fait sensation dans le monde entier, sont tous basés sur le Transformer.

Avant cela, "enseigner aux machines à lire" a toujours été reconnu comme un problème académique difficile. Contrairement à la reconnaissance d'images, la lecture humaine ne se concentre pas uniquement sur les mots et phrases actuels, mais intègre également le contexte pour comprendre. Les entrées des premiers réseaux neuronaux étaient indépendantes les unes des autres, incapables de comprendre des textes longs voire des articles entiers, ce qui entraînait souvent des erreurs de traduction.

En 2014, le scientifique en informatique Ilya Sutskever, qui avait travaillé chez Google avant de rejoindre OpenAI, a réalisé une percée. Il a utilisé des réseaux de neurones récurrents (RNN) pour traiter le langage naturel, ce qui a permis à Google Traduction de surpasser rapidement ses concurrents.

Le RNN a introduit le "design récurrent", permettant à chaque neurone de recevoir à la fois l'entrée actuelle et l'entrée du moment précédent, acquérant ainsi la capacité de "relier le contexte". L'apparition des RNN a enflammé l'enthousiasme de la recherche dans le milieu académique, et plus tard, l'auteur du papier Transformer, Noam Shazeer(, a également mené des recherches approfondies.

Cependant, les développeurs ont rapidement réalisé que les RNN présentaient de graves défauts : cet algorithme utilise des calculs séquentiels, bien qu'il résolve le problème du contexte, son efficacité d'exécution n'est pas élevée et il est difficile de traiter un grand nombre de paramètres.

La conception compliquée des RNN a rapidement lassé Shazelle. Ainsi, à partir de 2015, Shazelle et 7 passionnés ont commencé à développer une alternative aux RNN, dont le résultat est le Transformer.

Par rapport aux RNN, le Transformer a deux grandes innovations :

Premièrement, l'utilisation de l'encodage de position à la place des conceptions récurrentes permet le calcul parallèle, augmentant considérablement l'efficacité de l'entraînement, ce qui permet de traiter d'énormes quantités de données et propulse l'IA vers l'ère des grands modèles ; deuxièmement, cela renforce davantage la capacité de compréhension du contexte.

Avec le Transformer résolvant d'un coup de nombreux problèmes, il est progressivement devenu la solution dominante en traitement du langage naturel, donnant l'impression que "sans le Transformer, le NLP serait plongé dans une nuit éternelle". Même Ilia a abandonné son propre RNN qu'il avait créé pour soutenir le Transformer.

En résumé, le Transformer a transformé les grands modèles d'une question de recherche théorique en un problème d'ingénierie pur.

En 2019, OpenAI a développé GPT-2 basé sur Transformer, qui a émerveillé le monde académique. En réponse, Google a rapidement lancé une IA plus puissante, nommée Meena.

Comparé à GPT-2, Meena n'apporte aucune innovation au niveau des algorithmes sous-jacents, avec seulement une augmentation de 8,5 fois du nombre de paramètres et une augmentation de 14 fois de la puissance de calcul. L'auteur du document sur les Transformers, Jay Alammar, a été très choqué par cette méthode de "pile massive" et a immédiatement rédigé un mémo intitulé "Meena dévore le monde".

La naissance du Transformer a clairement ralenti le progrès de l'innovation des algorithmes de base dans le milieu académique. Les éléments d'ingénierie tels que l'ingénierie des données, l'échelle de calcul et l'architecture des modèles sont devenus des facteurs clés dans la compétition en IA ; toute entreprise technologique ayant une certaine capacité technique peut développer de grands modèles.

Ainsi, le scientifique en informatique Andrew Ng a déclaré lors d'une conférence à l'Université de Stanford : "L'IA est un ensemble d'outils, comprenant l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage par renforcement et maintenant l'intelligence artificielle générative. Tous ces outils sont des technologies générales, similaires à d'autres technologies générales comme l'électricité et Internet."

Bien qu'OpenAI reste le baromètre des LLM, les analystes en semi-conducteurs estiment que la compétitivité de GPT-4 provient principalement de solutions d'ingénierie - si c'est open source, tout concurrent peut rapidement le reproduire.

Des analystes prédisent qu'il ne faudra peut-être pas longtemps avant que d'autres grandes entreprises technologiques ne soient en mesure de développer des modèles de grande taille équivalents aux performances de GPT-4.

Barrières à la concurrence fragiles

Actuellement, la "bataille des cent modèles" n'est plus une rhétorique, mais une réalité objective.

Des rapports connexes montrent qu'à la fin de juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis, et les différents mythes et légendes ne suffisent plus aux entreprises technologiques nationales pour les nommer.

En plus de la Chine et des États-Unis, certains pays relativement riches ont également réalisé de manière préliminaire le "modèle unique par pays": le Japon, les Émirats Arabes Unis, le Bhashini dirigé par le gouvernement indien, et le HyperClova X développé par l'entreprise Internet sud-coréenne Naver.

La situation actuelle semble ramener à l'ère de la bulle Internet, avec des capitaux de toutes parts qui affluent de manière frénétique.

Comme mentionné précédemment, le Transformateur a transformé les grands modèles en un problème d'ingénierie pur ; tant qu'il y a des talents, des fonds et de la puissance de calcul, il est possible de produire de grands modèles. Cependant, bien que la barrière d'entrée ne soit pas élevée, cela ne signifie pas que tout le monde peut devenir un géant de l'ère de l'IA.

L'"guerre des animaux" mentionnée au début de l'article est un exemple typique : bien que le Faucon ait dépassé le lama dans le classement, il est difficile de dire quel impact cela a eu sur Meta.

Comme tout le monde le sait, les entreprises ouvrent leurs résultats de recherche au public pour partager les bénéfices technologiques avec la société, tout en espérant tirer parti de l'intelligence collective. Avec l'utilisation et l'amélioration continues de Llama par les professeurs d'université, les instituts de recherche et les PME, Meta peut appliquer ces résultats à ses propres produits.

Pour les grands modèles open source, une communauté de développeurs active est leur principale force concurrentielle.

Dès la création du laboratoire d'IA en 2015, Meta a établi un ton d'open source ; Zuckerberg, qui a fait fortune grâce aux réseaux sociaux, comprend mieux l'importance de "maintenir de bonnes relations avec le public".

Par exemple, en octobre, Meta a organisé un événement intitulé "Incentives pour les créateurs en version IA" : les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux tels que l'éducation et l'environnement ont la possibilité de recevoir un financement de 500 000 dollars.

Aujourd'hui, la série Llama de Meta est devenue une référence dans le domaine des LLM open source.

À début octobre, parmi les 10 premiers classements de LLM open source, 8 sont basés sur Llama 2 et utilisent tous son protocole open source. Rien que sur cette plateforme, plus de 1500 LLM utilisant le protocole open source de Llama 2 ont déjà été créés.

Bien sûr, il n'est pas exclu d'améliorer les performances comme Falcon, mais la plupart des LLM sur le marché présentent encore un écart évident par rapport à GPT-4.

Par exemple, récemment, GPT-4 a remporté la première place au test AgentBench avec un score de 4,41. AgentBench a été lancé conjointement par l'Université Tsinghua et plusieurs universités américaines, et il est utilisé pour évaluer la capacité de raisonnement et de décision des LLM dans des environnements de génération ouverte multidimensionnels. Le contenu du test comprend des tâches dans 8 environnements différents tels que les systèmes d'exploitation, les bases de données, les graphes de connaissances, et les batailles de cartes.

Les résultats des tests montrent que le deuxième, Claude, n'a obtenu que 2,77 points, avec un écart évident. Quant à ces LLM open source très médiatisés, leurs résultats aux tests sont généralement autour de 1 point, soit moins d'un quart de GPT-4.

Il faut savoir que GPT-4 a été publié en mars de cette année, ce qui est le résultat de plusieurs mois de rattrapage par les concurrents mondiaux. Cette différence est due à l'excellente équipe de scientifiques d'OpenAI et à l'expérience accumulée grâce à une longue recherche sur les LLM, ce qui leur permet de rester constamment en tête.

Cela signifie que la capacité de base des grands modèles n'est pas les paramètres, mais la construction de l'écosystème ) open source ( ou la capacité de raisonnement pure ) closed source (.

Avec l'essor de la communauté open source, les performances des LLM pourraient converger, car tout le monde utilise des architectures de modèles et des ensembles de données similaires.

Une autre question plus intuitive est : à part Midjourney, il semble qu'aucun autre grand modèle ne puisse vraiment être rentable.

Point d'ancrage de la valeur

En août de cette année, un article intitulé "OpenAI pourrait faire faillite d'ici fin 2024" a suscité l'attention. Le sujet de l'article peut presque être résumé en une seule phrase : OpenAI brûle trop d'argent trop rapidement.

L'article mentionne qu depuis le développement de ChatGPT, les pertes d'OpenAI se sont rapidement accrus, atteignant environ 540 millions de dollars en 2022, et il ne reste qu'à attendre que les investisseurs prennent en charge.

Bien que le titre de l'article soit accrocheur, il révèle également la situation de nombreux fournisseurs de grands modèles : un déséquilibre sévère entre les coûts et les revenus.

Des coûts trop élevés signifient qu'actuellement, seules NVIDIA et, au mieux, Broadcom gagnent beaucoup d'argent grâce à l'intelligence artificielle.

Selon les estimations d'une société de conseil, NVIDIA a vendu plus de 300 000 H100 au deuxième trimestre de cette année. C'est une puce AI, très efficace pour entraîner l'IA, et elle est convoitée par des entreprises technologiques et des institutions de recherche du monde entier. Si l'on empile ces 300 000 H100, leur poids équivaut à celui de 4,5 avions Boeing 747.

Les performances d'NVIDIA ont explosé, avec une augmentation des revenus de 854 % par rapport à l'année précédente, ce qui a choqué Wall Street. Il convient de noter qu'actuellement, le prix du H100 sur le marché de l'occasion a été gonflé à 40 000 à 50 000 dollars, alors que son coût matériel n'est d'environ que 3 000 dollars.

Le coût élevé des ressources de calcul est devenu un obstacle au développement de l'industrie dans une certaine mesure. Des institutions de capital ont estimé que les entreprises technologiques du monde entier devraient dépenser 200 milliards de dollars par an pour la construction d'infrastructures de grands modèles ; en revanche, les grands modèles ne peuvent générer qu'un maximum de 75 milliards de dollars de revenus par an, avec un écart d'au moins 125 milliards de dollars.

De plus, à part quelques exceptions comme Midjourney, la plupart des entreprises de logiciels, après avoir investi des sommes énormes, n'ont pas encore réfléchi à un modèle de rentabilité. Surtout les deux leaders du secteur - Microsoft et Adobe - avancent avec hésitation.

L'outil de génération de code AI GitHub Copilot, développé en collaboration entre Microsoft et OpenAI, coûte 10 dollars par mois, mais en raison des coûts d'infrastructure, Microsoft perd en fait 20 dollars par mois. Les utilisateurs intensifs peuvent même faire perdre à Microsoft jusqu'à 80 dollars par mois. Sur cette base, on peut supposer que le Microsoft 365 Copilot, qui est tarifé à 30 dollars, pourrait perdre encore plus.

De même, Adobe, qui vient de lancer l'outil Firefly AI, a rapidement mis en place un système de points pour éviter que les utilisateurs n'en abusent et ne causent des pertes à l'entreprise. Une fois que les utilisateurs dépassent le quota de points alloué par mois, Adobe réduira la vitesse du service.

Il faut savoir que Microsoft et Adobe sont déjà des géants du logiciel avec des scénarios d'affaires clairs et un grand nombre d'utilisateurs payants. La plupart des grands modèles avec de nombreux paramètres ont pour principale application le chat.

Il est indéniable que sans l'émergence d'OpenAI et de ChatGPT, cette révolution de l'IA ne se serait peut-être pas produite ; cependant, la valeur créée par l'entraînement de grands modèles reste à débattre.

De plus, avec l'intensification de la concurrence par homogénéisation et l'augmentation du nombre de modèles open source, l'espace de développement des fournisseurs de grands modèles pourrait devenir encore plus limité.

Le succès de l'iPhone 4 ne provient pas du processeur A4 en 45 nm, mais du fait qu'il peut jouer à des jeux comme Plants vs. Zombies et Angry Birds.

Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Récompense
  • 5
  • Partager
Commentaire
0/400
OnChainSleuthvip
· 07-13 08:37
C'est juste pour grimper dans les classements.
Voir l'originalRépondre0
rekt_but_resilientvip
· 07-13 08:36
Pourquoi le chameau et l'aigle se battent-ils encore ?
Voir l'originalRépondre0
FastLeavervip
· 07-13 08:35
Eh, le monde de la technologie se met aussi à faire combattre des animaux.
Voir l'originalRépondre0
FlashLoanKingvip
· 07-13 08:10
Il n'y a que deux animaux qui se battent, je te conseille de ne pas acheter de jeton.
Voir l'originalRépondre0
NFTragedyvip
· 07-13 08:08
Les rapaces harcèlent les chameaux, n'est-ce pas ?
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)