Les projets Web3 basés sur l'IA sont devenus des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne - à travers les données, le stockage et le calcul ; tout en établissant un modèle open source ainsi qu'un marché décentralisé pour les agents IA.
L'IA dans l'industrie Web3 trouve principalement son utilité dans la finance on-chain (paiements cryptographiques, transactions, analyse de données) ainsi que dans le développement assisté.
L'utilité de l'IA+Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, tandis que l'IA espère aider Web3 à sortir de son cercle.
Introduction
Ces deux dernières années, le développement de l'IA a été comme si un bouton de vitesse avait été activé. Cet effet papillon déclenché par Chatgpt a non seulement ouvert un nouveau monde pour l'intelligence artificielle générative, mais a également suscité un courant dans le Web3 de l'autre côté.
Avec le soutien du concept d'IA, le financement du marché des crypto-monnaies, par rapport à son ralentissement, montre une nette amélioration. Les statistiques montrent que, rien qu'au premier semestre 2024, 64 projets Web3+IA ont achevé leur financement, et le système d'exploitation basé sur l'intelligence artificielle, Zyber365, a réalisé un montant de financement maximum de 100 millions de dollars lors de sa série A.
Le marché secondaire est en plein essor, les données agrégées sur les crypto-monnaies montrent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions de près de 8,6 milliards de dollars en 24 heures ; les progrès des technologies IA dominantes apportent des avantages évidents, après la publication du modèle de conversion texte-vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des secteurs d'attraction de crypto-monnaies, les Memes : le premier concept de MemeCoin d'Agent IA - GOAT - a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, suscitant ainsi un véritable engouement pour les Memes IA.
La recherche et les discussions sur l'IA + Web3 sont tout aussi en vogue, allant de l'IA + Depin à l'IA Memecoin, puis aux agents IA et aux DAO IA actuels, la peur de manquer (FOMO) ne suit déjà plus la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, est inévitablement perçue comme un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à distinguer, sous cette magnifique cape, si c'est le terrain des spéculateurs ou la veille de l'éruption de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela va s'améliorer avec l'autre ? Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous tentons également de nous appuyer sur les travaux antérieurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et que peut l'IA apporter de nouveau au Web3 ?
Partie 1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre l'empilement technologique des grands modèles d'IA :
Exprimez l'ensemble du processus dans un langage plus simple : "Le grand modèle" est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et qui doit observer et ingérer une quantité massive d'informations provenant de son environnement pour comprendre le monde. C'est la phase de "collecte" des données. Comme les ordinateurs n'ont pas les sens humains de la vision, de l'audition et d'autres, avant l'entraînement, les informations massives et non étiquetées de l'extérieur doivent être converties en un format d'information que l'ordinateur peut comprendre et utiliser grâce à "prétraitement".
Après avoir saisi les données, l'IA construit un modèle capable de compréhension et de prédiction par le biais de l'« entraînement », ce qui peut être considéré comme le processus par lequel un bébé commence à comprendre et à apprendre le monde extérieur. Les paramètres du modèle sont comme les capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de l'apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des retours sont obtenus en communiquant avec les gens, cela entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également similaire à l'application des grands modèles d'IA à des tâches spécifiques après avoir terminé l'entraînement, comme la classification d'images, la reconnaissance vocale, etc.
L'agent AI s'approche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de capacités de réflexion, mais aussi capable de mémoire, de planification et d'interagir avec le monde en utilisant des outils.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, le Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb de la puissance de calcul et des données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100GPU produits par NVIDIA (qui est un processeur graphique de pointe conçu pour les charges de travail en intelligence artificielle et en calcul haute performance). Il faut 30 jours pour compléter l'entraînement. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel informatique (GPU + puces réseau) de 400 à 700 millions de dollars, tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques de près de 20 millions de dollars par mois.
La décompression de la puissance de calcul de l'IA est en effet l'un des premiers domaines où le Web3 croise l'IA - DePin (réseau d'infrastructure physique décentralisé). Actuellement, le site de statistiques de données a répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale réside dans le fait que la plateforme permet aux individus ou entités disposant de ressources GPU inactives de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, à travers un marché en ligne similaire à celui d'Uber ou d'Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient donc de ressources de calcul efficaces à moindre coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources encourent des pénalités correspondantes.
Ses caractéristiques sont :
Rassembler des ressources GPU inutilisées : les fournisseurs sont principalement des centres de données indépendants de taille petite à moyenne, des exploitants de mines de cryptomonnaie, etc., avec des ressources de puissance de calcul excédentaires, et le mécanisme de consensus est le matériel de minage PoS, tel que les machines de minage FileCoin et ETH. Actuellement, il existe également des projets visant à lancer des dispositifs avec des seuils d'entrée plus bas, comme exolab, qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc. pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché de la longue traîne de la puissance de calcul AI :
a. "En termes techniques", le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données fournie par des GPU à très grande échelle, tandis que l'inférence nécessite relativement moins de performance de calcul des GPU, comme Aethir qui se concentre sur les travaux de rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petites et moyennes entreprises en matière de puissance de calcul ne formeront pas leur propre grand modèle de manière isolée, mais choisiront plutôt d'optimiser et de peaufiner autour de quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul distribuées et inactives.
Propriété décentralisée : La signification technique de la blockchain réside dans le fait que les propriétaires de ressources conservent toujours le contrôle de leurs ressources, peuvent ajuster flexiblement en fonction de la demande et en tirer des bénéfices.
Données
Les données sont le fondement de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est comme le dicton "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie finale du modèle. Pour l'entraînement des modèles IA actuels, les données déterminent la capacité linguistique, la compréhension, voire les valeurs et l'humanisation du modèle. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les données publiques montrent que le nombre de paramètres utilisés par OpenAI pour entraîner GPT-4 atteint le niveau du billion.
Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles, et l'intégration de nouvelles sources de données telles que les émotions des médias sociaux, posent de nouvelles exigences à leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à imposer des restrictions sur la collecte de ces ensembles de données.
Coût élevé de traitement des données : volume de données important, processus de traitement complexe. Les données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Collecte de données : La disponibilité des données du monde réel récupérées gratuitement est en train de s'épuiser rapidement, et les dépenses des entreprises d'IA pour ces données augmentent chaque année. Cependant, ces dépenses ne profitent pas réellement aux véritables contributeurs de données, les plateformes ayant entièrement bénéficié de la création de valeur apportée par les données, comme Reddit qui a généré un revenu total de 203 millions de dollars grâce à des accords de licence de données avec des entreprises d'IA.
Permettre aux utilisateurs qui contribuent réellement de participer également à la création de valeur générée par les données, ainsi que d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de contribuer en exécutant des nœuds Grass, en fournissant de la bande passante inutilisée et du trafic de relais pour capturer des données en temps réel sur l'ensemble d'Internet, et ainsi obtenir des récompenses en tokens ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), où les utilisateurs peuvent télécharger leurs données personnelles (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et choisir de manière flexible s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour effectuer la collecte de données.
Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et contiennent des erreurs. Avant de former le modèle, elles doivent être nettoyées et converties en un format utilisable, ce qui implique des tâches répétitives de normalisation, de filtrage et de gestion des valeurs manquantes. Cette étape est l'une des rares phases manuelles dans l'industrie de l'IA, ayant donné naissance à la profession de labelleur de données. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les labelleurs de données a également augmenté, et cette tâche est naturellement adaptée au mécanisme d'incitation décentralisé de Web3.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'input.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.
Confidentialité et sécurité des données : il est important de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès, la destruction et le vol non autorisés. Ainsi, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent dans deux domaines : (1) l'entraînement de données sensibles ; (2) la collaboration sur les données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données originales.
Les technologies de confidentialité actuellement courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), comme Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network ;
Technologies de zero-knowledge (zk), comme le Reclaim Protocol qui utilise la technologie zkTLS, génèrent des preuves de zero-knowledge pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activités, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, ce domaine en est encore à ses débuts, la plupart des projets étant encore en exploration. Un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
Le cadre zkML EZKL nécessite environ 80 minutes.
Voir l'original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
17 J'aime
Récompense
17
6
Partager
Commentaire
0/400
HodlKumamon
· Il y a 13h
Les données parlent ~ Ce niveau d'enthousiasme de 40 % a déjà dépassé le seuil d'anxiété des ours, miaou.
Voir l'originalRépondre0
GateUser-bd883c58
· Il y a 13h
Dépêchez-vous d'entrer dans une position et de stocker des jetons AI
Voir l'originalRépondre0
GasFeeBarbecue
· Il y a 13h
Je comprends bien. Tôt ou tard, l'IA devra être ajoutée off-chain.
Voir l'originalRépondre0
SchroedingerAirdrop
· Il y a 13h
C'est tout ? Le concept d'IA est déjà trop exploité.
Voir l'originalRépondre0
MidnightTrader
· Il y a 13h
Ah, il y a un potentiel, mais c'est juste une idée qui sera abandonnée après avoir été exploitée.
Fusion de l'IA et du Web3 : Applications et opportunités des technologies de Décentralisation dans différents aspects de l'intelligence artificielle
IA+Web3 : Tours et places
TL;DR
Les projets Web3 basés sur l'IA sont devenus des cibles d'attraction de capitaux sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne - à travers les données, le stockage et le calcul ; tout en établissant un modèle open source ainsi qu'un marché décentralisé pour les agents IA.
L'IA dans l'industrie Web3 trouve principalement son utilité dans la finance on-chain (paiements cryptographiques, transactions, analyse de données) ainsi que dans le développement assisté.
L'utilité de l'IA+Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, tandis que l'IA espère aider Web3 à sortir de son cercle.
Introduction
Ces deux dernières années, le développement de l'IA a été comme si un bouton de vitesse avait été activé. Cet effet papillon déclenché par Chatgpt a non seulement ouvert un nouveau monde pour l'intelligence artificielle générative, mais a également suscité un courant dans le Web3 de l'autre côté.
Avec le soutien du concept d'IA, le financement du marché des crypto-monnaies, par rapport à son ralentissement, montre une nette amélioration. Les statistiques montrent que, rien qu'au premier semestre 2024, 64 projets Web3+IA ont achevé leur financement, et le système d'exploitation basé sur l'intelligence artificielle, Zyber365, a réalisé un montant de financement maximum de 100 millions de dollars lors de sa série A.
Le marché secondaire est en plein essor, les données agrégées sur les crypto-monnaies montrent qu'en un peu plus d'un an, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars, avec un volume de transactions de près de 8,6 milliards de dollars en 24 heures ; les progrès des technologies IA dominantes apportent des avantages évidents, après la publication du modèle de conversion texte-vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des secteurs d'attraction de crypto-monnaies, les Memes : le premier concept de MemeCoin d'Agent IA - GOAT - a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, suscitant ainsi un véritable engouement pour les Memes IA.
La recherche et les discussions sur l'IA + Web3 sont tout aussi en vogue, allant de l'IA + Depin à l'IA Memecoin, puis aux agents IA et aux DAO IA actuels, la peur de manquer (FOMO) ne suit déjà plus la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes futurs, est inévitablement perçue comme un mariage arrangé orchestré par le capital. Il semble que nous ayons du mal à distinguer, sous cette magnifique cape, si c'est le terrain des spéculateurs ou la veille de l'éruption de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est : est-ce que cela va s'améliorer avec l'autre ? Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous tentons également de nous appuyer sur les travaux antérieurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et que peut l'IA apporter de nouveau au Web3 ?
Partie 1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre l'empilement technologique des grands modèles d'IA :
Exprimez l'ensemble du processus dans un langage plus simple : "Le grand modèle" est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et qui doit observer et ingérer une quantité massive d'informations provenant de son environnement pour comprendre le monde. C'est la phase de "collecte" des données. Comme les ordinateurs n'ont pas les sens humains de la vision, de l'audition et d'autres, avant l'entraînement, les informations massives et non étiquetées de l'extérieur doivent être converties en un format d'information que l'ordinateur peut comprendre et utiliser grâce à "prétraitement".
Après avoir saisi les données, l'IA construit un modèle capable de compréhension et de prédiction par le biais de l'« entraînement », ce qui peut être considéré comme le processus par lequel un bébé commence à comprendre et à apprendre le monde extérieur. Les paramètres du modèle sont comme les capacités linguistiques d'un bébé qui s'ajustent continuellement au cours de l'apprentissage. Lorsque le contenu appris commence à se spécialiser ou que des retours sont obtenus en communiquant avec les gens, cela entre dans la phase de « réglage fin » du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs compétences linguistiques, ce qui est également similaire à l'application des grands modèles d'IA à des tâches spécifiques après avoir terminé l'entraînement, comme la classification d'images, la reconnaissance vocale, etc.
L'agent AI s'approche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de capacités de réflexion, mais aussi capable de mémoire, de planification et d'interagir avec le monde en utilisant des outils.
Actuellement, en réponse aux points de douleur de l'IA dans diverses piles, le Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb de la puissance de calcul et des données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100GPU produits par NVIDIA (qui est un processeur graphique de pointe conçu pour les charges de travail en intelligence artificielle et en calcul haute performance). Il faut 30 jours pour compléter l'entraînement. Le prix unitaire de la version 80 Go se situe entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel informatique (GPU + puces réseau) de 400 à 700 millions de dollars, tandis que l'entraînement mensuel nécessite 1,6 milliard de kilowattheures, avec des dépenses énergétiques de près de 20 millions de dollars par mois.
La décompression de la puissance de calcul de l'IA est en effet l'un des premiers domaines où le Web3 croise l'IA - DePin (réseau d'infrastructure physique décentralisé). Actuellement, le site de statistiques de données a répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale réside dans le fait que la plateforme permet aux individus ou entités disposant de ressources GPU inactives de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, à travers un marché en ligne similaire à celui d'Uber ou d'Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées. Les utilisateurs finaux bénéficient donc de ressources de calcul efficaces à moindre coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions de réseau se produisent, les fournisseurs de ressources encourent des pénalités correspondantes.
Ses caractéristiques sont :
Rassembler des ressources GPU inutilisées : les fournisseurs sont principalement des centres de données indépendants de taille petite à moyenne, des exploitants de mines de cryptomonnaie, etc., avec des ressources de puissance de calcul excédentaires, et le mécanisme de consensus est le matériel de minage PoS, tel que les machines de minage FileCoin et ETH. Actuellement, il existe également des projets visant à lancer des dispositifs avec des seuils d'entrée plus bas, comme exolab, qui utilise des appareils locaux tels que MacBook, iPhone, iPad, etc. pour établir un réseau de puissance de calcul pour l'inférence de grands modèles.
Face au marché de la longue traîne de la puissance de calcul AI :
a. "En termes techniques", le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage de la capacité de traitement des données fournie par des GPU à très grande échelle, tandis que l'inférence nécessite relativement moins de performance de calcul des GPU, comme Aethir qui se concentre sur les travaux de rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petites et moyennes entreprises en matière de puissance de calcul ne formeront pas leur propre grand modèle de manière isolée, mais choisiront plutôt d'optimiser et de peaufiner autour de quelques grands modèles principaux, et ces scénarios sont naturellement adaptés aux ressources de calcul distribuées et inactives.
Données
Les données sont le fondement de l'IA. Sans données, le calcul est aussi inutile qu'une feuille flottante, et la relation entre les données et le modèle est comme le dicton "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie finale du modèle. Pour l'entraînement des modèles IA actuels, les données déterminent la capacité linguistique, la compréhension, voire les valeurs et l'humanisation du modèle. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA dépend d'un grand volume de données d'entrée. Les données publiques montrent que le nombre de paramètres utilisés par OpenAI pour entraîner GPT-4 atteint le niveau du billion.
Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles, et l'intégration de nouvelles sources de données telles que les émotions des médias sociaux, posent de nouvelles exigences à leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à imposer des restrictions sur la collecte de ces ensembles de données.
Coût élevé de traitement des données : volume de données important, processus de traitement complexe. Les données publiques montrent que plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Permettre aux utilisateurs qui contribuent réellement de participer également à la création de valeur générée par les données, ainsi que d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à un mécanisme d'incitation, est la vision du Web3.
Grass est une couche de données et un réseau décentralisés, permettant aux utilisateurs de contribuer en exécutant des nœuds Grass, en fournissant de la bande passante inutilisée et du trafic de relais pour capturer des données en temps réel sur l'ensemble d'Internet, et ainsi obtenir des récompenses en tokens ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), où les utilisateurs peuvent télécharger leurs données personnelles (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) dans un DLP spécifique et choisir de manière flexible s'ils souhaitent autoriser des tiers spécifiques à utiliser ces données ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour effectuer la collecte de données.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'input.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.
Les technologies de confidentialité actuellement courantes dans le Web3 incluent :
Environnement d'exécution de confiance ( TEE ), comme Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network ;
Technologies de zero-knowledge (zk), comme le Reclaim Protocol qui utilise la technologie zkTLS, génèrent des preuves de zero-knowledge pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activités, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, ce domaine en est encore à ses débuts, la plupart des projets étant encore en exploration. Un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :