分散データレイヤー: AI時代の新しいインフラストラクチャ #247

中級11/26/2024, 4:28:16 AM
以前にAIとWeb3が計算ネットワーク、仲介プラットフォーム、および消費者アプリケーションなどの垂直産業全体で相互補完する方法について述べました。垂直分野としてデータリソースに焦点を当てると、新興のWebプロジェクトはデータの取得、共有、活用に新たな可能性を提供しています。

TL/DR

以前、AIとWeb3が、計算ネットワーク、中間プラットフォーム、消費者アプリケーションなど、垂直産業全般で相互補完する方法について説明しました。垂直領域としてデータリソースに焦点を当てると、新興Webプロジェクトは、データの取得、共有、利用のための新しい可能性を提供しています。

  • AIおよび他のデータ駆動型産業における高品質でリアルタイムで検証可能なデータの需要に対処するため、伝統的なデータプロバイダーは特に透明性、ユーザーコントロール、プライバシー保護の点で苦労しています。
  • Web3ソリューションは、データエコシステムを再構築しています。MPC(Multi-Party Computation)、ゼロ知識証明、およびTLS Notaryなどの技術は、複数のソース間でのデータの流れ中にデータの信頼性とプライバシーを確保し、一方、分散型ストレージとエッジコンピューティングはリアルタイムのデータ処理において高い柔軟性と効率を提供しています。
  • 分散化されたデータネットワークは新興のインフラとして台頭し、OpenLayer(モジュラリティのある実データレイヤー)、Grass(ユーザーのアイドル帯域幅と分散型クローラーノードネットワークを活用)、Vana(ユーザーデータ主権レイヤー1ネットワーク)など、いくつかの代表的なプロジェクトが生まれました。これにより、AIのトレーニングやアプリケーションなどの分野で、異なる技術的な経路を通じて新たな展望が開けました。
  • クラウドソーシングされたキャパシティ、信頼できる抽象化レイヤー、トークンベースのインセンティブメカニズムを活用することで、分散型データインフラストラクチャはWeb2の巨人と比較して、よりプライベートで安全で効率的かつコスト効果の高いソリューションを提供することができます。また、ユーザーにはデータと関連リソースを制御する権限が与えられ、よりオープンで安全かつ相互接続されたデジタルエコシステムの構築を支援します。

1. データ需要の急増

データは、業界全体のイノベーションと意思決定の重要な推進力となっています。UBSは、世界のデータ量は2020年から2030年にかけて10倍に増加し、660ZBに達すると予測しています。2025 年までに、世界中の個人が毎日 463 EB (エクサバイト、1 EB = 10 億GB) のデータを生成すると予想されています。DaaS(Data-as-a-Service)市場は急速に拡大しています。Grand View Researchによると、世界のDaaS市場は2023年に143億6,000万ドルと評価され、28.1%の年平均成長率(CAGR)で成長し、2030年には768億ドルに達すると予想されています。

AIモデルトレーニングは、パターンを特定しパラメータを調整するために大規模なデータセットに大きく依存しています。トレーニング後、モデルのパフォーマンスや一般化能力をテストするためにもデータセットが必要です。さらに、新興の知能アプリケーション形態であるAIエージェントは、正確な意思決定とタスク実行を確保するためにリアルタイムかつ信頼性のあるデータソースが必要です。

(出典:Leewayhertz)

ビジネス分析の需要は多様化し、広範囲に及んでおり、企業のイノベーションを推進するための中核的なツールとして機能しています。たとえば、ソーシャルメディアプラットフォームや市場調査会社は、信頼性のあるユーザー行動データを必要とし、さまざまなソーシャルプラットフォームからの多様なデータを統合して、より包括的な画像を構築するために戦略を立案し、トレンドを分析する必要があります。

Web3エコシステムでは、新しい金融商品をサポートするためにチェーン上でも信頼性のある正確なデータが必要です。より革新的なアセットがトークン化されるにつれて、柔軟で信頼性のあるデータインターフェースが必要とされ、製品開発やリスク管理をサポートし、検証可能なリアルタイムデータに基づいてスマートコントラクトを実行することができます。

さらに、科学研究、IoT、および他の分野でのユースケースは、多様性のある、信頼性のある、リアルタイムのデータへの需要の急増を示しています。伝統的なシステムは急速に増加するデータ量と変化する要求に対応するのが難しいかもしれません。

2. 伝統的なデータエコシステムの制約と課題

典型的なデータエコシステムには、データの収集、保管、処理、分析、および応用が含まれています。中央集権型モデルは、中央集権的なデータの収集と保管が特徴で、厳格なアクセス制御を行う中核のITチームによって管理されています。例えば、Googleのデータエコシステムは、検索エンジン、Gmail、Androidオペレーティングシステムなど、様々なデータソースにまたがっています。これらのプラットフォームはユーザーデータを収集し、世界中の分散データセンターに保存し、アルゴリズムを使用してそれを処理し、様々な製品やサービスの開発と最適化を支援しています。

金融市場では、LSEG(旧リフィニティブ)は、世界の取引所、銀行、主要金融機関からリアルタイムおよび過去のデータを収集し、独自のロイター通信ネットワークを利用して市場関連ニュースを収集しています。彼らはこの情報を独自のアルゴリズムやモデルを使用して処理し、付加価値サービスとして分析およびリスク評価製品を生成しています。

(出典:kdnuggets.com)

伝統的なデータアーキテクチャは、プロフェッショナルサービスにおいて効果的ですが、中央集権モデルの制約がますます明らかになってきており、特に新興データソース、透明性、ユーザープライバシー保護の範囲をカバーする際に制約があります。以下にいくつかの主要な問題があります:

  • 十分なデータカバレッジがありません:伝統的なデータプロバイダーは、ソーシャルメディアの感情やIoTデバイスのデータなど、新興のデータソースを迅速にキャプチャして分析するのに苦労しています。集中型のシステムは、多数の小規模な非メインストリームのソースから「ロングテール」データを効率的に取得および統合することが難しいと考えています。

例えば、2021年のGameStopイベントは、伝統的な金融データプロバイダーのソーシャルメディアセンチメントを分析する際の限界を明らかにしました。Redditなどのプラットフォーム上の投資家のセンチメントが迅速に市場トレンドに影響を与えましたが、BloombergやReutersなどのデータ端末はこれらのダイナミクスを時に捉えることができず、市場予測が遅れることとなりました。

  • データアクセスの制限: 独占がアクセスを制限します。多くの伝統的なプロバイダーは、API/クラウドサービスを介してデータの一部を公開していますが、高額なアクセス料金や複雑な認可プロセスにより、データ統合の難しさが増しています。オンチェーンの開発者は、信頼性の高いオフチェーンデータに迅速にアクセスするのに苦労しており、高品質のデータは高コストでわずかな巨人によって独占されています。
  • データの透明性と信頼性の問題:多くの中央集権化されたデータ提供者は、データ収集および処理方法に透明性を欠いています。大規模データの真正性と完全性を検証するための効果的なメカニズムも不足しています。規模の大きいリアルタイムデータの検証は複雑なままであり、中央集権化された性質がデータの改ざんや操作のリスクを高めています。
  • プライバシー保護とデータ所有権:大手テック企業はユーザーデータを広範囲にわたって商品化しています。ユーザーは個人データの創造者として、それからほとんど適切な価値を得ることができません。彼らは、自分のデータがどのように収集され、処理され、使用されているかを理解することができず、またその使用の範囲や方法を決定することもできません。過剰収集と悪用は、深刻なプライバシーのリスクをもたらします。たとえば、Facebookのケンブリッジ・アナリティカ事件は、従来のデータエコシステムにおける透明性とプライバシー保護の著しい欠陥を露呈しました。
  • データのサイロ化:さまざまなソースやフォーマットからのリアルタイムデータを迅速に統合することは困難であり、包括的な分析を妨げています。これらのデータの多くは組織内に閉じ込められたままであり、業界間および組織間の共有とイノベーションが制限されています。この「データサイロ化」効果は、ドメイン間のデータ統合と分析を妨げます。たとえば、消費者業界では、ブランドはeコマースプラットフォーム、実店舗、ソーシャルメディア、市場調査からのデータを統合する必要がありますが、これらのデータセットは、プラットフォームの不整合や分離のために分離されている可能性があります。同様に、UberやLyftなどのライドシェアリング企業は、交通量、乗客の需要、地理的位置に関する大量のリアルタイムデータを収集していますが、競争のダイナミクスにより、これらのデータセットの共有や統合が妨げられています。

これらの問題を超えて、従来のデータプロバイダーは、コスト効率と柔軟性に関連する課題に直面しています。これらの問題に対処するために積極的に取り組んでいますが、新興のWeb3技術はこれらの問題に対処するための新たな視点と可能性を提供します。

3. Web3データエコシステム

2014年にIPFS(InterPlanetary File System)などの分散型ストレージソリューションが発売されて以来、伝統的なデータエコシステムの限界に対処するための新興プロジェクトが続々と登場しています。分散型データソリューションは、データ生成、ストレージ、交換、処理と分析、検証とセキュリティ、そしてプライバシーと所有権など、データライフサイクルのすべての段階をカバーする多層の相互接続エコシステムに進化しています。

  • データストレージ:FilecoinとArweaveの急速な発展は、分散型ストレージ(DCS)がストレージ領域でのパラダイムシフトになりつつあることを示しています。 DCSは、分散アーキテクチャを通じて単一障害点を減らし、競争力のあるコスト効率で参加者を引き付けます。大規模なアプリケーションの出現により、DCSのストレージ容量は急速に増加しています(例:2024年までにFilecoinの総ネットワークストレージ容量は22エクサバイトに達しました)。
  • 処理と分析:Fluenceのような分散データ計算プラットフォームは、特にIoTやAI推論などのリアルタイムアプリケーションシナリオにおいて、エッジコンピューティングを通じてデータ処理のリアルタイム性と効率を向上させます。Web3プロジェクトは、連邦学習、差分プライバシー、信頼できる実行環境、完全同型暗号化などの技術を利用して、計算レイヤーで柔軟なプライバシー保護を提供しています。
  • データマーケットプレース/取引所プラットフォーム: データの評価と流通を促進するために、Ocean Protocolはトークン化とDEXメカニズムを利用して効率的でオープンなデータ交換チャネルを作成しています。例えば、Daimler(メルセデス・ベンツの親会社)と協力して、サプライチェーン管理のためのデータ交換市場を開発しています。一方、Streamrはパーミッションレスの定期購読型データストリームネットワークを開発し、IoTとリアルタイム分析シナリオに特化しており、交通や物流プロジェクトでの優れたポテンシャルを示しています(例:フィンランドのスマートシティプロジェクトとの協力)。

データ交換と利用が増加するにつれ、信頼性、信憑性、およびプライバシーの確保が重要になっています。これにより、Web3エコシステムはデータの検証とプライバシー保護の革新を推進し、画期的なソリューションを生み出しています。

3.1 データ検証とプライバシー保護のイノベーション

多くのWeb3テクノロジーとネイティブプロジェクトは、データの信頼性やプライバシー保護の問題に焦点を当てています。ゼロ知識証明(ZK)や多者計算(MPC)のようなテクノロジーの広範な採用を超えて、TLS Notaryは注目すべき新しい検証方法として登場しています。

TLS Notaryの紹介

Transport Layer Security(TLS)プロトコルはネットワーク通信のための広く使用されている暗号化プロトコルです。その主な目的は、クライアントとサーバーの間のデータ転送のセキュリティ、整合性、機密性を確保することです。TLSは、HTTPS、電子メール、インスタントメッセージなどのシーンで広く使用されている共通の暗号化標準です。

(TLS暗号化原則、出所:TechTarget)

TLS Notaryが10年前に最初に導入されたとき、その目的は、クライアント(証明者)とサーバーの外部に第三者の「公証人」を導入することによってTLSセッションの真正性を検証することでした。

キースプリッティング技術を使用することで、TLSセッションのマスターキーは2つの部分に分割され、クライアントと公証人によって別々に保持されます。この設計により、公証人は実際の通信内容にアクセスせずに検証プロセスに信頼できる第三者として参加することができます。このメカニズムは中間者攻撃を検出し、不正な証明書を防ぎ、通信データが送信中に改ざんされないようにします。また、プライバシーを保護しながら信頼できる第三者が通信の正当性を確認することも可能にします。

TLS Notaryは、安全なデータ検証を提供し、検証のニーズとプライバシー保護とを効果的にバランスさせます。

2022年、Ethereum FoundationのPrivacy and Scaling Exploration(PSE)研究所によって、TLS Notaryプロジェクトが再構築されました。Rustプログラミング言語でゼロから書き直された新しいバージョンのTLS Notaryプロトコルは、MPCなどのより高度な暗号プロトコルと統合されています。これらのアップデートにより、ユーザーはデータの内容を明らかにせずにサーバーから受け取ったデータの正当性を第三者に証明することができます。新しいTLS Notaryは、そのコアの検証機能を維持しながら、プライバシー保護を大幅に強化し、現在および将来のデータプライバシー要件により適しています。

3.2 TLSノータリのバリアントと拡張

最近、TLS Notaryテクノロジーは進化し続け、さまざまな派生形が生まれ、そのプライバシーと検証能力がさらに強化されました。

  • zkTLS: ZKP技術を統合したプライバシー強化版のTLS Notaryであり、ユーザーは機密情報を公開することなくWebページデータの暗号証明を生成することができます。特に高いプライバシー保護が必要な通信シナリオに適しています。
  • 3P-TLS(Three-Party TLS):このプロトコルは、クライアント、サーバー、監査人の3者を導入し、監査人が内容を開示せずに通信のセキュリティを検証できるようにします。このプロトコルは、透明性とプライバシーの両方を要求するシナリオ、例えばコンプライアンス監査や金融取引のレビューなどに有用です。

Web3プロジェクトは、これらの暗号技術を活用してデータの検証とプライバシー保護を強化し、データの独占、データの孤立、信頼性のある伝送などの問題に取り組んでいます。ユーザーは、ソーシャルメディアアカウントの所有権、金融ローンのショッピング記録、銀行の信用履歴、職歴、学歴などをプライバシーを損なうことなく安全に検証することができます。例には、次のようなものがあります:

  • Reclaim Protocol: HTTPSトラフィックのゼロ知識証明を生成するためにzkTLSを使用し、外部のウェブサイトからアクティビティ、評判、およびアイデンティティデータを安全にインポートできます。これにより、機密情報を公開せずに利用者がデータを取り戻すことができます。
  • zkPass:3P-TLS技術を組み合わせて、ユーザーがKYCやクレジットサービスなどでプライベートな現実世界のデータを安全に検証できるようにします。また、HTTPSネットワークと互換性があります。
  • Opacity Network: zkTLSに基づいて構築され、Uber、Spotify、Netflixなどのプラットフォームでの活動を直接アクセスせずに、これらのプラットフォームのAPIを利用して安全に証明できるようにします。クロスプラットフォームの活動の検証が可能になります。

(TLSオラクルを扱うプロジェクト、出典:Bastian Wetzel)

Web3におけるデータ検証は、データエコシステムにおける重要なリンクであり、広範な応用の可能性を持っています。このエコシステムの繁栄は、デジタル経済をよりオープンでダイナミック、ユーザーセントリックなモデルに導いています。ただし、真正性検証技術の開発は、次世代データインフラの構築の始まりに過ぎません。

4. 分散データネットワーク

前述のデータ検証技術をさらに探求したプロジェクトでは、データの追跡性、分散データ収集、信頼性のある伝送など、上流データエコシステムのさらなる探求を組み合わせています。以下では、OpenLayer、Grass、およびVanaという3つの代表的なプロジェクトを紹介し、次世代データインフラストラクチャの独自のポテンシャルを示しています。

4.1 OpenLayer

a16z Crypto 2024 Spring Startup Acceleratorのプロジェクトの1つであるOpenLayerは、最初のモジュール式の正当なデータレイヤーです。Web2およびWeb3企業のニーズに対応するため、データ収集、検証、変換を調整するための革新的なモジュール式のソリューションを提供することを目的としています。OpenLayerは、Geometry VenturesやLongHash Venturesをはじめとする有名なファンドやエンジェル投資家から支援を受けています。

従来のデータレイヤーには複数の課題があります:信頼性のある検証メカニズムの不足、アクセシビリティを制限する中央集権的なアーキテクチャへの依存、異なるシステム間の相互運用性と流れの不足、そして公正なデータ価値分配メカニズムの欠如。

AIの訓練データの不足がますます深刻化しているという問題もあります。公共インターネット上では、多くのウェブサイトが今やAI企業による大規模なデータスクレイピングを防ぐためにアンチスクレイピング対策を展開しています。プライベートな独自のデータでは、状況はさらに複雑です。貴重なデータは、その機密性からプライバシー保護の方法で保管されることが多く、効果的なインセンティブメカニズムが不足しています。ユーザーはプライベートデータを安全に収益化することができず、そのため機密情報を共有することをためらっています。

これらの問題に対処するために、OpenLayerはデータ検証技術を組み合わせ、モジュラーな認証データレイヤーを構築しています。分散化と経済的インセンティブを通じて、データ収集、検証、変換のプロセスを調整し、Web2およびWeb3企業により安全で効率的かつ柔軟なデータインフラを提供しています。

4.1.1 OpenLayerのモジュラーデザインのコアコンポーネント

OpenLayerは、データ収集、信頼性のある検証、および変換プロセスを簡素化するモジュラープラットフォームを提供します。

a) OpenNodes

OpenNodesは、OpenLayerエコシステムにおける分散データ収集の中核コンポーネントです。モバイルアプリ、ブラウザ拡張機能、その他のチャンネルを通じて、ユーザーはデータを収集することができます。異なるオペレーター/ノードは、ハードウェア仕様に最適なタスクを実行することで、報酬を最適化することができます。

OpenNodesは、3つの主要なデータタイプをサポートしています:

  • 公に利用可能なインターネットデータ(例:金融、天気、スポーツ、ソーシャルメディアデータ)
  • ユーザーの個人データ(例:Netflixの視聴履歴、Amazonの注文記録)
  • 信頼できるソースからの自己報告データ(例:所有者によって検証されたデータまたは特定の信頼されたハードウェアによって検証されたデータ)。

開発者は新しいデータタイプを簡単に追加したり、データソースを指定したり、要件を定義したり、取得方法を指定したりできます。ユーザーは報酬と引き換えに匿名化されたデータを提供できます。この設計により、システムは新しいデータ要求に対応するために持続的に拡大できます。多様なデータソースにより、OpenLayerはさまざまなアプリケーションシナリオに適しており、データ提供の敷居が低くなります。

b) OpenValidators

OpenValidatorsは、収集されたデータの検証を処理し、データ消費者がユーザーが提供したデータの正確性をソースと照合できるようにします。検証方法は暗号的な証明を使用し、結果は遡って検証できます。複数のプロバイダーが同じタイプの証明に対して検証サービスを提供することができ、開発者は自分のニーズに最適なプロバイダーを選択できます。

初期の使用事例では、特にインターネットAPIからのパブリックまたはプライベートデータについて、OpenLayerはTLS Notaryを検証ソリューションとして利用しています。これにより、Webアプリケーションからデータをエクスポートし、プライバシーを損なうことなくその信頼性を検証します。

Beyond TLS Notary, thanks to its modular design, the verification system can easily integrate other methods to accommodate diverse data and verification needs, including:

  1. 検証済みのTLS接続:信頼された実行環境(TEEs)を利用して認定されたTLS接続を確立し、データの整合性と送信中の信頼性を保証します。
  2. セキュアエンクレーブ:ハードウェアレベルのセキュアな分離環境(例:Intel SGX)を使用して、機密データを処理および検証し、より高度なデータ保護を提供します。
  3. ZK証明ジェネレーター:ゼロ知識証明を統合して、基になるデータを公開せずにデータ属性や計算結果を検証します。

c) OpenConnect

OpenConnectは、OpenLayerエコシステム内でのデータ変換と利便性に責任を持つモジュールです。さまざまなソースからデータを処理し、異なるシステム間での相互運用性を確保し、多様なアプリケーション要件を満たします。例えば:

  • スマートコントラクトに直接使用するためのチェーン上のオラクル形式へのデータ変換。
  • AIトレーニングのために非構造化生データを構造化データに前処理する。

データ共有中のリークと誤用を減らすために、ユーザーのプライベートアカウントに対してプライバシーを保護するデータ匿名化を提供しながら、セキュリティを強化します。

AIとブロックチェーンアプリケーションのリアルタイムデータ要求に応えるために、OpenConnectは効率的なリアルタイムデータ変換をサポートしています。

現在、EigenLayerとの統合により、OpenLayer AVS(Active Validation Service)オペレータはデータリクエストタスクを監視し、データを収集し、検証し、結果をシステムに報告します。オペレータはEigenLayer上でアセットをステーキングまたは再ステーキングして、自身の行動に対する経済的な保証を提供します。悪意のある行動はアセットの削減を引き起こします。EigenLayerメインネット上の最初のAVSプロジェクトの一つであるOpenLayerは、50以上のオペレータと40億ドル以上の再ステーキングアセットを集めています。

4.2 グラス

Wynd Networkが開発した旗艦プロジェクト「Grass」は、分散型ネットワーククローラーとAIトレーニングデータプラットフォームを作成するために設計されています。2023年末までに、Polychain CapitalとTribe Capitalをリードとする350万ドルのシードラウンドを完了しました。2024年9月には、HackVCをリードとする500万ドルのシリーズA資金調達を確保し、Polychain、Delphi、Lattice、Brevan Howardも追加で参加しました。

AIトレーニングはますます多様で広範なデータソースに依存しており、Grassは分散ウェブクローラーノードネットワークを作成することでこのニーズに対応しています。このネットワークは分散型の物理的インフラストラクチャとアイドルユーザーバンド幅を活用して、AIトレーニングのための検証可能なデータセットを収集および提供しています。ノードはユーザーのインターネット接続を介してウェブリクエストをルーティングし、公開ウェブサイトにアクセスして構造化されたデータセットを編成します。初期のデータクリーニングとフォーマット変換はエッジコンピューティング技術を使用して行われ、高品質な出力が保証されています。

Grassは、処理効率を向上させるためにSolana Layer 2 Data Rollupアーキテクチャを利用しています。バリデータは、ノードからWebトランザクションを受信し、検証し、バッチ処理し、データの真正性を確認するためにZero-Knowledge (ZK)プルーフを生成します。検証済みデータはGrassデータ台帳(L2)に格納され、対応するプルーフがSolana L1ブロックチェーンにリンクされています。

4.2.1 草の主要な構成要素

a) グラスノード:

ユーザーは、Grassアプリまたはブラウザ拡張機能をインストールし、アイドル状態の帯域幅を使用して分散型Webクローリングを行います。ノードはWebリクエストをルーティングし、公開ウェブサイトにアクセスし、構造化されたデータセットを編集します。エッジコンピューティングを使用して、初期のデータクリーニングとフォーマットを行います。ユーザーは、帯域幅の貢献と提供されたデータのボリュームに基づいてGRASSトークンを報酬として獲得します。

b) ルーター:

中間者として機能するルーターは、Grassノードをバリデータに接続します。彼らはノードネットワークを管理し、帯域幅を中継し、提供する検証済み帯域幅に基づいてインセンティブを受け取ります。

c)バリデーター:

バリデータは、ルーターによって中継されたウェブトランザクションを受け取り、検証します。彼らはZKプルーフを生成してデータの正当性を確認し、固有のキーセットを活用して安全なTLS接続と暗号化スイートを確立します。現在、Grassは中央集権的なバリデータを使用していますが、分散型のバリデータ委員会への移行の計画が進行中です。

d) ZK プロセッサー:

これらのプロセッサは、ノードセッションデータの検証とすべてのWebリクエストデータのバッチ処理を行い、Solanaレイヤー1への提出を行います。

e) Grass Data Ledger (Grass L2):

The Grass Data Ledger stores comprehensive datasets and links them to their corresponding L1 proofs on Solana, ensuring transparency and traceability.

f) エッジ埋め込みモデル:

これらのモデルは、AIトレーニングに適した構造化されたデータセットに非構造化のWebデータを変換します。

Source: 草

比較:Grass vs. OpenLayer

GrassとOpenLayerは、分散ネットワークを活用して企業にオープンなインターネットデータと認証済みのプライベートデータへのアクセスを提供するという共通のコミットメントを持っています。両者はデータ共有と高品質なデータセットの生成を促進するためにインセンティブメカニズムを利用していますが、技術的なアーキテクチャやビジネスモデルは異なります。

技術アーキテクチャ:

Grassは、単一のバリデータに依存する中央集権的な検証を使用するSolana Layer 2 Data Rollupアーキテクチャを採用しており、OpenLayerはEigenLayerのAVS(アクティブ検証サービス)の早期採用者として、経済的インセンティブとスラッシングペナルティを使用した分散型の検証メカニズムを採用しています。そのモジュラーデザインは、データ検証サービスの拡張性と柔軟性を重視しています。

製品焦点:

両プロジェクトはユーザーがノードを通じてデータを収益化することを可能にしますが、ビジネスの用途は異なります:

  • Grassは、構造化された高品質のデータセットをL2に格納し、検証可能なデータマーケットモデルを使用しています。これらのデータセットは、AI企業向けにトレーニングリソースとして提供されています。
  • OpenLayerは、専用のデータストレージではなく、リアルタイムのデータストリーム検証(VaaS)に焦点を当てています。これにより、RWA/DeFi/予測市場のオラクル、リアルタイムのソーシャルデータ、および即座のデータ入力を必要とするAIアプリケーションなど、ダイナミックなシナリオに対応しています。

Grassは、主に大規模な構造化データセットを必要とするAI企業やデータサイエンティスト、またウェブベースのデータを必要とする研究機関や企業をターゲットとしています。OpenLayerは、オフチェーンデータソースを必要とするWeb3開発者、リアルタイムで検証可能なストリームを必要とするAI企業、競合他社の製品使用状況を検証するなど、革新的な戦略を追求するビジネスに対応しています。

将来の競争とシナジー

両プロジェクトは現在は異なるニッチを占めていますが、業界が進化するにつれて機能が収束する可能性があります:

  • 草はリアルタイムの構造化データを提供するために拡大する可能性があります。
  • OpenLayerは、データ管理のための専用のデータレジャーを開発するかもしれません。

両プロジェクトは、トレーニングデータセットの重要なステップとしてデータラベリングを統合することも可能です。Grassは、220万を超える活発なノードを持つ広範なネットワークを備えており、迅速に強化学習と人間フィードバック(RLHF)サービスを展開してAIモデルを最適化することができます。一方、OpenLayerは、リアルタイムのデータ検証と処理の専門知識を持っており、特にプライベートデータセットにおいてデータの信頼性と品質を維持することができます。

潜在的な重複にもかかわらず、彼らのユニークな強みと技術的アプローチにより、分散型データエコシステム内の異なるニッチを支配することができるかもしれません。

(ソース:IOSG、David)

4.3 Vana: Aユーザーセントリックデータプールネットワーク

Vanaは、AIおよび関連アプリケーション向けの高品質なデータを提供するために設計されたユーザーセントリックなデータプールネットワークです。OpenLayerやGrassと比較して、Vanaは異なる技術的およびビジネスアプローチを取っています。2024年9月、VanaはCoinbase Venturesをリードインベスターとして500万ドルの資金調達に成功し、Paradigmがリードインベスターとして参加し、PolychainとCasey Carusoも参加した1,800万ドルのシリーズAラウンドに続きました。

もともとMITの研究プロジェクトとして2018年に立ち上げられたVanaは、プライベートユーザーデータ専用のレイヤー1ブロックチェーンです。データの所有権と価値の分配におけるイノベーションにより、ユーザーはデータでトレーニングされたAIモデルから利益を得ることができます。Vanaは、トラストレスでプライベートで帰属可能なデータ流動性プール(DLP)と、プライベートデータの流れと収益化を促進する革新的なProof of Contributionメカニズムを通じてこれを実現します。

4.3.1. データ流動性プール(DLP)

Vanaは、Vanaネットワークの中心にあるデータ流動性プール(DLP)のユニークなコンセプトを紹介しています。各DLPは、特定の種類のデータ資産を集約する独立したピアツーピアネットワークです。ユーザーは、ショッピング記録、ブラウジング習慣、ソーシャルメディアの活動などのプライベートデータを指定されたDLPにアップロードし、特定の第三者の使用を認可するかどうかを決定することができます。

これらのプール内のデータは、ユーザーのプライバシーを保護するために匿名化されると同時に、AIモデルのトレーニングや市場調査などの商用アプリケーションに引き続き使用できます。DLP にデータを提供するユーザーには、対応する DLP トークンが報酬として与えられます。これらのトークンは、プールへのユーザーの貢献を表し、ガバナンス権限を付与し、ユーザーに将来の利益の一部を受け取る権利を与えます。

従来の一度限りのデータ販売とは異なり、Vanaはデータが経済サイクルに継続的に参加できるようにし、ユーザーが透明で視覚化された利用状況の追跡による継続的な報酬を受け取ることができます。

4.3.2. 貢献証明メカニズム

Proof of Contribution(PoC)メカニズムは、データ品質を確保するためのVanaのアプローチの基礎となるものです。各DLPは、その特性に合わせた独自のPoC機能を定義し、提出されたデータの真正性と完全性を検証し、AIモデルのパフォーマンス向上への貢献を評価できます。このメカニズムは、ユーザーの貢献を定量化し、報酬の割り当てのために記録します。暗号通貨の「プルーフ・オブ・ワーク」の概念と同様に、PoCはデータの質、量、使用頻度に基づいてユーザーに報酬を与えます。スマートコントラクトはこのプロセスを自動化し、コントリビューターが公正かつ透明に報酬を受けられるようにします。

Vanaの技術アーキテクチャー

  1. データリキッドレイヤー:

このコアレイヤーは、DLPへのデータのコントリビューション、検証、記録を可能にし、データをオンチェーンで転送可能なデジタル資産に変換します。DLP 作成者は、スマート コントラクトをデプロイして、目的、検証方法、およびコントリビューション パラメーターを設定します。データコントリビューターは検証のためにデータを送信し、PoC モジュールはデータ品質を評価し、ガバナンスの権利と報酬を割り当てます。

  1. データポータビリティレイヤー:

Vanaのアプリケーションレイヤーとして機能し、データ提供者と開発者の協力を促進するプラットフォームです。DLPの流動性を使用して、分散型AIトレーニングモデルとAI DAppsを構築するためのインフラを提供します。

  1. Connectome:

Vanaエコシステムの基盤となる分散型台帳であるコネクトームは、リアルタイムのデータフローマップとして機能します。 Proof of Stakeコンセンサスを使用して、すべてのリアルタイムデータトランザクションを記録し、効率的なDLPトークンの転送を確実にし、クロスDLPデータアクセスを可能にします。 EVMと完全に互換性があり、他のネットワーク、プロトコル、DeFiアプリケーションとの相互運用が可能です。

(Source: Vana)

Vanaは、ユーザーデータの流動性とエンパワーメントに焦点を当てることで新しいアプローチを提供します。この分散型データ交換モデルは、AIトレーニングやデータマーケットプレイスをサポートするだけでなく、Web3エコシステムにおけるシームレスなクロスプラットフォームのデータ共有と所有を可能にします。最終的には、ユーザーがデータとそれから作成されたインテリジェント製品を所有し管理できるオープンなインターネットを育成します。

5. 分散型データネットワークの価値提案

2006年、データサイエンティストのクライブ・ハムビーは有名な言葉を残しました。「データは新たな石油である」と。過去20年間、私たちは「この資源を精製する」技術の急速な進化を目撃してきました。ビッグデータ分析や機械学習など、データから前例のない価値を引き出すことができる技術です。IDCによると、2025年までに、世界のデータスフィアは163ゼタバイトに拡大し、その大部分は個人からのものになると予想されています。IoT、ウェアラブルデバイス、AI、パーソナライズされたサービスがより普及するにつれて、商業利用に必要なデータの多くは個人から発生するでしょう。

従来のソリューションとWeb3イノベーションの課題

Web3データソリューションは、分散ノードネットワークを活用することで、従来のインフラの制約を克服しています。これらのネットワークにより、より広範囲で効率的なデータ収集が可能となり、特定のデータセットのリアルタイムなアクセス可能性と検証性が向上します。Web3テクノロジーは、データの信頼性と整合性を確保し、ユーザーのプライバシーを保護しながら、より公正なデータ利用モデルを育成します。この分散型アーキテクチャはデータアクセスを民主化し、ユーザーにデータ経済の経済的利益を共有する力を与えます。

OpenLayerとGrassはどちらもユーザーノードモデルに依存して特定のデータ収集プロセスを強化し、Vanaはプライベートユーザーデータを収益化します。これらのアプローチは、効率を向上させるだけでなく、一般ユーザーがデータエコノミーによって生み出される価値に参加できるようにし、ユーザーと開発者にとってWin-Winのシナリオを作成します。

トークンエコノミクスを通じて、Web3データソリューションはインセンティブモデルを再設計し、より公正な価値分配メカニズムを確立しています。これらのシステムは、ユーザーの参加、ハードウェアリソース、資本投資を大幅に引き付け、データネットワーク全体の運営を最適化します。

Web3のソリューションは、技術の進化とエコシステムの拡大に向けたモジュール性と拡張性を提供します。例えば、OpenLayerのモジュール設計は将来の進歩に対する柔軟性を提供し、Grassの分散アーキテクチャは多様で高品質なデータセットを提供することでAIモデルのトレーニングを最適化します。

データ生成、保存、検証から交換、分析まで、Web3によるソリューションは従来のインフラの欠点に対処します。これらのソリューションにより、ユーザーはデータを収益化できるようになり、データ経済を根本的に変革します。

テクノロジーが進化し、アプリケーションシナリオが拡大するにつれて、分散データレイヤーは次世代インフラストラクチャーの礎となる可能性があります。これにより、幅広いデータ駆動型産業をサポートし、ユーザーがデータとその経済的可能性をコントロールすることができます。

免責事項:

  1. この記事は[から転載されていますIOSGベンチャーズ]. すべての著作権は元の著作者[IOSG Ventures]に帰属します。この転載に異議がある場合は、お問い合わせください。gate学習チームに報告し、迅速に対応してもらいます。
  2. 責任の免責事項:この記事で表現されている意見は、著者個人のものであり、投資アドバイスを構成するものではありません。
  3. gate Learnチームは、その記事を他の言語に翻訳しました。翻訳された記事のコピー、配布、または剽窃は、特に許可されていない限り禁止されています。

分散データレイヤー: AI時代の新しいインフラストラクチャ #247

中級11/26/2024, 4:28:16 AM
以前にAIとWeb3が計算ネットワーク、仲介プラットフォーム、および消費者アプリケーションなどの垂直産業全体で相互補完する方法について述べました。垂直分野としてデータリソースに焦点を当てると、新興のWebプロジェクトはデータの取得、共有、活用に新たな可能性を提供しています。

TL/DR

以前、AIとWeb3が、計算ネットワーク、中間プラットフォーム、消費者アプリケーションなど、垂直産業全般で相互補完する方法について説明しました。垂直領域としてデータリソースに焦点を当てると、新興Webプロジェクトは、データの取得、共有、利用のための新しい可能性を提供しています。

  • AIおよび他のデータ駆動型産業における高品質でリアルタイムで検証可能なデータの需要に対処するため、伝統的なデータプロバイダーは特に透明性、ユーザーコントロール、プライバシー保護の点で苦労しています。
  • Web3ソリューションは、データエコシステムを再構築しています。MPC(Multi-Party Computation)、ゼロ知識証明、およびTLS Notaryなどの技術は、複数のソース間でのデータの流れ中にデータの信頼性とプライバシーを確保し、一方、分散型ストレージとエッジコンピューティングはリアルタイムのデータ処理において高い柔軟性と効率を提供しています。
  • 分散化されたデータネットワークは新興のインフラとして台頭し、OpenLayer(モジュラリティのある実データレイヤー)、Grass(ユーザーのアイドル帯域幅と分散型クローラーノードネットワークを活用)、Vana(ユーザーデータ主権レイヤー1ネットワーク)など、いくつかの代表的なプロジェクトが生まれました。これにより、AIのトレーニングやアプリケーションなどの分野で、異なる技術的な経路を通じて新たな展望が開けました。
  • クラウドソーシングされたキャパシティ、信頼できる抽象化レイヤー、トークンベースのインセンティブメカニズムを活用することで、分散型データインフラストラクチャはWeb2の巨人と比較して、よりプライベートで安全で効率的かつコスト効果の高いソリューションを提供することができます。また、ユーザーにはデータと関連リソースを制御する権限が与えられ、よりオープンで安全かつ相互接続されたデジタルエコシステムの構築を支援します。

1. データ需要の急増

データは、業界全体のイノベーションと意思決定の重要な推進力となっています。UBSは、世界のデータ量は2020年から2030年にかけて10倍に増加し、660ZBに達すると予測しています。2025 年までに、世界中の個人が毎日 463 EB (エクサバイト、1 EB = 10 億GB) のデータを生成すると予想されています。DaaS(Data-as-a-Service)市場は急速に拡大しています。Grand View Researchによると、世界のDaaS市場は2023年に143億6,000万ドルと評価され、28.1%の年平均成長率(CAGR)で成長し、2030年には768億ドルに達すると予想されています。

AIモデルトレーニングは、パターンを特定しパラメータを調整するために大規模なデータセットに大きく依存しています。トレーニング後、モデルのパフォーマンスや一般化能力をテストするためにもデータセットが必要です。さらに、新興の知能アプリケーション形態であるAIエージェントは、正確な意思決定とタスク実行を確保するためにリアルタイムかつ信頼性のあるデータソースが必要です。

(出典:Leewayhertz)

ビジネス分析の需要は多様化し、広範囲に及んでおり、企業のイノベーションを推進するための中核的なツールとして機能しています。たとえば、ソーシャルメディアプラットフォームや市場調査会社は、信頼性のあるユーザー行動データを必要とし、さまざまなソーシャルプラットフォームからの多様なデータを統合して、より包括的な画像を構築するために戦略を立案し、トレンドを分析する必要があります。

Web3エコシステムでは、新しい金融商品をサポートするためにチェーン上でも信頼性のある正確なデータが必要です。より革新的なアセットがトークン化されるにつれて、柔軟で信頼性のあるデータインターフェースが必要とされ、製品開発やリスク管理をサポートし、検証可能なリアルタイムデータに基づいてスマートコントラクトを実行することができます。

さらに、科学研究、IoT、および他の分野でのユースケースは、多様性のある、信頼性のある、リアルタイムのデータへの需要の急増を示しています。伝統的なシステムは急速に増加するデータ量と変化する要求に対応するのが難しいかもしれません。

2. 伝統的なデータエコシステムの制約と課題

典型的なデータエコシステムには、データの収集、保管、処理、分析、および応用が含まれています。中央集権型モデルは、中央集権的なデータの収集と保管が特徴で、厳格なアクセス制御を行う中核のITチームによって管理されています。例えば、Googleのデータエコシステムは、検索エンジン、Gmail、Androidオペレーティングシステムなど、様々なデータソースにまたがっています。これらのプラットフォームはユーザーデータを収集し、世界中の分散データセンターに保存し、アルゴリズムを使用してそれを処理し、様々な製品やサービスの開発と最適化を支援しています。

金融市場では、LSEG(旧リフィニティブ)は、世界の取引所、銀行、主要金融機関からリアルタイムおよび過去のデータを収集し、独自のロイター通信ネットワークを利用して市場関連ニュースを収集しています。彼らはこの情報を独自のアルゴリズムやモデルを使用して処理し、付加価値サービスとして分析およびリスク評価製品を生成しています。

(出典:kdnuggets.com)

伝統的なデータアーキテクチャは、プロフェッショナルサービスにおいて効果的ですが、中央集権モデルの制約がますます明らかになってきており、特に新興データソース、透明性、ユーザープライバシー保護の範囲をカバーする際に制約があります。以下にいくつかの主要な問題があります:

  • 十分なデータカバレッジがありません:伝統的なデータプロバイダーは、ソーシャルメディアの感情やIoTデバイスのデータなど、新興のデータソースを迅速にキャプチャして分析するのに苦労しています。集中型のシステムは、多数の小規模な非メインストリームのソースから「ロングテール」データを効率的に取得および統合することが難しいと考えています。

例えば、2021年のGameStopイベントは、伝統的な金融データプロバイダーのソーシャルメディアセンチメントを分析する際の限界を明らかにしました。Redditなどのプラットフォーム上の投資家のセンチメントが迅速に市場トレンドに影響を与えましたが、BloombergやReutersなどのデータ端末はこれらのダイナミクスを時に捉えることができず、市場予測が遅れることとなりました。

  • データアクセスの制限: 独占がアクセスを制限します。多くの伝統的なプロバイダーは、API/クラウドサービスを介してデータの一部を公開していますが、高額なアクセス料金や複雑な認可プロセスにより、データ統合の難しさが増しています。オンチェーンの開発者は、信頼性の高いオフチェーンデータに迅速にアクセスするのに苦労しており、高品質のデータは高コストでわずかな巨人によって独占されています。
  • データの透明性と信頼性の問題:多くの中央集権化されたデータ提供者は、データ収集および処理方法に透明性を欠いています。大規模データの真正性と完全性を検証するための効果的なメカニズムも不足しています。規模の大きいリアルタイムデータの検証は複雑なままであり、中央集権化された性質がデータの改ざんや操作のリスクを高めています。
  • プライバシー保護とデータ所有権:大手テック企業はユーザーデータを広範囲にわたって商品化しています。ユーザーは個人データの創造者として、それからほとんど適切な価値を得ることができません。彼らは、自分のデータがどのように収集され、処理され、使用されているかを理解することができず、またその使用の範囲や方法を決定することもできません。過剰収集と悪用は、深刻なプライバシーのリスクをもたらします。たとえば、Facebookのケンブリッジ・アナリティカ事件は、従来のデータエコシステムにおける透明性とプライバシー保護の著しい欠陥を露呈しました。
  • データのサイロ化:さまざまなソースやフォーマットからのリアルタイムデータを迅速に統合することは困難であり、包括的な分析を妨げています。これらのデータの多くは組織内に閉じ込められたままであり、業界間および組織間の共有とイノベーションが制限されています。この「データサイロ化」効果は、ドメイン間のデータ統合と分析を妨げます。たとえば、消費者業界では、ブランドはeコマースプラットフォーム、実店舗、ソーシャルメディア、市場調査からのデータを統合する必要がありますが、これらのデータセットは、プラットフォームの不整合や分離のために分離されている可能性があります。同様に、UberやLyftなどのライドシェアリング企業は、交通量、乗客の需要、地理的位置に関する大量のリアルタイムデータを収集していますが、競争のダイナミクスにより、これらのデータセットの共有や統合が妨げられています。

これらの問題を超えて、従来のデータプロバイダーは、コスト効率と柔軟性に関連する課題に直面しています。これらの問題に対処するために積極的に取り組んでいますが、新興のWeb3技術はこれらの問題に対処するための新たな視点と可能性を提供します。

3. Web3データエコシステム

2014年にIPFS(InterPlanetary File System)などの分散型ストレージソリューションが発売されて以来、伝統的なデータエコシステムの限界に対処するための新興プロジェクトが続々と登場しています。分散型データソリューションは、データ生成、ストレージ、交換、処理と分析、検証とセキュリティ、そしてプライバシーと所有権など、データライフサイクルのすべての段階をカバーする多層の相互接続エコシステムに進化しています。

  • データストレージ:FilecoinとArweaveの急速な発展は、分散型ストレージ(DCS)がストレージ領域でのパラダイムシフトになりつつあることを示しています。 DCSは、分散アーキテクチャを通じて単一障害点を減らし、競争力のあるコスト効率で参加者を引き付けます。大規模なアプリケーションの出現により、DCSのストレージ容量は急速に増加しています(例:2024年までにFilecoinの総ネットワークストレージ容量は22エクサバイトに達しました)。
  • 処理と分析:Fluenceのような分散データ計算プラットフォームは、特にIoTやAI推論などのリアルタイムアプリケーションシナリオにおいて、エッジコンピューティングを通じてデータ処理のリアルタイム性と効率を向上させます。Web3プロジェクトは、連邦学習、差分プライバシー、信頼できる実行環境、完全同型暗号化などの技術を利用して、計算レイヤーで柔軟なプライバシー保護を提供しています。
  • データマーケットプレース/取引所プラットフォーム: データの評価と流通を促進するために、Ocean Protocolはトークン化とDEXメカニズムを利用して効率的でオープンなデータ交換チャネルを作成しています。例えば、Daimler(メルセデス・ベンツの親会社)と協力して、サプライチェーン管理のためのデータ交換市場を開発しています。一方、Streamrはパーミッションレスの定期購読型データストリームネットワークを開発し、IoTとリアルタイム分析シナリオに特化しており、交通や物流プロジェクトでの優れたポテンシャルを示しています(例:フィンランドのスマートシティプロジェクトとの協力)。

データ交換と利用が増加するにつれ、信頼性、信憑性、およびプライバシーの確保が重要になっています。これにより、Web3エコシステムはデータの検証とプライバシー保護の革新を推進し、画期的なソリューションを生み出しています。

3.1 データ検証とプライバシー保護のイノベーション

多くのWeb3テクノロジーとネイティブプロジェクトは、データの信頼性やプライバシー保護の問題に焦点を当てています。ゼロ知識証明(ZK)や多者計算(MPC)のようなテクノロジーの広範な採用を超えて、TLS Notaryは注目すべき新しい検証方法として登場しています。

TLS Notaryの紹介

Transport Layer Security(TLS)プロトコルはネットワーク通信のための広く使用されている暗号化プロトコルです。その主な目的は、クライアントとサーバーの間のデータ転送のセキュリティ、整合性、機密性を確保することです。TLSは、HTTPS、電子メール、インスタントメッセージなどのシーンで広く使用されている共通の暗号化標準です。

(TLS暗号化原則、出所:TechTarget)

TLS Notaryが10年前に最初に導入されたとき、その目的は、クライアント(証明者)とサーバーの外部に第三者の「公証人」を導入することによってTLSセッションの真正性を検証することでした。

キースプリッティング技術を使用することで、TLSセッションのマスターキーは2つの部分に分割され、クライアントと公証人によって別々に保持されます。この設計により、公証人は実際の通信内容にアクセスせずに検証プロセスに信頼できる第三者として参加することができます。このメカニズムは中間者攻撃を検出し、不正な証明書を防ぎ、通信データが送信中に改ざんされないようにします。また、プライバシーを保護しながら信頼できる第三者が通信の正当性を確認することも可能にします。

TLS Notaryは、安全なデータ検証を提供し、検証のニーズとプライバシー保護とを効果的にバランスさせます。

2022年、Ethereum FoundationのPrivacy and Scaling Exploration(PSE)研究所によって、TLS Notaryプロジェクトが再構築されました。Rustプログラミング言語でゼロから書き直された新しいバージョンのTLS Notaryプロトコルは、MPCなどのより高度な暗号プロトコルと統合されています。これらのアップデートにより、ユーザーはデータの内容を明らかにせずにサーバーから受け取ったデータの正当性を第三者に証明することができます。新しいTLS Notaryは、そのコアの検証機能を維持しながら、プライバシー保護を大幅に強化し、現在および将来のデータプライバシー要件により適しています。

3.2 TLSノータリのバリアントと拡張

最近、TLS Notaryテクノロジーは進化し続け、さまざまな派生形が生まれ、そのプライバシーと検証能力がさらに強化されました。

  • zkTLS: ZKP技術を統合したプライバシー強化版のTLS Notaryであり、ユーザーは機密情報を公開することなくWebページデータの暗号証明を生成することができます。特に高いプライバシー保護が必要な通信シナリオに適しています。
  • 3P-TLS(Three-Party TLS):このプロトコルは、クライアント、サーバー、監査人の3者を導入し、監査人が内容を開示せずに通信のセキュリティを検証できるようにします。このプロトコルは、透明性とプライバシーの両方を要求するシナリオ、例えばコンプライアンス監査や金融取引のレビューなどに有用です。

Web3プロジェクトは、これらの暗号技術を活用してデータの検証とプライバシー保護を強化し、データの独占、データの孤立、信頼性のある伝送などの問題に取り組んでいます。ユーザーは、ソーシャルメディアアカウントの所有権、金融ローンのショッピング記録、銀行の信用履歴、職歴、学歴などをプライバシーを損なうことなく安全に検証することができます。例には、次のようなものがあります:

  • Reclaim Protocol: HTTPSトラフィックのゼロ知識証明を生成するためにzkTLSを使用し、外部のウェブサイトからアクティビティ、評判、およびアイデンティティデータを安全にインポートできます。これにより、機密情報を公開せずに利用者がデータを取り戻すことができます。
  • zkPass:3P-TLS技術を組み合わせて、ユーザーがKYCやクレジットサービスなどでプライベートな現実世界のデータを安全に検証できるようにします。また、HTTPSネットワークと互換性があります。
  • Opacity Network: zkTLSに基づいて構築され、Uber、Spotify、Netflixなどのプラットフォームでの活動を直接アクセスせずに、これらのプラットフォームのAPIを利用して安全に証明できるようにします。クロスプラットフォームの活動の検証が可能になります。

(TLSオラクルを扱うプロジェクト、出典:Bastian Wetzel)

Web3におけるデータ検証は、データエコシステムにおける重要なリンクであり、広範な応用の可能性を持っています。このエコシステムの繁栄は、デジタル経済をよりオープンでダイナミック、ユーザーセントリックなモデルに導いています。ただし、真正性検証技術の開発は、次世代データインフラの構築の始まりに過ぎません。

4. 分散データネットワーク

前述のデータ検証技術をさらに探求したプロジェクトでは、データの追跡性、分散データ収集、信頼性のある伝送など、上流データエコシステムのさらなる探求を組み合わせています。以下では、OpenLayer、Grass、およびVanaという3つの代表的なプロジェクトを紹介し、次世代データインフラストラクチャの独自のポテンシャルを示しています。

4.1 OpenLayer

a16z Crypto 2024 Spring Startup Acceleratorのプロジェクトの1つであるOpenLayerは、最初のモジュール式の正当なデータレイヤーです。Web2およびWeb3企業のニーズに対応するため、データ収集、検証、変換を調整するための革新的なモジュール式のソリューションを提供することを目的としています。OpenLayerは、Geometry VenturesやLongHash Venturesをはじめとする有名なファンドやエンジェル投資家から支援を受けています。

従来のデータレイヤーには複数の課題があります:信頼性のある検証メカニズムの不足、アクセシビリティを制限する中央集権的なアーキテクチャへの依存、異なるシステム間の相互運用性と流れの不足、そして公正なデータ価値分配メカニズムの欠如。

AIの訓練データの不足がますます深刻化しているという問題もあります。公共インターネット上では、多くのウェブサイトが今やAI企業による大規模なデータスクレイピングを防ぐためにアンチスクレイピング対策を展開しています。プライベートな独自のデータでは、状況はさらに複雑です。貴重なデータは、その機密性からプライバシー保護の方法で保管されることが多く、効果的なインセンティブメカニズムが不足しています。ユーザーはプライベートデータを安全に収益化することができず、そのため機密情報を共有することをためらっています。

これらの問題に対処するために、OpenLayerはデータ検証技術を組み合わせ、モジュラーな認証データレイヤーを構築しています。分散化と経済的インセンティブを通じて、データ収集、検証、変換のプロセスを調整し、Web2およびWeb3企業により安全で効率的かつ柔軟なデータインフラを提供しています。

4.1.1 OpenLayerのモジュラーデザインのコアコンポーネント

OpenLayerは、データ収集、信頼性のある検証、および変換プロセスを簡素化するモジュラープラットフォームを提供します。

a) OpenNodes

OpenNodesは、OpenLayerエコシステムにおける分散データ収集の中核コンポーネントです。モバイルアプリ、ブラウザ拡張機能、その他のチャンネルを通じて、ユーザーはデータを収集することができます。異なるオペレーター/ノードは、ハードウェア仕様に最適なタスクを実行することで、報酬を最適化することができます。

OpenNodesは、3つの主要なデータタイプをサポートしています:

  • 公に利用可能なインターネットデータ(例:金融、天気、スポーツ、ソーシャルメディアデータ)
  • ユーザーの個人データ(例:Netflixの視聴履歴、Amazonの注文記録)
  • 信頼できるソースからの自己報告データ(例:所有者によって検証されたデータまたは特定の信頼されたハードウェアによって検証されたデータ)。

開発者は新しいデータタイプを簡単に追加したり、データソースを指定したり、要件を定義したり、取得方法を指定したりできます。ユーザーは報酬と引き換えに匿名化されたデータを提供できます。この設計により、システムは新しいデータ要求に対応するために持続的に拡大できます。多様なデータソースにより、OpenLayerはさまざまなアプリケーションシナリオに適しており、データ提供の敷居が低くなります。

b) OpenValidators

OpenValidatorsは、収集されたデータの検証を処理し、データ消費者がユーザーが提供したデータの正確性をソースと照合できるようにします。検証方法は暗号的な証明を使用し、結果は遡って検証できます。複数のプロバイダーが同じタイプの証明に対して検証サービスを提供することができ、開発者は自分のニーズに最適なプロバイダーを選択できます。

初期の使用事例では、特にインターネットAPIからのパブリックまたはプライベートデータについて、OpenLayerはTLS Notaryを検証ソリューションとして利用しています。これにより、Webアプリケーションからデータをエクスポートし、プライバシーを損なうことなくその信頼性を検証します。

Beyond TLS Notary, thanks to its modular design, the verification system can easily integrate other methods to accommodate diverse data and verification needs, including:

  1. 検証済みのTLS接続:信頼された実行環境(TEEs)を利用して認定されたTLS接続を確立し、データの整合性と送信中の信頼性を保証します。
  2. セキュアエンクレーブ:ハードウェアレベルのセキュアな分離環境(例:Intel SGX)を使用して、機密データを処理および検証し、より高度なデータ保護を提供します。
  3. ZK証明ジェネレーター:ゼロ知識証明を統合して、基になるデータを公開せずにデータ属性や計算結果を検証します。

c) OpenConnect

OpenConnectは、OpenLayerエコシステム内でのデータ変換と利便性に責任を持つモジュールです。さまざまなソースからデータを処理し、異なるシステム間での相互運用性を確保し、多様なアプリケーション要件を満たします。例えば:

  • スマートコントラクトに直接使用するためのチェーン上のオラクル形式へのデータ変換。
  • AIトレーニングのために非構造化生データを構造化データに前処理する。

データ共有中のリークと誤用を減らすために、ユーザーのプライベートアカウントに対してプライバシーを保護するデータ匿名化を提供しながら、セキュリティを強化します。

AIとブロックチェーンアプリケーションのリアルタイムデータ要求に応えるために、OpenConnectは効率的なリアルタイムデータ変換をサポートしています。

現在、EigenLayerとの統合により、OpenLayer AVS(Active Validation Service)オペレータはデータリクエストタスクを監視し、データを収集し、検証し、結果をシステムに報告します。オペレータはEigenLayer上でアセットをステーキングまたは再ステーキングして、自身の行動に対する経済的な保証を提供します。悪意のある行動はアセットの削減を引き起こします。EigenLayerメインネット上の最初のAVSプロジェクトの一つであるOpenLayerは、50以上のオペレータと40億ドル以上の再ステーキングアセットを集めています。

4.2 グラス

Wynd Networkが開発した旗艦プロジェクト「Grass」は、分散型ネットワーククローラーとAIトレーニングデータプラットフォームを作成するために設計されています。2023年末までに、Polychain CapitalとTribe Capitalをリードとする350万ドルのシードラウンドを完了しました。2024年9月には、HackVCをリードとする500万ドルのシリーズA資金調達を確保し、Polychain、Delphi、Lattice、Brevan Howardも追加で参加しました。

AIトレーニングはますます多様で広範なデータソースに依存しており、Grassは分散ウェブクローラーノードネットワークを作成することでこのニーズに対応しています。このネットワークは分散型の物理的インフラストラクチャとアイドルユーザーバンド幅を活用して、AIトレーニングのための検証可能なデータセットを収集および提供しています。ノードはユーザーのインターネット接続を介してウェブリクエストをルーティングし、公開ウェブサイトにアクセスして構造化されたデータセットを編成します。初期のデータクリーニングとフォーマット変換はエッジコンピューティング技術を使用して行われ、高品質な出力が保証されています。

Grassは、処理効率を向上させるためにSolana Layer 2 Data Rollupアーキテクチャを利用しています。バリデータは、ノードからWebトランザクションを受信し、検証し、バッチ処理し、データの真正性を確認するためにZero-Knowledge (ZK)プルーフを生成します。検証済みデータはGrassデータ台帳(L2)に格納され、対応するプルーフがSolana L1ブロックチェーンにリンクされています。

4.2.1 草の主要な構成要素

a) グラスノード:

ユーザーは、Grassアプリまたはブラウザ拡張機能をインストールし、アイドル状態の帯域幅を使用して分散型Webクローリングを行います。ノードはWebリクエストをルーティングし、公開ウェブサイトにアクセスし、構造化されたデータセットを編集します。エッジコンピューティングを使用して、初期のデータクリーニングとフォーマットを行います。ユーザーは、帯域幅の貢献と提供されたデータのボリュームに基づいてGRASSトークンを報酬として獲得します。

b) ルーター:

中間者として機能するルーターは、Grassノードをバリデータに接続します。彼らはノードネットワークを管理し、帯域幅を中継し、提供する検証済み帯域幅に基づいてインセンティブを受け取ります。

c)バリデーター:

バリデータは、ルーターによって中継されたウェブトランザクションを受け取り、検証します。彼らはZKプルーフを生成してデータの正当性を確認し、固有のキーセットを活用して安全なTLS接続と暗号化スイートを確立します。現在、Grassは中央集権的なバリデータを使用していますが、分散型のバリデータ委員会への移行の計画が進行中です。

d) ZK プロセッサー:

これらのプロセッサは、ノードセッションデータの検証とすべてのWebリクエストデータのバッチ処理を行い、Solanaレイヤー1への提出を行います。

e) Grass Data Ledger (Grass L2):

The Grass Data Ledger stores comprehensive datasets and links them to their corresponding L1 proofs on Solana, ensuring transparency and traceability.

f) エッジ埋め込みモデル:

これらのモデルは、AIトレーニングに適した構造化されたデータセットに非構造化のWebデータを変換します。

Source: 草

比較:Grass vs. OpenLayer

GrassとOpenLayerは、分散ネットワークを活用して企業にオープンなインターネットデータと認証済みのプライベートデータへのアクセスを提供するという共通のコミットメントを持っています。両者はデータ共有と高品質なデータセットの生成を促進するためにインセンティブメカニズムを利用していますが、技術的なアーキテクチャやビジネスモデルは異なります。

技術アーキテクチャ:

Grassは、単一のバリデータに依存する中央集権的な検証を使用するSolana Layer 2 Data Rollupアーキテクチャを採用しており、OpenLayerはEigenLayerのAVS(アクティブ検証サービス)の早期採用者として、経済的インセンティブとスラッシングペナルティを使用した分散型の検証メカニズムを採用しています。そのモジュラーデザインは、データ検証サービスの拡張性と柔軟性を重視しています。

製品焦点:

両プロジェクトはユーザーがノードを通じてデータを収益化することを可能にしますが、ビジネスの用途は異なります:

  • Grassは、構造化された高品質のデータセットをL2に格納し、検証可能なデータマーケットモデルを使用しています。これらのデータセットは、AI企業向けにトレーニングリソースとして提供されています。
  • OpenLayerは、専用のデータストレージではなく、リアルタイムのデータストリーム検証(VaaS)に焦点を当てています。これにより、RWA/DeFi/予測市場のオラクル、リアルタイムのソーシャルデータ、および即座のデータ入力を必要とするAIアプリケーションなど、ダイナミックなシナリオに対応しています。

Grassは、主に大規模な構造化データセットを必要とするAI企業やデータサイエンティスト、またウェブベースのデータを必要とする研究機関や企業をターゲットとしています。OpenLayerは、オフチェーンデータソースを必要とするWeb3開発者、リアルタイムで検証可能なストリームを必要とするAI企業、競合他社の製品使用状況を検証するなど、革新的な戦略を追求するビジネスに対応しています。

将来の競争とシナジー

両プロジェクトは現在は異なるニッチを占めていますが、業界が進化するにつれて機能が収束する可能性があります:

  • 草はリアルタイムの構造化データを提供するために拡大する可能性があります。
  • OpenLayerは、データ管理のための専用のデータレジャーを開発するかもしれません。

両プロジェクトは、トレーニングデータセットの重要なステップとしてデータラベリングを統合することも可能です。Grassは、220万を超える活発なノードを持つ広範なネットワークを備えており、迅速に強化学習と人間フィードバック(RLHF)サービスを展開してAIモデルを最適化することができます。一方、OpenLayerは、リアルタイムのデータ検証と処理の専門知識を持っており、特にプライベートデータセットにおいてデータの信頼性と品質を維持することができます。

潜在的な重複にもかかわらず、彼らのユニークな強みと技術的アプローチにより、分散型データエコシステム内の異なるニッチを支配することができるかもしれません。

(ソース:IOSG、David)

4.3 Vana: Aユーザーセントリックデータプールネットワーク

Vanaは、AIおよび関連アプリケーション向けの高品質なデータを提供するために設計されたユーザーセントリックなデータプールネットワークです。OpenLayerやGrassと比較して、Vanaは異なる技術的およびビジネスアプローチを取っています。2024年9月、VanaはCoinbase Venturesをリードインベスターとして500万ドルの資金調達に成功し、Paradigmがリードインベスターとして参加し、PolychainとCasey Carusoも参加した1,800万ドルのシリーズAラウンドに続きました。

もともとMITの研究プロジェクトとして2018年に立ち上げられたVanaは、プライベートユーザーデータ専用のレイヤー1ブロックチェーンです。データの所有権と価値の分配におけるイノベーションにより、ユーザーはデータでトレーニングされたAIモデルから利益を得ることができます。Vanaは、トラストレスでプライベートで帰属可能なデータ流動性プール(DLP)と、プライベートデータの流れと収益化を促進する革新的なProof of Contributionメカニズムを通じてこれを実現します。

4.3.1. データ流動性プール(DLP)

Vanaは、Vanaネットワークの中心にあるデータ流動性プール(DLP)のユニークなコンセプトを紹介しています。各DLPは、特定の種類のデータ資産を集約する独立したピアツーピアネットワークです。ユーザーは、ショッピング記録、ブラウジング習慣、ソーシャルメディアの活動などのプライベートデータを指定されたDLPにアップロードし、特定の第三者の使用を認可するかどうかを決定することができます。

これらのプール内のデータは、ユーザーのプライバシーを保護するために匿名化されると同時に、AIモデルのトレーニングや市場調査などの商用アプリケーションに引き続き使用できます。DLP にデータを提供するユーザーには、対応する DLP トークンが報酬として与えられます。これらのトークンは、プールへのユーザーの貢献を表し、ガバナンス権限を付与し、ユーザーに将来の利益の一部を受け取る権利を与えます。

従来の一度限りのデータ販売とは異なり、Vanaはデータが経済サイクルに継続的に参加できるようにし、ユーザーが透明で視覚化された利用状況の追跡による継続的な報酬を受け取ることができます。

4.3.2. 貢献証明メカニズム

Proof of Contribution(PoC)メカニズムは、データ品質を確保するためのVanaのアプローチの基礎となるものです。各DLPは、その特性に合わせた独自のPoC機能を定義し、提出されたデータの真正性と完全性を検証し、AIモデルのパフォーマンス向上への貢献を評価できます。このメカニズムは、ユーザーの貢献を定量化し、報酬の割り当てのために記録します。暗号通貨の「プルーフ・オブ・ワーク」の概念と同様に、PoCはデータの質、量、使用頻度に基づいてユーザーに報酬を与えます。スマートコントラクトはこのプロセスを自動化し、コントリビューターが公正かつ透明に報酬を受けられるようにします。

Vanaの技術アーキテクチャー

  1. データリキッドレイヤー:

このコアレイヤーは、DLPへのデータのコントリビューション、検証、記録を可能にし、データをオンチェーンで転送可能なデジタル資産に変換します。DLP 作成者は、スマート コントラクトをデプロイして、目的、検証方法、およびコントリビューション パラメーターを設定します。データコントリビューターは検証のためにデータを送信し、PoC モジュールはデータ品質を評価し、ガバナンスの権利と報酬を割り当てます。

  1. データポータビリティレイヤー:

Vanaのアプリケーションレイヤーとして機能し、データ提供者と開発者の協力を促進するプラットフォームです。DLPの流動性を使用して、分散型AIトレーニングモデルとAI DAppsを構築するためのインフラを提供します。

  1. Connectome:

Vanaエコシステムの基盤となる分散型台帳であるコネクトームは、リアルタイムのデータフローマップとして機能します。 Proof of Stakeコンセンサスを使用して、すべてのリアルタイムデータトランザクションを記録し、効率的なDLPトークンの転送を確実にし、クロスDLPデータアクセスを可能にします。 EVMと完全に互換性があり、他のネットワーク、プロトコル、DeFiアプリケーションとの相互運用が可能です。

(Source: Vana)

Vanaは、ユーザーデータの流動性とエンパワーメントに焦点を当てることで新しいアプローチを提供します。この分散型データ交換モデルは、AIトレーニングやデータマーケットプレイスをサポートするだけでなく、Web3エコシステムにおけるシームレスなクロスプラットフォームのデータ共有と所有を可能にします。最終的には、ユーザーがデータとそれから作成されたインテリジェント製品を所有し管理できるオープンなインターネットを育成します。

5. 分散型データネットワークの価値提案

2006年、データサイエンティストのクライブ・ハムビーは有名な言葉を残しました。「データは新たな石油である」と。過去20年間、私たちは「この資源を精製する」技術の急速な進化を目撃してきました。ビッグデータ分析や機械学習など、データから前例のない価値を引き出すことができる技術です。IDCによると、2025年までに、世界のデータスフィアは163ゼタバイトに拡大し、その大部分は個人からのものになると予想されています。IoT、ウェアラブルデバイス、AI、パーソナライズされたサービスがより普及するにつれて、商業利用に必要なデータの多くは個人から発生するでしょう。

従来のソリューションとWeb3イノベーションの課題

Web3データソリューションは、分散ノードネットワークを活用することで、従来のインフラの制約を克服しています。これらのネットワークにより、より広範囲で効率的なデータ収集が可能となり、特定のデータセットのリアルタイムなアクセス可能性と検証性が向上します。Web3テクノロジーは、データの信頼性と整合性を確保し、ユーザーのプライバシーを保護しながら、より公正なデータ利用モデルを育成します。この分散型アーキテクチャはデータアクセスを民主化し、ユーザーにデータ経済の経済的利益を共有する力を与えます。

OpenLayerとGrassはどちらもユーザーノードモデルに依存して特定のデータ収集プロセスを強化し、Vanaはプライベートユーザーデータを収益化します。これらのアプローチは、効率を向上させるだけでなく、一般ユーザーがデータエコノミーによって生み出される価値に参加できるようにし、ユーザーと開発者にとってWin-Winのシナリオを作成します。

トークンエコノミクスを通じて、Web3データソリューションはインセンティブモデルを再設計し、より公正な価値分配メカニズムを確立しています。これらのシステムは、ユーザーの参加、ハードウェアリソース、資本投資を大幅に引き付け、データネットワーク全体の運営を最適化します。

Web3のソリューションは、技術の進化とエコシステムの拡大に向けたモジュール性と拡張性を提供します。例えば、OpenLayerのモジュール設計は将来の進歩に対する柔軟性を提供し、Grassの分散アーキテクチャは多様で高品質なデータセットを提供することでAIモデルのトレーニングを最適化します。

データ生成、保存、検証から交換、分析まで、Web3によるソリューションは従来のインフラの欠点に対処します。これらのソリューションにより、ユーザーはデータを収益化できるようになり、データ経済を根本的に変革します。

テクノロジーが進化し、アプリケーションシナリオが拡大するにつれて、分散データレイヤーは次世代インフラストラクチャーの礎となる可能性があります。これにより、幅広いデータ駆動型産業をサポートし、ユーザーがデータとその経済的可能性をコントロールすることができます。

免責事項:

  1. この記事は[から転載されていますIOSGベンチャーズ]. すべての著作権は元の著作者[IOSG Ventures]に帰属します。この転載に異議がある場合は、お問い合わせください。gate学習チームに報告し、迅速に対応してもらいます。
  2. 責任の免責事項:この記事で表現されている意見は、著者個人のものであり、投資アドバイスを構成するものではありません。
  3. gate Learnチームは、その記事を他の言語に翻訳しました。翻訳された記事のコピー、配布、または剽窃は、特に許可されていない限り禁止されています。
今すぐ始める
登録して、
$100
のボーナスを獲得しよう!
It seems that you are attempting to access our services from a Restricted Location where Gate is unable to provide services. We apologize for any inconvenience this may cause. Currently, the Restricted Locations include but not limited to: the United States of America, Canada, Cambodia, Thailand, Cuba, Iran, North Korea and so on. For more information regarding the Restricted Locations, please refer to the User Agreement. Should you have any other questions, please contact our Customer Support Team.