Следующая революция в искусственном интеллекте: от гонки вычислительной мощности к инфраструктуре данных
С увеличением масштабов параметров моделей искусственного интеллекта (ИИ) до триллионов, вычислительная мощность измеряется миллиардами миллиардов операций в секунду (FLOPS), на поверхность всплывает игнорируемое ядро проблемы - данные. Следующая революция в ИИ-индустрии больше не будет зависеть от архитектуры моделей или вычислительной мощности чипов, а будет определяться тем, как мы можем преобразовать фрагментированные данные о человеческом поведении в проверяемый, структурированный и готовый к ИИ капитал. Это понимание не только выявляет текущие структурные противоречия в развитии ИИ, но и очерчивает совершенно новую картину "Эпохи Данных" - в этой эпохе данные больше не являются побочным продуктом технологий, а становятся измеримым, торгуемым и обладающим добавленной стоимостью основным производственным фактором, подобно электричеству и вычислительной мощности.
Структурные противоречия в AI-индустрии: от гонки вычислительной мощности к нехватке данных
Развитие ИИ долгое время двигалось вдвижении "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели увеличились с миллиона до триллионов, а потребность в вычислительной мощности возросла в экспоненциальной форме. Стоимость обучения продвинутой большой языковой модели превышает 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, когда отрасль сосредотачивает внимание на "больших моделях" и "быстрых микросхемах", кризис на стороне поставки данных тихо наступает.
Сгенерированные человеком "органические данные" достигли потолка роста. Например, в случае текстовых данных общее количество качественных текстов, доступных для парсинга в интернете, составляет около 10^12 слов, в то время как для обучения модели с сотней миллиардов параметров требуется около 10^13 слов - это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей такого же масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" данные, сгенерированные самими собой, "загрязнение данных" приводит к деградации производительности модели, что стало серьезной проблемой в отрасли.
Корень этой противоречия заключается в том, что AI-отрасль долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", требующий тщательного ухода. Модели и вычислительная мощность уже образовали зрелую рыночную систему — вычислительная мощность оценивается в облачных платформах по FLOPS, а модели имеют API-интерфейсы, которые взимают плату за количество вызовов — но производство, очистка, верификация и торговля данными все еще находятся в "диком состоянии". Следующее десятилетие для AI станет десятилетием "инфраструктуры данных", и именно данные на блокчейне криптосетей являются ключом к решению этой проблемы.
Данные на блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют неоспоримую ценность. В отличие от традиционных интернет-данных, ончейн-данные естественным образом обладают подлинностью "выравнивания стимулов" - каждая транзакция, каждое взаимодействие с контрактом, каждое поведение адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Это "самые централизованные данные о человеческом поведении, согласованном с мотивацией в Интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": Данные на блокчейне фиксируют решения, принятые с использованием реальных денег. Например, обмен активов одним кошельком на DEX, действия по кредитованию и залогу на платформе кредитования, регистрация домена непосредственно отражают оценку пользователем ценности проекта, его предпочтения по риску и стратегию распределения капитала. Такие данные, которые "подтверждаются капиталом", имеют крайне высокую ценность для обучения AI в области принятия решений.
Прослеживаемая "цепочка действий": Прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции одного адреса кошелька, взаимодействованные протоколы и изменения в удерживаемых активах формируют последовательную "цепочку действий". Анализируя операции данного адреса в протоколах DeFi с 2020 года по настоящее время, ИИ может точно определить, является ли он "долгосрочным держателем", "арбитражным трейдером" или "поставщиком ликвидности", и на основании этого создать профиль пользователя.
Открытая экосистема "без лицензий": в отличие от закрытости данных традиционных предприятий, данные на блокчейне открыты и не требуют лицензий. Любой разработчик может получить доступ к исходным данным через блокчейн-браузер или API данных, что предоставляет "безбарьерные" источники данных для обучения моделей ИИ. Однако такая открытость также приносит вызовы: данные на блокчейне существуют в форме "журналов событий", являются неструктурированными "сырыми сигналами", которые необходимо очищать, стандартизировать и связывать, чтобы их можно было использовать в моделях ИИ. В настоящее время "структурированная конверсия" данных на блокчейне составляет менее 5%, и огромное количество высокоценных сигналов теряется среди миллиардов фрагментированных событий.
"Операционная система" для данных на блокчейне: построение инфраструктуры данных, готовой к ИИ
Для решения проблемы фрагментации данных в блокчейне в отрасли был предложен концепт "умной операционной системы на блокчейне", специально разработанный для ИИ. Его основной целью является преобразование разрозненных сигналов на блокчейне в структурированные, проверяемые и готовые к реальному времени данные для ИИ. Эта система включает в себя следующие ключевые компоненты:
Открытые стандартные данные: унификация определения и описания данных в цепочке, стандартизация сложных событий, таких как "поведение пользователей при ставке", в структурированные данные, содержащие поля staker_address, protocol_id, amount, timestamp, reward_token и т. д. Эта стандартизация снижает трение в разработке AI, позволяя разработчикам напрямую использовать структурированные данные, такие как "записи о ставках пользователей" и "записи о предоставлении ликвидности", что значительно сокращает время обучения модели.
Механизм верификации данных: обеспечение подлинности данных через сеть узлов-валидаторов Ethereum. Когда система обрабатывает событие в цепочке, узлы-валидаторы пересекают проверку хеш-значений данных, информации о подписи и состояния на цепочке, чтобы гарантировать, что выходные структурированные данные полностью совпадают с оригинальными данными на цепочке. Этот механизм верификации, основанный на "защите криптоэкономики", решает проблему доверия традиционной централизованной верификации данных.
Уровень доступности данных с высокой пропускной способностью: путем оптимизации алгоритмов сжатия данных и протоколов передачи достигается обработка сотен тысяч событий в секунду в реальном времени. Этот дизайн позволяет системе поддерживать требования к данным в реальном времени для крупных AI-приложений, таких как одновременное предоставление онлайн-данных на блокчейне для нескольких торговых агентов.
Эпоха DataFi: Когда данные становятся торгуемым "капиталом"
Конечная цель этой инфраструктуры данных на блокчейне - это привести индустрию ИИ в эпоху DataFi, где данные больше не являются пассивным "тренировочным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Как электричество оценивается в киловаттах, вычислительная мощность оценивается в FLOPS, так и данные должны оцениваться, ранжироваться и определяться их стоимостью. Реализация этой визии зависит от преобразования данных в четыре основные характеристики:
Структурирование: от "сырого сигнала" до "используемого актива", преобразование данных блокчейна в структурированную форму, которую можно напрямую использовать в моделях ИИ.
Комбинируемость: данные могут свободно комбинироваться, как конструктор Лего, разработчики могут объединять данные из различных источников для обучения сложных AI моделей.
Проверяемый: Генерация уникального "отпечатка данных" для каждого набора данных с помощью технологий блокчейна, что обеспечивает подлинность и отслеживаемость данных.
Возможность монетизации: поставщики данных могут напрямую монетизировать структурированные данные, например, упаковывая аналитические результаты в API-сервисы и взимая плату за количество вызовов, или получая вознаграждение за разрешение на совместное использование анонимизированных данных на блокчейне.
Заключение: Данные революция, следующее десятилетие ИИ
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на «интеллекте» модели, игнорируя «данные» как основу интеллекта. Инфраструктура данных на блокчейне раскрывает одну ключевую истину: эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От «ограниченности» данных, созданных человеком, до «обнаружения ценности» данных на блокчейне, от «беспорядка» фрагментированных сигналов до «упорядоченности» структурированных данных, от «бесплатных ресурсов» данных до «капитальных активов» DataFi, эта инфраструктура перестраивает основную логику индустрии ИИ.
В эпоху DataFi данные станут мостом, соединяющим ИИ и реальный мир - торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные dApp оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход, делясь данными. Как электрическая сеть вызвала промышленную революцию, вычислительная мощность вызвала интернет-революцию, сеть данных на блокчейне порождает "данные революцию" в ИИ.
Приложения нового поколения, основанные на искусственном интеллекте, требуют не только моделей или кошельков, но и данных, которые не требуют доверия, являются программируемыми и имеют высокий сигнал. Когда данные наконец получат свою истинную ценность, ИИ сможет по-настоящему освободить силу, способную изменить мир.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
7 Лайков
Награда
7
6
Поделиться
комментарий
0/400
MetaLord420
· 12ч назад
Не обязательно, просто продайте данные.
Посмотреть ОригиналОтветить0
AlphaBrain
· 12ч назад
Настоящие активы на самом деле являются данными!
Посмотреть ОригиналОтветить0
GasFeeLover
· 13ч назад
Слишком верно сказано про голод данных, ха.
Посмотреть ОригиналОтветить0
RektDetective
· 13ч назад
Такие шикарные данные, как можно быть голодным?
Посмотреть ОригиналОтветить0
PumpStrategist
· 13ч назад
Данные – это новая нефть? По слухам, уже есть крупные инвестиции, форма уже сформировалась.
Посмотреть ОригиналОтветить0
HypotheticalLiquidator
· 13ч назад
Есть ли база для управления рисками данных? Дефицит данных обязательно вызовет кризис ликвидности. Звонок уже прозвенел.
Революция данных ИИ: от вычислительной мощности к инфраструктуре данных в блокчейне
Следующая революция в искусственном интеллекте: от гонки вычислительной мощности к инфраструктуре данных
С увеличением масштабов параметров моделей искусственного интеллекта (ИИ) до триллионов, вычислительная мощность измеряется миллиардами миллиардов операций в секунду (FLOPS), на поверхность всплывает игнорируемое ядро проблемы - данные. Следующая революция в ИИ-индустрии больше не будет зависеть от архитектуры моделей или вычислительной мощности чипов, а будет определяться тем, как мы можем преобразовать фрагментированные данные о человеческом поведении в проверяемый, структурированный и готовый к ИИ капитал. Это понимание не только выявляет текущие структурные противоречия в развитии ИИ, но и очерчивает совершенно новую картину "Эпохи Данных" - в этой эпохе данные больше не являются побочным продуктом технологий, а становятся измеримым, торгуемым и обладающим добавленной стоимостью основным производственным фактором, подобно электричеству и вычислительной мощности.
Структурные противоречия в AI-индустрии: от гонки вычислительной мощности к нехватке данных
Развитие ИИ долгое время двигалось вдвижении "модель-вычислительная мощность". С момента революции глубокого обучения параметры модели увеличились с миллиона до триллионов, а потребность в вычислительной мощности возросла в экспоненциальной форме. Стоимость обучения продвинутой большой языковой модели превышает 100 миллионов долларов, из которых 90% идет на аренду кластеров GPU. Однако, когда отрасль сосредотачивает внимание на "больших моделях" и "быстрых микросхемах", кризис на стороне поставки данных тихо наступает.
Сгенерированные человеком "органические данные" достигли потолка роста. Например, в случае текстовых данных общее количество качественных текстов, доступных для парсинга в интернете, составляет около 10^12 слов, в то время как для обучения модели с сотней миллиардов параметров требуется около 10^13 слов - это означает, что существующий пул данных может поддерживать обучение лишь 10 моделей такого же масштаба. Более того, доля повторяющихся данных и низкокачественного контента превышает 60%, что еще больше сжимает предложение эффективных данных. Когда модели начинают "поглощать" данные, сгенерированные самими собой, "загрязнение данных" приводит к деградации производительности модели, что стало серьезной проблемой в отрасли.
Корень этой противоречия заключается в том, что AI-отрасль долгое время рассматривала данные как "бесплатный ресурс", а не как "стратегический актив", требующий тщательного ухода. Модели и вычислительная мощность уже образовали зрелую рыночную систему — вычислительная мощность оценивается в облачных платформах по FLOPS, а модели имеют API-интерфейсы, которые взимают плату за количество вызовов — но производство, очистка, верификация и торговля данными все еще находятся в "диком состоянии". Следующее десятилетие для AI станет десятилетием "инфраструктуры данных", и именно данные на блокчейне криптосетей являются ключом к решению этой проблемы.
Данные на блокчейне: "База данных человеческого поведения", необходимая AI
На фоне нехватки данных, ончейн-данные криптосетей демонстрируют неоспоримую ценность. В отличие от традиционных интернет-данных, ончейн-данные естественным образом обладают подлинностью "выравнивания стимулов" - каждая транзакция, каждое взаимодействие с контрактом, каждое поведение адреса кошелька напрямую связано с реальным капиталом и не подлежит изменению. Это "самые централизованные данные о человеческом поведении, согласованном с мотивацией в Интернете", что конкретно проявляется в трех измерениях:
Реальные "сигналы намерений": Данные на блокчейне фиксируют решения, принятые с использованием реальных денег. Например, обмен активов одним кошельком на DEX, действия по кредитованию и залогу на платформе кредитования, регистрация домена непосредственно отражают оценку пользователем ценности проекта, его предпочтения по риску и стратегию распределения капитала. Такие данные, которые "подтверждаются капиталом", имеют крайне высокую ценность для обучения AI в области принятия решений.
Прослеживаемая "цепочка действий": Прозрачность блокчейна позволяет полностью отслеживать действия пользователей. Исторические транзакции одного адреса кошелька, взаимодействованные протоколы и изменения в удерживаемых активах формируют последовательную "цепочку действий". Анализируя операции данного адреса в протоколах DeFi с 2020 года по настоящее время, ИИ может точно определить, является ли он "долгосрочным держателем", "арбитражным трейдером" или "поставщиком ликвидности", и на основании этого создать профиль пользователя.
Открытая экосистема "без лицензий": в отличие от закрытости данных традиционных предприятий, данные на блокчейне открыты и не требуют лицензий. Любой разработчик может получить доступ к исходным данным через блокчейн-браузер или API данных, что предоставляет "безбарьерные" источники данных для обучения моделей ИИ. Однако такая открытость также приносит вызовы: данные на блокчейне существуют в форме "журналов событий", являются неструктурированными "сырыми сигналами", которые необходимо очищать, стандартизировать и связывать, чтобы их можно было использовать в моделях ИИ. В настоящее время "структурированная конверсия" данных на блокчейне составляет менее 5%, и огромное количество высокоценных сигналов теряется среди миллиардов фрагментированных событий.
"Операционная система" для данных на блокчейне: построение инфраструктуры данных, готовой к ИИ
Для решения проблемы фрагментации данных в блокчейне в отрасли был предложен концепт "умной операционной системы на блокчейне", специально разработанный для ИИ. Его основной целью является преобразование разрозненных сигналов на блокчейне в структурированные, проверяемые и готовые к реальному времени данные для ИИ. Эта система включает в себя следующие ключевые компоненты:
Открытые стандартные данные: унификация определения и описания данных в цепочке, стандартизация сложных событий, таких как "поведение пользователей при ставке", в структурированные данные, содержащие поля staker_address, protocol_id, amount, timestamp, reward_token и т. д. Эта стандартизация снижает трение в разработке AI, позволяя разработчикам напрямую использовать структурированные данные, такие как "записи о ставках пользователей" и "записи о предоставлении ликвидности", что значительно сокращает время обучения модели.
Механизм верификации данных: обеспечение подлинности данных через сеть узлов-валидаторов Ethereum. Когда система обрабатывает событие в цепочке, узлы-валидаторы пересекают проверку хеш-значений данных, информации о подписи и состояния на цепочке, чтобы гарантировать, что выходные структурированные данные полностью совпадают с оригинальными данными на цепочке. Этот механизм верификации, основанный на "защите криптоэкономики", решает проблему доверия традиционной централизованной верификации данных.
Уровень доступности данных с высокой пропускной способностью: путем оптимизации алгоритмов сжатия данных и протоколов передачи достигается обработка сотен тысяч событий в секунду в реальном времени. Этот дизайн позволяет системе поддерживать требования к данным в реальном времени для крупных AI-приложений, таких как одновременное предоставление онлайн-данных на блокчейне для нескольких торговых агентов.
Эпоха DataFi: Когда данные становятся торгуемым "капиталом"
Конечная цель этой инфраструктуры данных на блокчейне - это привести индустрию ИИ в эпоху DataFi, где данные больше не являются пассивным "тренировочным материалом", а становятся активным "капиталом", который можно оценивать, торговать и увеличивать его стоимость. Как электричество оценивается в киловаттах, вычислительная мощность оценивается в FLOPS, так и данные должны оцениваться, ранжироваться и определяться их стоимостью. Реализация этой визии зависит от преобразования данных в четыре основные характеристики:
Структурирование: от "сырого сигнала" до "используемого актива", преобразование данных блокчейна в структурированную форму, которую можно напрямую использовать в моделях ИИ.
Комбинируемость: данные могут свободно комбинироваться, как конструктор Лего, разработчики могут объединять данные из различных источников для обучения сложных AI моделей.
Проверяемый: Генерация уникального "отпечатка данных" для каждого набора данных с помощью технологий блокчейна, что обеспечивает подлинность и отслеживаемость данных.
Возможность монетизации: поставщики данных могут напрямую монетизировать структурированные данные, например, упаковывая аналитические результаты в API-сервисы и взимая плату за количество вызовов, или получая вознаграждение за разрешение на совместное использование анонимизированных данных на блокчейне.
Заключение: Данные революция, следующее десятилетие ИИ
Когда мы говорим о будущем ИИ, мы часто сосредотачиваемся на «интеллекте» модели, игнорируя «данные» как основу интеллекта. Инфраструктура данных на блокчейне раскрывает одну ключевую истину: эволюция ИИ по своей сути является эволюцией инфраструктуры данных. От «ограниченности» данных, созданных человеком, до «обнаружения ценности» данных на блокчейне, от «беспорядка» фрагментированных сигналов до «упорядоченности» структурированных данных, от «бесплатных ресурсов» данных до «капитальных активов» DataFi, эта инфраструктура перестраивает основную логику индустрии ИИ.
В эпоху DataFi данные станут мостом, соединяющим ИИ и реальный мир - торговые агенты воспринимают рыночные настроения через данные на блокчейне, автономные dApp оптимизируют услуги на основе данных о поведении пользователей, а обычные пользователи получают постоянный доход, делясь данными. Как электрическая сеть вызвала промышленную революцию, вычислительная мощность вызвала интернет-революцию, сеть данных на блокчейне порождает "данные революцию" в ИИ.
Приложения нового поколения, основанные на искусственном интеллекте, требуют не только моделей или кошельков, но и данных, которые не требуют доверия, являются программируемыми и имеют высокий сигнал. Когда данные наконец получат свою истинную ценность, ИИ сможет по-настоящему освободить силу, способную изменить мир.