AI Battle of the Models: From Academic Innovation to Engineering Technology Competition

A "Guerra das Cem Modelos" no campo da IA: da inovação acadêmica à tecnologia de engenharia

No mês passado, houve uma "guerra dos animais" na indústria de IA.

De um lado está o Llama (Lama) lançado pela Meta. Devido à sua natureza de código aberto, é muito apreciado pela comunidade de desenvolvedores. Após estudar o artigo e o código-fonte do Llama, a NEC Corporation desenvolveu rapidamente uma versão em japonês do ChatGPT, resolvendo o gargalo técnico do Japão na área de IA.

A outra parte é um grande modelo chamado Falcon. Em maio deste ano, o Falcon-40B foi lançado, superando o Llama e alcançando o primeiro lugar na "Classificação de LLMs de Código Aberto".

Esta lista foi criada pela comunidade de modelos de código aberto e fornece padrões para avaliar a capacidade de LLM. A classificação basicamente consiste em Llama e Falcon alternando-se no topo.

Após o lançamento do Llama 2, a família de lhamas ultrapassou; mas no início de setembro, o Falcon lançou a versão 180B, alcançando mais uma vez uma classificação mais alta.

Curiosamente, os desenvolvedores do "Falcon" são do Instituto de Inovação Tecnológica de Abu Dhabi, na capital dos Emirados Árabes Unidos. Funcionários do governo afirmaram que estão envolvidos neste campo para desestabilizar os jogadores principais.

No dia seguinte ao lançamento da versão 180B, o Ministro da Inteligência Artificial dos Emirados Árabes Unidos foi selecionado para os "100 mais influentes no campo da IA"; juntamente com ele, foram selecionados o "pai da IA" Geoffrey Hinton, Sam Altman da OpenAI, e o fundador do Baidu, Robin Li.

Hoje, o campo da IA entrou na fase de "cada um por si": países e empresas com certo poder financeiro estão, de uma forma ou de outra, a desenvolver os seus próprios modelos de linguagem de grande escala. Apenas no círculo dos países do Golfo, há mais de um jogador — em agosto, a Arábia Saudita comprou mais de 3000 chips H100 para universidades locais, para treinar LLM.

Um investidor desabafou nas redes sociais: "Naquela época, não levava a sério a inovação do modelo de negócios da internet, achando que não havia barreiras: a batalha das cem equipes, a batalha das cem empresas de transporte, a batalha das cem plataformas de transmissão; não esperava que o empreendedorismo em hard tech com grandes modelos ainda resultasse na batalha das cem modelos..."

Como é que a tecnologia dura, que antes era considerada de alto nível de dificuldade, se tornou um campo em que todos podem participar?

O Transformer muda as regras do jogo

As start-ups in the United States, tech giants in China, and oil tycoons in the Middle East venture into the field of large models, credit goes to that famous paper: "Attention Is All You Need."

Em 2017, oito cientistas da computação do Google publicaram o algoritmo Transformer neste artigo. Este artigo é atualmente o terceiro mais citado na história da IA, e o surgimento do Transformer tornou-se o catalisador para esta onda de entusiasmo pela IA.

Atualmente, vários grandes modelos, incluindo a famosa série GPT que está a fazer sensação em todo o mundo, são construídos sobre a base do Transformer.

Antes disso, "ensinar máquinas a ler" sempre foi um problema acadêmico reconhecido. Ao contrário do reconhecimento de imagens, a leitura humana não se concentra apenas nas palavras e frases atuais, mas também combina a compreensão do contexto. As entradas das redes neurais iniciais eram independentes umas das outras, incapazes de entender textos longos ou mesmo artigos inteiros, resultando frequentemente em erros de tradução.

Em 2014, o cientista da computação Ilya (Ilya Sutskever), que trabalhou no Google antes de se mudar para a OpenAI, fez um avanço. Ele usou redes neurais recorrentes (RNN) para processar a linguagem natural, fazendo com que o desempenho do Google Tradutor superasse rapidamente os concorrentes.

O RNN propôs o "design cíclico", permitindo que cada neurônio aceitasse tanto a entrada atual quanto a entrada do momento anterior, adquirindo assim a capacidade de "relacionar contextos". O surgimento do RNN acendeu o entusiasmo de pesquisa na comunidade acadêmica, e mais tarde o autor do artigo Transformer, Noam Shazeer (, também pesquisou profundamente.

No entanto, os desenvolvedores rapidamente perceberam que a RNN apresentava sérias desvantagens: o algoritmo usa cálculos sequenciais, embora resolva o problema do contexto, a eficiência de execução não é alta e é difícil lidar com uma grande quantidade de parâmetros.

O design complicado do RNN rapidamente deixou o Shazelle aborrecido. Assim, a partir de 2015, Shazelle e 7 entusiastas começaram a desenvolver uma alternativa ao RNN, cujo resultado foi o Transformer.

Comparado ao RNN, o Transformer tem duas grandes inovações:

Primeiro, substituiu o design em loop por codificação de posição, permitindo computação paralela, aumentando significativamente a eficiência do treinamento, permitindo assim o processamento de grandes volumes de dados e levando a IA para a era dos grandes modelos; segundo, fortaleceu ainda mais a capacidade de compreender o contexto.

Com o Transformer a resolver uma série de problemas de uma só vez, ele gradualmente se tornou a solução mainstream para o processamento de linguagem natural, dando a sensação de que "sem o Transformer, a NLP estaria numa longa noite eterna". Até o Ilia abandonou o RNN que criou, passando a apoiar o Transformer.

Em resumo, o Transformer transformou os grandes modelos de uma questão de pesquisa teórica para um problema puramente de engenharia.

Em 2019, a OpenAI desenvolveu o GPT-2 baseado em Transformer, que impressionou a academia. Em resposta, o Google lançou rapidamente uma IA de desempenho superior, chamada Meena.

Comparado ao GPT-2, o Meena não apresenta inovações nos algoritmos subjacentes, apenas o número de parâmetros aumentou 8,5 vezes e a capacidade computacional aumentou 14 vezes. O autor do artigo sobre Transformer, Shazeer, ficou bastante chocado com essa abordagem de "empilhamento violento" e imediatamente escreveu um memorando intitulado "Meena devora o mundo".

A chegada do Transformer fez com que o ritmo de inovação em algoritmos de base na academia diminuísse significativamente. Elementos de engenharia como engenharia de dados, escala de poder computacional e arquitetura de modelos tornaram-se fatores-chave na competição de IA; qualquer empresa de tecnologia com uma certa capacidade técnica pode desenvolver grandes modelos.

Assim, o cientista da computação Andrew Ng afirmou durante uma palestra na Universidade de Stanford: "A IA é um conjunto de ferramentas, incluindo aprendizado supervisionado, aprendizado não supervisionado, aprendizado por reforço e a atual inteligência artificial generativa. Todas elas são tecnologias gerais, semelhantes a outras tecnologias gerais como eletricidade e internet."

Embora a OpenAI continue a ser o padrão para LLMs, as instituições de análise de semicondutores acreditam que a competitividade do GPT-4 provém principalmente de soluções de engenharia - se for open source, qualquer concorrente poderá replicá-lo rapidamente.

Há analistas que preveem que, talvez em pouco tempo, outras grandes empresas de tecnologia também poderão desenvolver grandes modelos com desempenho semelhante ao do GPT-4.

Barreiras de competição frágeis

Atualmente, a "batalha dos cem modelos" já não é uma retórica, mas uma realidade objetiva.

Relatórios relacionados mostram que, até julho deste ano, o número de grandes modelos na China já atingiu 130, superando os 114 dos Estados Unidos, e os diversos mitos e lendas já não são suficientes para as empresas de tecnologia nacionais usarem como nomes.

Além da China e dos EUA, alguns países mais ricos também implementaram preliminarmente o "um país, um modelo": Japão, Emirados Árabes Unidos, Bhashini liderado pelo governo indiano, e HyperClova X desenvolvido pela empresa de internet sul-coreana Naver.

A situação atual parece ter voltado à era da bolha da internet, com capitais de várias fontes a entrar de forma frenética.

Como mencionado anteriormente, o Transformer transformou os grandes modelos em um problema puramente de engenharia; desde que haja talento, financiamento e poder computacional, é possível produzir grandes modelos. No entanto, embora a barreira de entrada não seja alta, isso não significa que qualquer um possa se tornar um gigante na era da IA.

O "guerra dos animais" mencionado no início do artigo é um exemplo típico: embora o Falcon tenha superado o Llama na classificação, é difícil dizer o quanto isso impactou a Meta.

É bem sabido que as empresas abrem suas conquistas de pesquisa científica tanto para compartilhar os benefícios tecnológicos com a sociedade quanto para aproveitar a sabedoria coletiva. À medida que professores universitários, instituições de pesquisa e pequenas e médias empresas continuam a usar e melhorar o Llama, a Meta pode aplicar esses resultados em seus próprios produtos.

Para modelos de grande porte de código aberto, uma comunidade de desenvolvedores ativa é a sua principal vantagem competitiva.

Desde a criação do laboratório de IA em 2015, a Meta estabeleceu um tom de código aberto; Zuckerberg, que começou com as redes sociais, compreende melhor a importância de "manter as relações com o público".

Por exemplo, em outubro, a Meta organizou um evento chamado "Incentivo a Criadores em AI": desenvolvedores que usam o Llama 2 para resolver problemas sociais como educação e meio ambiente têm a oportunidade de receber um financiamento de 500.000 dólares.

Hoje, a série Llama da Meta tornou-se um marco para LLMs de código aberto.

Até o início de outubro, entre os 10 primeiros da lista de LLMs de código aberto, 8 foram desenvolvidos com base no Llama 2, todos utilizando seu protocolo de código aberto. Apenas nesta plataforma, já existem mais de 1500 LLMs que utilizam o protocolo de código aberto do Llama 2.

Claro, melhorar o desempenho como o Falcon também não é uma má ideia, mas atualmente a maioria dos LLM no mercado ainda apresenta uma diferença significativa em relação ao GPT-4.

Por exemplo, recentemente, o GPT-4 conquistou o primeiro lugar no teste AgentBench com uma pontuação de 4,41. O AgentBench foi lançado pela Universidade Tsinghua em colaboração com várias universidades dos EUA, e é utilizado para avaliar a capacidade de raciocínio e tomada de decisão de LLM em um ambiente de geração aberto multidimensional. O conteúdo do teste inclui tarefas em 8 ambientes diferentes, como sistemas operacionais, bancos de dados, gráficos de conhecimento, e batalhas de cartas.

Os resultados dos testes mostram que o segundo lugar, Claude, obteve apenas 2,77 pontos, uma diferença evidente. Quanto aos LLMs de código aberto que atraem tanta atenção, suas pontuações nos testes ficam geralmente em torno de 1 ponto, menos de um quarto do GPT-4.

É importante saber que o GPT-4 foi lançado em março deste ano, resultado de mais de meio ano de concorrência global. A causa dessa diferença é a excelente equipe de cientistas da OpenAI e a experiência acumulada em pesquisa de LLM ao longo do tempo, permitindo que se mantenham sempre à frente.

Ou seja, a capacidade central de um grande modelo não são os parâmetros, mas sim a construção de ecossistemas ) código aberto ( ou capacidade de inferência puramente ) código fechado (.

Com a crescente atividade da comunidade de código aberto, o desempenho de vários LLM pode convergir, uma vez que todos estão usando arquiteturas de modelo e conjuntos de dados semelhantes.

Outra questão mais intuitiva é: além do Midjourney, parece que nenhum outro grande modelo conseguiu realmente ser lucrativo.

Ponto de âncora de valor

Em agosto deste ano, um artigo intitulado "OpenAI pode falir até o final de 2024" chamou a atenção. O objetivo do artigo pode ser resumido em uma frase: a velocidade com que a OpenAI está queimando dinheiro é muito rápida.

O texto menciona que, desde o desenvolvimento do ChatGPT, as perdas da OpenAI aumentaram rapidamente, tendo perdido cerca de 540 milhões de dólares apenas em 2022, e só pode esperar que os investidores cubram os custos.

Embora o título do artigo seja alarmante, ele também revela a situação de muitos provedores de grandes modelos: um sério desequilíbrio entre custos e receitas.

Os custos excessivos fazem com que atualmente apenas a Nvidia ganhe muito dinheiro com inteligência artificial, talvez mais a Broadcom.

De acordo com estimativas de consultoras, a NVIDIA vendeu mais de 300.000 unidades do H100 no segundo trimestre deste ano. Este é um chip de IA que oferece alta eficiência na formação de IA, e empresas de tecnologia e instituições de pesquisa em todo o mundo estão a comprá-lo em grande quantidade. Se empilharmos essas 300.000 unidades do H100, o peso equivale a 4,5 aviões Boeing 747.

A performance da Nvidia disparou, com um crescimento de receita de 854% em relação ao ano anterior, surpreendendo Wall Street. Vale a pena mencionar que atualmente o H100 já foi inflacionado para preços entre 40.000 a 50.000 dólares no mercado de segunda mão, enquanto seu custo de material é de apenas cerca de 3.000 dólares.

O alto custo do poder de computação tornou-se, até certo ponto, um obstáculo ao desenvolvimento da indústria. Algumas instituições de capital estimaram que as empresas de tecnologia em todo o mundo gastarão cerca de 200 bilhões de dólares por ano na construção de infraestrutura para grandes modelos; em comparação, os grandes modelos podem gerar no máximo 75 bilhões de dólares em receitas por ano, havendo uma lacuna de pelo menos 125 bilhões de dólares.

Além disso, com exceção de algumas raras, como a Midjourney, a maioria das empresas de software, após investir enormes custos, ainda não pensou claramente em um modelo de lucro. Especialmente os dois grandes líderes do setor - Microsoft e Adobe - estão com os passos um pouco hesitantes.

A ferramenta de geração de código AI GitHub Copilot, desenvolvida em parceria entre a Microsoft e a OpenAI, embora cobre 10 dólares por mês, a Microsoft acaba perdendo 20 dólares por mês devido aos custos de infraestrutura, com usuários intensivos podendo fazer a empresa perder até 80 dólares mensais. Assim, pode-se inferir que o Microsoft 365 Copilot, com um preço de 30 dólares, pode ter prejuízos ainda maiores.

Da mesma forma, a Adobe, que recentemente lançou a ferramenta Firefly AI, rapidamente implementou um sistema de pontos para evitar que os usuários abusassem e causassem prejuízos à empresa. Assim que os usuários excedem os pontos alocados mensalmente, a Adobe reduzirá a velocidade do serviço.

É importante saber que a Microsoft e a Adobe já são gigantes de software com cenários de negócios bem definidos e um grande número de usuários pagantes. E a maioria dos grandes modelos de parâmetros ainda tem como principal cenário de aplicação o chat.

É inegável que, se não fosse o surgimento da OpenAI e do ChatGPT, esta revolução da IA pode não ter acontecido; mas, atualmente, o valor criado pelo treinamento de grandes modelos ainda é discutível.

Além disso, com o aumento da competição homogênea e o crescimento de modelos de código aberto, o espaço de desenvolvimento para fornecedores de grandes modelos pode ser ainda mais limitado.

O sucesso do iPhone 4 não se deve ao processador A4 de 45nm, mas sim à sua capacidade de jogar jogos como Plants vs. Zombies e Angry Birds.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
OnChainSleuthvip
· 20h atrás
Isto é apenas para subir nas classificações.
Ver originalResponder0
rekt_but_resilientvip
· 20h atrás
Por que é que o camelo e a águia ainda estão a lutar?
Ver originalResponder0
FastLeavervip
· 20h atrás
Ai, o mundo da tecnologia também está a brincar com lutas de animais.
Ver originalResponder0
FlashLoanKingvip
· 21h atrás
Só dois animais a lutar, eu aconselho-te a não comprar moeda.
Ver originalResponder0
NFTragedyvip
· 21h atrás
As aves de rapina estão a intimidar o camelo, não é?
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)