La "guerra de los cien modelos" en el campo de la IA: de la innovación académica a la tecnología de ingeniería
El mes pasado, estalló una "guerra de animales" en la industria de la IA.
Por un lado está Llama (el llama) lanzado por Meta. Debido a su naturaleza de código abierto, es muy bien recibido por la comunidad de desarrolladores. La compañía eléctrica japonesa, tras investigar el documento y el código fuente de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, solucionando el cuello de botella tecnológico de Japón en el campo de la IA.
El otro lado es un gran modelo llamado Falcon. En mayo de este año, Falcon-40B apareció, superando a Llama y alcanzando el primer lugar en la "clasificación de LLM de código abierto".
Esta lista fue creada por la comunidad de modelos de código abierto y proporciona estándares para evaluar la capacidad de los LLM. La clasificación básicamente consiste en que Llama y Falcon se turnan para ocupar los primeros lugares.
Después del lanzamiento de Llama 2, la familia de llamas superó; pero a principios de septiembre, Falcon lanzó la versión 180B, logrando una vez más un rango más alto.
Curiosamente, los desarrolladores de "Falcon" son el Instituto de Innovación Tecnológica de Abu Dhabi, la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno han declarado que participan en este campo para desafiar a los jugadores principales.
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado entre las "100 personas más influyentes en el campo de la IA"; junto a él, también fueron seleccionados el "padre de la IA" Geoffrey Hinton, Sam Altman de OpenAI, y el fundador de Baidu, Robin Li.
Hoy en día, el campo de la IA ha entrado en la etapa de "la lucha entre muchos": países y empresas con cierta capacidad financiera, de una forma u otra, están desarrollando su propio modelo de lenguaje grande. Solo dentro del círculo de los países del Golfo hay más de un jugador: en agosto, Arabia Saudita acaba de comprar más de 3000 chips H100 para universidades nacionales, destinados a entrenar LLM.
Un inversor se quejó en las redes sociales: "En su momento, menosprecié la innovación en los modelos de negocio de Internet, pensando que no había barreras: la guerra de los cien grupos, la guerra de los cien coches, la guerra de los cien programas; nunca imaginé que la creación de modelos de gran tecnología seguiría siendo una guerra de los cien modelos..."
¿Cómo es que la tecnología dura, que originalmente se consideraba de alta dificultad, se ha convertido en un campo en el que todos pueden participar?
Transformer cambia las reglas del juego
Las startups de Estados Unidos, los gigantes tecnológicos de China y los magnates del petróleo de Oriente Medio pueden dedicarse al campo de los modelos grandes gracias a aquel famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos informáticos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición de Transformer se convirtió en el catalizador de esta ola de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los de la serie GPT que han causado sensación en todo el mundo, se basan en la arquitectura Transformer.
Antes de esto, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que les impedía entender textos largos o incluso artículos completos, por lo que a menudo ocurrían errores de traducción.
En 2014, el científico informático Ilya Sutskever, que había trabajado en Google, hizo un cambio a OpenAI y logró un avance. Utilizó redes neuronales recurrentes para procesar el lenguaje natural, lo que permitió que el rendimiento de Google Translate superara rápidamente a sus competidores.
RNN propuso el "diseño cíclico", permitiendo que cada neurona reciba tanto la entrada actual como la entrada del momento anterior, adquiriendo así la capacidad de "conectar el contexto". La aparición de RNN encendió el entusiasmo de la investigación en el ámbito académico, y más tarde el autor del artículo de Transformer, Noam Shazeer(, también realizó una investigación profunda.
Sin embargo, los desarrolladores pronto se dieron cuenta de que las RNN tienen defectos graves: el algoritmo utiliza cálculos secuenciales, aunque resuelve el problema del contexto, su eficiencia de ejecución no es alta y tiene dificultades para manejar grandes cantidades de parámetros.
El diseño complicado de RNN pronto aburrió a Szalewski. Por lo tanto, a partir de 2015, Szalewski y 7 aficionados comenzaron a desarrollar un sustituto para RNN, cuyo resultado es Transformer.
En comparación con RNN, Transformer tiene dos grandes innovaciones:
Primero, se reemplazó el diseño de bucle por codificación de posición, lo que permite el cálculo en paralelo, mejorando significativamente la eficiencia de entrenamiento, lo que permite manejar grandes volúmenes de datos y lleva a la IA hacia la era de los grandes modelos; segundo, se ha reforzado aún más la capacidad de comprender el contexto.
Con la solución de numerosos problemas por parte de Transformer, este ha ido convirtiéndose gradualmente en la solución principal para el procesamiento del lenguaje natural, dando la sensación de que "si no hubiera nacido Transformer, el PLN sería una larga noche eterna". Incluso Ilia ha abandonado su propia creación, RNN, para apoyar a Transformer.
En resumen, el Transformer ha convertido los grandes modelos de un problema de investigación teórica a un problema puramente ingenieril.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, que sorprendió a la academia. En respuesta, Google lanzó rápidamente una IA más potente llamada Meena.
En comparación con GPT-2, Meena no tiene innovaciones en el algoritmo subyacente, solo ha aumentado la cantidad de parámetros en 8.5 veces y la potencia de cálculo en 14 veces. El autor del artículo sobre Transformer, Ashish Vaswani, quedó muy impresionado por este enfoque de "apilamiento violento" y de inmediato escribió un memorando titulado "Meena devora el mundo".
La aparición de Transformers ha hecho que el progreso en la innovación de algoritmos de nivel base se haya desacelerado notablemente en el ámbito académico. Elementos de ingeniería como la ingeniería de datos, la escala de cómputo y la arquitectura del modelo se han convertido en factores clave en la competencia de IA; cualquier empresa tecnológica con ciertas capacidades técnicas puede desarrollar grandes modelos.
Por lo tanto, el científico informático Andrew Ng, al hablar en la Universidad de Stanford, propuso: "La IA es un conjunto de herramientas, que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la inteligencia artificial generativa actual. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."
Aunque OpenAI sigue siendo el referente de los LLM, las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene principalmente de soluciones de ingeniería: si se abre el código, cualquier competidor puede replicarlo rápidamente.
Hay analistas que predicen que, tal vez en poco tiempo, otras grandes empresas de tecnología también podrán desarrollar modelos a gran escala con un rendimiento comparable al de GPT-4.
Barreras de competencia débiles
Actualmente, "la batalla de los cien modelos" ya no es una retórica, sino una realidad objetiva.
Los informes relacionados indican que, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando los 114 de Estados Unidos, y diversas leyendas mitológicas ya no son suficientes para que las empresas tecnológicas nacionales las utilicen como nombres.
Además de China y Estados Unidos, algunos países más ricos también han logrado de manera preliminar el "un país, un modelo": Japón, Bhashini liderado por el gobierno de los Emiratos Árabes Unidos, HyperClova X desarrollado por la empresa de internet surcoreana Naver, entre otros.
La situación actual parece haber regresado a la era de la burbuja de Internet, con capitales de todo tipo fluyendo de manera frenética.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema puramente ingenieril; siempre que haya talento, financiamiento y capacidad de cálculo, se pueden producir grandes modelos. Pero aunque la barrera de entrada no es alta, no significa que cualquiera pueda convertirse en un gigante de la era de la IA.
El "guerra de animales" mencionado al principio del artículo es un caso típico: aunque Falcon ha superado a la llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta.
Como todos saben, las empresas que abren sus resultados de investigación científica lo hacen tanto para compartir los beneficios tecnológicos con la sociedad como para aprovechar la sabiduría colectiva. A medida que profesores de diversas universidades, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos resultados en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es su principal ventaja competitiva.
Desde la creación del laboratorio de IA en 2015, Meta ha establecido un tono de código abierto; Zuckerberg, que comenzó con las redes sociales, entiende mejor la importancia de "mantener relaciones con el público".
Por ejemplo, en octubre, Meta organizó un evento titulado "Incentivos para creadores en IA": los desarrolladores que utilicen Llama 2 para abordar problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una financiación de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.
A principios de octubre, de los 10 principales modelos de lenguaje de código abierto en el ranking, 8 están basados en Llama 2 y todos utilizan su licencia de código abierto. Solo en esa plataforma, ya hay más de 1500 LLM que utilizan la licencia de código abierto de Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no está de más, pero actualmente la mayoría de los LLM en el mercado aún tienen una diferencia notable con respecto a GPT-4.
Por ejemplo, hace poco, GPT-4 ganó el primer lugar en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad Tsinghua y varias universidades de EE. UU. para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en un entorno de generación abierto multidimensional, y el contenido de la prueba incluye tareas en 8 entornos diferentes, como sistemas operativos, bases de datos, gráficos de conocimiento, y batallas de cartas.
Los resultados de la prueba muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, con una diferencia evidente. En cuanto a esos LLM de código abierto tan ruidosos, sus resultados en las pruebas rondan alrededor de 1 punto, ni siquiera alcanzando una cuarta parte de GPT-4.
Hay que saber que GPT-4 fue lanzado en marzo de este año, y esto es el resultado de que sus competidores globales han estado alcanzando durante más de medio año. La causa de esta diferencia es el excelente equipo de científicos de OpenAI y la experiencia acumulada de años de investigación en LLM, lo que les permite mantenerse siempre a la vanguardia.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema ) código abierto ( o la pura capacidad de inferencia ) cerrado (.
A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los LLM puede converger, ya que todos están utilizando arquitecturas de modelo y conjuntos de datos similares.
Otra pregunta más intuitiva es: aparte de Midjourney, parece que no hay ningún otro gran modelo que realmente esté generando ganancias.
Puntos de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en bancarrota a finales de 2024" llamó la atención. La idea principal del artículo se puede resumir en una frase: OpenAI está quemando dinero demasiado rápido.
El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar que los inversores asuman los costos.
Aunque el título del artículo es sensacionalista, también refleja la situación de muchos proveedores de grandes modelos: un grave desbalance entre costos e ingresos.
Los altos costos han llevado a que actualmente solo Nvidia gane mucho dinero con inteligencia artificial, y a lo sumo, Broadcom.
Según estimaciones de consultoras, Nvidia vendió más de 300,000 unidades de H100 en el segundo trimestre de este año. Este es un chip de IA con una eficiencia de entrenamiento de IA extremadamente alta, y las empresas tecnológicas y las instituciones de investigación de todo el mundo están comprando en masa. Si apiláramos esas 300,000 H100, su peso equivaldría al de 4.5 aviones Boeing 747.
Las ganancias de Nvidia se dispararon, con un aumento del 854% en ingresos interanuales, lo que sorprendió a Wall Street. Cabe mencionar que actualmente el precio del H100 en el mercado de segunda mano ha sido elevado a entre 40,000 y 50,000 dólares, mientras que su costo de materiales es de aproximadamente 3,000 dólares.
Los altos costos de la potencia de cálculo se han convertido en una barrera para el desarrollo de la industria en cierta medida. Algunas instituciones de capital han estimado que las empresas tecnológicas de todo el mundo gastarán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares en ingresos anualmente, lo que deja un déficit de al menos 125 mil millones de dólares.
Además, a excepción de algunas pocas como Midjourney, la mayoría de las empresas de software, después de invertir enormes costos, aún no han aclarado su modelo de ganancias. Especialmente los pasos de los dos principales líderes de la industria, Microsoft y Adobe, son un poco vacilantes.
La herramienta de generación de código AI GitHub Copilot, desarrollada por Microsoft en colaboración con OpenAI, cobra 10 dólares al mes, pero debido a los costos de infraestructura, Microsoft pierde 20 dólares al mes; los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría tener pérdidas aún mayores.
Del mismo modo, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha implementado rápidamente un sistema de puntos para evitar que los usuarios abusen y causen pérdidas a la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los modelos grandes y complejos todavía tienen como principal escenario de aplicación la conversación.
No se puede negar que, si no fuera por la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; sin embargo, el valor creado por el entrenamiento de grandes modelos aún está en discusión.
Además, con el aumento de la competencia homogeneizada y la creciente cantidad de modelos de código abierto, el espacio de desarrollo para los proveedores de grandes modelos podría volverse aún más limitado.
El éxito del iPhone 4 no se debe al procesador A4 de 45nm, sino a que puede jugar juegos como Plants vs. Zombies y Angry Birds.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
11 me gusta
Recompensa
11
5
Compartir
Comentar
0/400
OnChainSleuth
· 07-13 08:37
Esto es solo para hacer un poco de ruido en las listas.
Ver originalesResponder0
rekt_but_resilient
· 07-13 08:36
¿Por qué el camello y el águila todavía están peleando?
Ver originalesResponder0
FastLeaver
· 07-13 08:35
Ay, en el mundo de la tecnología también están jugando a las peleas de animales.
Ver originalesResponder0
FlashLoanKing
· 07-13 08:10
Solo dos animales pelean, te aconsejo que no compres moneda.
Batalla de los cien modelos de IA: de la innovación académica a la competencia en ingeniería tecnológica
La "guerra de los cien modelos" en el campo de la IA: de la innovación académica a la tecnología de ingeniería
El mes pasado, estalló una "guerra de animales" en la industria de la IA.
Por un lado está Llama (el llama) lanzado por Meta. Debido a su naturaleza de código abierto, es muy bien recibido por la comunidad de desarrolladores. La compañía eléctrica japonesa, tras investigar el documento y el código fuente de Llama, desarrolló rápidamente una versión en japonés de ChatGPT, solucionando el cuello de botella tecnológico de Japón en el campo de la IA.
El otro lado es un gran modelo llamado Falcon. En mayo de este año, Falcon-40B apareció, superando a Llama y alcanzando el primer lugar en la "clasificación de LLM de código abierto".
Esta lista fue creada por la comunidad de modelos de código abierto y proporciona estándares para evaluar la capacidad de los LLM. La clasificación básicamente consiste en que Llama y Falcon se turnan para ocupar los primeros lugares.
Después del lanzamiento de Llama 2, la familia de llamas superó; pero a principios de septiembre, Falcon lanzó la versión 180B, logrando una vez más un rango más alto.
Curiosamente, los desarrolladores de "Falcon" son el Instituto de Innovación Tecnológica de Abu Dhabi, la capital de los Emiratos Árabes Unidos. Funcionarios del gobierno han declarado que participan en este campo para desafiar a los jugadores principales.
Al día siguiente del lanzamiento de la versión 180B, el Ministro de Inteligencia Artificial de los Emiratos Árabes Unidos fue seleccionado entre las "100 personas más influyentes en el campo de la IA"; junto a él, también fueron seleccionados el "padre de la IA" Geoffrey Hinton, Sam Altman de OpenAI, y el fundador de Baidu, Robin Li.
Hoy en día, el campo de la IA ha entrado en la etapa de "la lucha entre muchos": países y empresas con cierta capacidad financiera, de una forma u otra, están desarrollando su propio modelo de lenguaje grande. Solo dentro del círculo de los países del Golfo hay más de un jugador: en agosto, Arabia Saudita acaba de comprar más de 3000 chips H100 para universidades nacionales, destinados a entrenar LLM.
Un inversor se quejó en las redes sociales: "En su momento, menosprecié la innovación en los modelos de negocio de Internet, pensando que no había barreras: la guerra de los cien grupos, la guerra de los cien coches, la guerra de los cien programas; nunca imaginé que la creación de modelos de gran tecnología seguiría siendo una guerra de los cien modelos..."
¿Cómo es que la tecnología dura, que originalmente se consideraba de alta dificultad, se ha convertido en un campo en el que todos pueden participar?
Transformer cambia las reglas del juego
Las startups de Estados Unidos, los gigantes tecnológicos de China y los magnates del petróleo de Oriente Medio pueden dedicarse al campo de los modelos grandes gracias a aquel famoso artículo: "Attention Is All You Need".
En 2017, ocho científicos informáticos de Google publicaron el algoritmo Transformer en este artículo. Este artículo es actualmente el tercero más citado en la historia de la IA, y la aparición de Transformer se convirtió en el catalizador de esta ola de entusiasmo por la IA.
Los diversos modelos grandes actuales, incluidos los de la serie GPT que han causado sensación en todo el mundo, se basan en la arquitectura Transformer.
Antes de esto, "enseñar a las máquinas a leer" ha sido un problema académico reconocido. A diferencia del reconocimiento de imágenes, cuando los humanos leen, no solo se enfocan en las palabras y frases actuales, sino que también comprenden en función del contexto. Las entradas de las primeras redes neuronales eran independientes entre sí, lo que les impedía entender textos largos o incluso artículos completos, por lo que a menudo ocurrían errores de traducción.
En 2014, el científico informático Ilya Sutskever, que había trabajado en Google, hizo un cambio a OpenAI y logró un avance. Utilizó redes neuronales recurrentes para procesar el lenguaje natural, lo que permitió que el rendimiento de Google Translate superara rápidamente a sus competidores.
RNN propuso el "diseño cíclico", permitiendo que cada neurona reciba tanto la entrada actual como la entrada del momento anterior, adquiriendo así la capacidad de "conectar el contexto". La aparición de RNN encendió el entusiasmo de la investigación en el ámbito académico, y más tarde el autor del artículo de Transformer, Noam Shazeer(, también realizó una investigación profunda.
Sin embargo, los desarrolladores pronto se dieron cuenta de que las RNN tienen defectos graves: el algoritmo utiliza cálculos secuenciales, aunque resuelve el problema del contexto, su eficiencia de ejecución no es alta y tiene dificultades para manejar grandes cantidades de parámetros.
El diseño complicado de RNN pronto aburrió a Szalewski. Por lo tanto, a partir de 2015, Szalewski y 7 aficionados comenzaron a desarrollar un sustituto para RNN, cuyo resultado es Transformer.
En comparación con RNN, Transformer tiene dos grandes innovaciones:
Primero, se reemplazó el diseño de bucle por codificación de posición, lo que permite el cálculo en paralelo, mejorando significativamente la eficiencia de entrenamiento, lo que permite manejar grandes volúmenes de datos y lleva a la IA hacia la era de los grandes modelos; segundo, se ha reforzado aún más la capacidad de comprender el contexto.
Con la solución de numerosos problemas por parte de Transformer, este ha ido convirtiéndose gradualmente en la solución principal para el procesamiento del lenguaje natural, dando la sensación de que "si no hubiera nacido Transformer, el PLN sería una larga noche eterna". Incluso Ilia ha abandonado su propia creación, RNN, para apoyar a Transformer.
En resumen, el Transformer ha convertido los grandes modelos de un problema de investigación teórica a un problema puramente ingenieril.
En 2019, OpenAI desarrolló GPT-2 basado en Transformer, que sorprendió a la academia. En respuesta, Google lanzó rápidamente una IA más potente llamada Meena.
En comparación con GPT-2, Meena no tiene innovaciones en el algoritmo subyacente, solo ha aumentado la cantidad de parámetros en 8.5 veces y la potencia de cálculo en 14 veces. El autor del artículo sobre Transformer, Ashish Vaswani, quedó muy impresionado por este enfoque de "apilamiento violento" y de inmediato escribió un memorando titulado "Meena devora el mundo".
La aparición de Transformers ha hecho que el progreso en la innovación de algoritmos de nivel base se haya desacelerado notablemente en el ámbito académico. Elementos de ingeniería como la ingeniería de datos, la escala de cómputo y la arquitectura del modelo se han convertido en factores clave en la competencia de IA; cualquier empresa tecnológica con ciertas capacidades técnicas puede desarrollar grandes modelos.
Por lo tanto, el científico informático Andrew Ng, al hablar en la Universidad de Stanford, propuso: "La IA es un conjunto de herramientas, que incluye el aprendizaje supervisado, el aprendizaje no supervisado, el aprendizaje por refuerzo y la inteligencia artificial generativa actual. Todas estas son tecnologías generales, similares a otras tecnologías generales como la electricidad y el internet."
Aunque OpenAI sigue siendo el referente de los LLM, las instituciones de análisis de semiconductores creen que la competitividad de GPT-4 proviene principalmente de soluciones de ingeniería: si se abre el código, cualquier competidor puede replicarlo rápidamente.
Hay analistas que predicen que, tal vez en poco tiempo, otras grandes empresas de tecnología también podrán desarrollar modelos a gran escala con un rendimiento comparable al de GPT-4.
Barreras de competencia débiles
Actualmente, "la batalla de los cien modelos" ya no es una retórica, sino una realidad objetiva.
Los informes relacionados indican que, hasta julio de este año, el número de grandes modelos en China ha alcanzado 130, superando los 114 de Estados Unidos, y diversas leyendas mitológicas ya no son suficientes para que las empresas tecnológicas nacionales las utilicen como nombres.
Además de China y Estados Unidos, algunos países más ricos también han logrado de manera preliminar el "un país, un modelo": Japón, Bhashini liderado por el gobierno de los Emiratos Árabes Unidos, HyperClova X desarrollado por la empresa de internet surcoreana Naver, entre otros.
La situación actual parece haber regresado a la era de la burbuja de Internet, con capitales de todo tipo fluyendo de manera frenética.
Como se mencionó anteriormente, el Transformer ha convertido los grandes modelos en un problema puramente ingenieril; siempre que haya talento, financiamiento y capacidad de cálculo, se pueden producir grandes modelos. Pero aunque la barrera de entrada no es alta, no significa que cualquiera pueda convertirse en un gigante de la era de la IA.
El "guerra de animales" mencionado al principio del artículo es un caso típico: aunque Falcon ha superado a la llama en el ranking, es difícil decir cuánto impacto ha tenido en Meta.
Como todos saben, las empresas que abren sus resultados de investigación científica lo hacen tanto para compartir los beneficios tecnológicos con la sociedad como para aprovechar la sabiduría colectiva. A medida que profesores de diversas universidades, instituciones de investigación y pequeñas y medianas empresas continúan utilizando y mejorando Llama, Meta puede aplicar estos resultados en sus propios productos.
Para los grandes modelos de código abierto, una comunidad de desarrolladores activa es su principal ventaja competitiva.
Desde la creación del laboratorio de IA en 2015, Meta ha establecido un tono de código abierto; Zuckerberg, que comenzó con las redes sociales, entiende mejor la importancia de "mantener relaciones con el público".
Por ejemplo, en octubre, Meta organizó un evento titulado "Incentivos para creadores en IA": los desarrolladores que utilicen Llama 2 para abordar problemas sociales como la educación y el medio ambiente tienen la oportunidad de recibir una financiación de 500,000 dólares.
Hoy en día, la serie Llama de Meta se ha convertido en un referente para los LLM de código abierto.
A principios de octubre, de los 10 principales modelos de lenguaje de código abierto en el ranking, 8 están basados en Llama 2 y todos utilizan su licencia de código abierto. Solo en esa plataforma, ya hay más de 1500 LLM que utilizan la licencia de código abierto de Llama 2.
Por supuesto, mejorar el rendimiento como Falcon no está de más, pero actualmente la mayoría de los LLM en el mercado aún tienen una diferencia notable con respecto a GPT-4.
Por ejemplo, hace poco, GPT-4 ganó el primer lugar en la prueba AgentBench con una puntuación de 4.41. AgentBench fue lanzado conjuntamente por la Universidad Tsinghua y varias universidades de EE. UU. para evaluar la capacidad de razonamiento y toma de decisiones de los LLM en un entorno de generación abierto multidimensional, y el contenido de la prueba incluye tareas en 8 entornos diferentes, como sistemas operativos, bases de datos, gráficos de conocimiento, y batallas de cartas.
Los resultados de la prueba muestran que el segundo lugar, Claude, solo obtuvo 2.77 puntos, con una diferencia evidente. En cuanto a esos LLM de código abierto tan ruidosos, sus resultados en las pruebas rondan alrededor de 1 punto, ni siquiera alcanzando una cuarta parte de GPT-4.
Hay que saber que GPT-4 fue lanzado en marzo de este año, y esto es el resultado de que sus competidores globales han estado alcanzando durante más de medio año. La causa de esta diferencia es el excelente equipo de científicos de OpenAI y la experiencia acumulada de años de investigación en LLM, lo que les permite mantenerse siempre a la vanguardia.
Es decir, la capacidad central de un gran modelo no son los parámetros, sino la construcción del ecosistema ) código abierto ( o la pura capacidad de inferencia ) cerrado (.
A medida que la comunidad de código abierto se vuelve cada vez más activa, el rendimiento de los LLM puede converger, ya que todos están utilizando arquitecturas de modelo y conjuntos de datos similares.
Otra pregunta más intuitiva es: aparte de Midjourney, parece que no hay ningún otro gran modelo que realmente esté generando ganancias.
Puntos de anclaje del valor
En agosto de este año, un artículo titulado "OpenAI podría declararse en bancarrota a finales de 2024" llamó la atención. La idea principal del artículo se puede resumir en una frase: OpenAI está quemando dinero demasiado rápido.
El texto menciona que, desde el desarrollo de ChatGPT, las pérdidas de OpenAI se han ampliado rápidamente, con pérdidas de aproximadamente 540 millones de dólares solo en 2022, y solo pueden esperar que los inversores asuman los costos.
Aunque el título del artículo es sensacionalista, también refleja la situación de muchos proveedores de grandes modelos: un grave desbalance entre costos e ingresos.
Los altos costos han llevado a que actualmente solo Nvidia gane mucho dinero con inteligencia artificial, y a lo sumo, Broadcom.
Según estimaciones de consultoras, Nvidia vendió más de 300,000 unidades de H100 en el segundo trimestre de este año. Este es un chip de IA con una eficiencia de entrenamiento de IA extremadamente alta, y las empresas tecnológicas y las instituciones de investigación de todo el mundo están comprando en masa. Si apiláramos esas 300,000 H100, su peso equivaldría al de 4.5 aviones Boeing 747.
Las ganancias de Nvidia se dispararon, con un aumento del 854% en ingresos interanuales, lo que sorprendió a Wall Street. Cabe mencionar que actualmente el precio del H100 en el mercado de segunda mano ha sido elevado a entre 40,000 y 50,000 dólares, mientras que su costo de materiales es de aproximadamente 3,000 dólares.
Los altos costos de la potencia de cálculo se han convertido en una barrera para el desarrollo de la industria en cierta medida. Algunas instituciones de capital han estimado que las empresas tecnológicas de todo el mundo gastarán aproximadamente 200 mil millones de dólares al año en la construcción de infraestructura para grandes modelos; en comparación, los grandes modelos solo pueden generar hasta 75 mil millones de dólares en ingresos anualmente, lo que deja un déficit de al menos 125 mil millones de dólares.
Además, a excepción de algunas pocas como Midjourney, la mayoría de las empresas de software, después de invertir enormes costos, aún no han aclarado su modelo de ganancias. Especialmente los pasos de los dos principales líderes de la industria, Microsoft y Adobe, son un poco vacilantes.
La herramienta de generación de código AI GitHub Copilot, desarrollada por Microsoft en colaboración con OpenAI, cobra 10 dólares al mes, pero debido a los costos de infraestructura, Microsoft pierde 20 dólares al mes; los usuarios intensivos incluso pueden hacer que Microsoft pierda 80 dólares al mes. A partir de esto, se puede suponer que el Microsoft 365 Copilot, que tiene un precio de 30 dólares, podría tener pérdidas aún mayores.
Del mismo modo, Adobe, que acaba de lanzar la herramienta Firefly AI, también ha implementado rápidamente un sistema de puntos para evitar que los usuarios abusen y causen pérdidas a la empresa. Una vez que los usuarios superen los puntos asignados mensualmente, Adobe reducirá la velocidad del servicio.
Es importante saber que Microsoft y Adobe ya son gigantes del software con escenarios de negocio claros y una gran cantidad de usuarios de pago. Mientras tanto, la mayoría de los modelos grandes y complejos todavía tienen como principal escenario de aplicación la conversación.
No se puede negar que, si no fuera por la aparición de OpenAI y ChatGPT, esta revolución de la IA podría no haber ocurrido en absoluto; sin embargo, el valor creado por el entrenamiento de grandes modelos aún está en discusión.
Además, con el aumento de la competencia homogeneizada y la creciente cantidad de modelos de código abierto, el espacio de desarrollo para los proveedores de grandes modelos podría volverse aún más limitado.
El éxito del iPhone 4 no se debe al procesador A4 de 45nm, sino a que puede jugar juegos como Plants vs. Zombies y Angry Birds.