This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
AI百模対戦:学術革新からエンジニアリング技術競技へ
AI分野の「百モデル戦争」: 学術革新からエンジニアリング技術へ
先月、AI業界で「動物戦争」が勃発しました。
一方はMetaが発表したLlama(ラマ)です。そのオープンソースの特性から、開発者コミュニティに非常に好評です。日本電気株式会社はLlamaの論文とソースコードを研究した後、迅速に日本語版ChatGPTを開発し、日本のAI分野における技術的なボトルネックを解決しました。
もう一方はFalcon(ファルコン)という大規模モデルです。今年の5月にFalcon-40Bが登場し、アメリカンアルパカを超えて「オープンソースLLMランキング」の首位に立ちました。
このランキングはオープンソースモデルコミュニティによって作成され、LLMの能力を評価する基準を提供しています。ランキングは基本的にLlamaとFalconが交互にランクインしています。
Llama 2が登場した後、ラマファミリーは逆転しましたが、9月初旬にFalconが180Bバージョンをリリースし、再びより高いランキングを獲得しました。
興味深いことに、「ファルコン」の開発者はアラブ首長国連邦の首都アブダビにあるテクノロジー革新研究所です。政府関係者は、彼らがこの分野に参加しているのは、コアプレイヤーを覆すためだと述べています。
180Bバージョンのリリース翌日、アラブ首長国連邦の人工知能大臣が「AI分野で最も影響力のある100人」に選ばれました;彼と共に選ばれたのは、「AIの父」ヒントン、OpenAIのアルトマン、そしてバイドゥの創業者リー・イエンホンです。
現在、AI分野は「群雄割拠」の段階に入りました。一定の財力を持つ国や企業は、少なからず自分たちの大規模言語モデルを構築しています。湾岸諸国の中でも、プレイヤーは一つだけではありません。8月には、サウジアラビアが国内の大学のために3000枚以上のH100チップを購入し、LLMの訓練に使用しました。
投資家はソーシャルメディアで不満を述べた:"かつてインターネットのビジネスモデルの革新を軽視し、バリアがないと思った:百団戦、百車戦、百放送戦;ハードテクノロジーの大規模モデルの起業が、依然として百モデル戦になるとは思わなかった..."
元々は高難度と考えられていたハードテクノロジーが、どうして誰もが参加できる分野になったのでしょうか?
トランスフォーマーがゲームを変える
アメリカのスタートアップ、中国のテクノロジー大手、中東の石油王が大規模モデルの分野に参入できるのは、あの有名な論文《Attention Is All You Need》のおかげです。
2017年、8人のGoogleの計算機科学者がこの論文でTransformerアルゴリズムを公表しました。この論文は現在、AIの歴史の中で引用回数が3番目に多い論文であり、Transformerの登場はこのAIブームの触媒となりました。
現在のさまざまな大規模モデル、世界を震撼させたGPTシリーズを含む、はすべてTransformerの基盤の上に構築されています。
これまでのところ、「機械に読むことを教える」ことは認識された学術的な難問でした。画像認識とは異なり、人間は読みながら現在の語句だけでなく、文脈を考慮して理解します。初期のニューラルネットワークは入力が相互に独立しており、長文や文章全体を理解できず、したがって翻訳ミスが頻繁に発生していました。
2014年、グーグルで働いていた後、OpenAIに転職したコンピュータ科学者イリヤ(Ilya Sutskever)はブレークスルーを達成しました。彼はリカレントニューラルネットワーク(RNN)を使用して自然言語を処理し、グーグル翻訳の性能を迅速に競合他社の前に押し上げました。
RNNは「循環設計」を提案し、各ニューロンが現在の入力と前の時間の入力を受け取ることで、「文脈を関連付ける」能力を持つようになりました。RNNの出現は学術界の研究熱を燃え上がらせ、その後、Transformerの論文の著者であるノアム・シャジール(も深く研究しました。
しかし、開発者たちはすぐにRNNに深刻な欠陥があることに気づきました。このアルゴリズムは逐次計算を使用しており、文脈の問題を解決したものの、実行効率が高くなく、大量のパラメータを処理するのが難しいのです。
RNNの煩雑な設計はすぐにシャザールをうんざりさせました。そこで2015年から、シャザールと7人の仲間はRNNの代替品の開発に着手し、その成果がTransformerです。
RNNと比較して、Transformerには2つの革新があります:
一つは位置エンコーディングをループ設計の代わりに使用して並列計算を実現し、トレーニング効率を大幅に向上させることで、大量のデータを処理できるようになり、AIを大規模モデルの時代へと進めました; 二つ目は文脈を理解する能力をさらに強化しました。
Transformerが多くの問題を一挙に解決するにつれて、自然言語処理の主流の選択肢となり、「天にTransformerが生まれなければ、NLPは永遠に長い夜のまま」と感じるような状況です。イリヤでさえ、自ら創造したRNNを捨ててTransformerを支持するようになりました。
簡単に言えば、Transformerは大規模モデルを理論研究から純粋な工学問題に変えました。
2019年、OpenAIはTransformerに基づいてGPT-2を開発し、一時は学界を驚かせました。それに対抗して、Googleはより強力なAIであるMeenaを迅速に発表しました。
GPT-2と比較して、Meenaは基本的なアルゴリズムに革新はなく、単にパラメータ数が8.5倍、計算能力が14倍増加した。Transformer論文の著者であるシャゼルは、この「暴力的な積み重ね」方式に大いに衝撃を受け、すぐに「Meenaが世界を飲み込む」というメモを書いた。
Transformerの登場により、学術界における基盤アルゴリズムの革新の歩みは明らかに鈍化しました。データエンジニアリング、計算能力の規模、モデルアーキテクチャなどのエンジニアリング要素が、AI競争の重要な要因となっており、一定の技術力を持つテクノロジー企業であれば、大規模モデルを開発できるようになっています。
したがって、コンピュータ科学者のアンドリュー・ングはスタンフォード大学での講演で次のように述べました:「AIは、監視学習、無監視学習、強化学習、そして現在の生成的人工知能を含む一連のツールの集合です。これらすべては、電力やインターネットなどの他の汎用技術と同様の汎用技術です。」
OpenAIは依然としてLLMの指標ですが、半導体分析機関は、GPT-4の競争力は主にエンジニアリングソリューションに起因すると考えています。もしオープンソース化されれば、どんな競争相手でも迅速にコピーできるでしょう。
アナリストは予測していますが、他の大手テクノロジー企業も早いうちにGPT-4と同等の性能を持つ大規模モデルを開発できるかもしれません。
競争に対する障壁が弱い
現在、「百模大戦」はもはや修辞ではなく、客観的現実です。
関連報告によると、今年の7月までに中国の大モデルの数は130に達し、アメリカの114を超え、国内のテクノロジー企業が名前を付けるための神話や伝説はもはや十分ではない。
中国とアメリカを除いて、いくつかの比較的裕福な国も「一国一模」を初めて実現しました:日本、アラブ首長国連邦、インド政府が主導するBhashini、韓国のインターネット企業Naverが開発したHyperClova Xなど。
今の状況は、まるでインターネットバブルの時代に戻ったかのようで、さまざまな資本が狂ったように流入しています。
前述の通り、Transformerは大規模モデルを純粋なエンジニアリングの問題に変えました。人材、資金、計算力さえあれば、大規模モデルを生産することができます。しかし、参入障壁が低いとはいえ、誰もがAI時代の巨頭になれるわけではありません。
記事の冒頭に言及されている「動物戦争」は典型的な例です:ファルコンはランキングでアルパカを上回っていますが、メタにどれほどの影響を与えたかは難しいと言えます。
誰もが知っているように、企業が自らの研究成果をオープンソース化するのは、社会とテクノロジーの利益を共有するためだけでなく、一般の知恵を借りることを望んでいるからです。各大学の教授や研究機関、中小企業がLlamaを継続的に使用・改善することで、Metaはこれらの成果を自社の製品に応用できるようになります。
オープンソースの大規模モデルにとって、活発な開発者コミュニティこそがそのコア競争力です。
2015年にAIラボを設立した際、Metaはオープンソースのトーンを確立しました。ザッカーバーグはソーシャルメディアで成功を収めており、「公共関係を維持する」重要性をより理解しています。
例えば10月、Metaは「AI版クリエイターインセンティブ」イベントを特別に開催しました:教育、環境などの社会問題を解決するためにLlama 2を使用する開発者は、50万ドルの資金を得る機会があります。
現在、MetaのLlamaシリーズはオープンソースLLMの指標となっています。
10月初の時点で、あるオープンソースのLLMランキングの上位10位のうち、8つはLlama 2を基に開発されており、すべてオープンソースライセンスを使用しています。このプラットフォーム上では、Llama 2のオープンソースライセンスを使用したLLMが1500以上存在しています。
もちろん、Falconのように性能を向上させるのも悪くはありませんが、現在市場に出ているほとんどのLLMはGPT-4とまだ明らかな差があります。
例えば、最近、GPT-4はAgentBenchテストで4.41点の成績を収め、1位となりました。AgentBenchは清華大学とアメリカの複数の大学が共同で発表したもので、LLMの多次元オープン生成環境における推論と意思決定能力を評価するためのものです。テスト内容には、オペレーティングシステム、データベース、知識グラフ、カードバトルなど、8つの異なる環境のタスクが含まれています。
テスト結果は、2位のClaudeがわずか2.77点であり、差が明らかであることを示しています。大規模なオープンソースLLMに関しては、そのテストスコアは1点前後であり、GPT-4の4分の1にも満たないことが多いです。
GPT-4は今年の3月に発表され、これは世界中の競合が半年以上追いかけた結果です。この差を生んでいるのは、OpenAIの優秀な科学者チームと長年のLLM研究の蓄積された経験であり、そのため常に先行していることができるのです。
つまり、大規模モデルの核心的な能力はパラメーターではなく、エコシステムの構築)オープンソース(または純粋な推論能力)クローズドソース(です。
オープンソースコミュニティがますます活発になるにつれて、さまざまなLLMの性能は類似したモデルアーキテクチャとデータセットを使用しているため、同じようになる可能性があります。
もう一つ直感的な問題は、Midjourneyの他に、実際に利益を上げている大規模モデルがないように見えることです。
価値のアンカー
今年8月、"OpenAIは2024年末までに破産する可能性がある"というタイトルの記事が注目を集めました。この記事の主旨はほぼ1文で要約できます: OpenAIの資金消費の速度があまりにも速いということです。
本文では、ChatGPTの開発以来、OpenAIの損失が急速に拡大しており、2022年だけで約5.4億ドルの損失を被り、投資者が支払うのを待つしかないと述べられています。
記事のタイトルは衝撃的ですが、多くの大規模モデル提供者の現状を語っています: コストと収入のバランスが深刻に崩れています。
高すぎるコストのため、現在人工知能で大儲けしているのはNVIDIAだけで、せいぜいBroadcomが加わる程度です。
コンサルティング会社の推計によると、NVIDIAは今年の第2四半期に30万枚以上のH100を販売しました。これはAIチップで、AIのトレーニング効率が非常に高く、世界中のテクノロジー企業や研究機関がこぞって購入しています。この30万枚のH100を重ねると、その重さは4.5機のボーイング747に相当します。
NVIDIAの業績は急上昇し、前年比で収益が854%増加し、ウォール街を驚かせました。注目すべきは、現在H100の中古市場での価格が4万から5万ドルにまで高騰しており、その材料コストは約3000ドルに過ぎないということです。
高い計算能力コストは、ある程度、業界の発展の障害となっています。ある資本機関は推定しています:世界のテクノロジー企業は毎年2000億ドルを大規模モデルのインフラ構築に費やすと予測しています。それに対して、大規模モデルは毎年最大で750億ドルの収入しか生み出せず、間に少なくとも1250億ドルのギャップがあります。
さらに、Midjourneyなどの少数の例外を除いて、大多数のソフトウェア会社は巨額のコストを投入した後、まだ利益モデルを明確にしていません。特に業界の二大リーダーであるマイクロソフトとアドビの足取りは少し不安定です。
マイクロソフトとOpenAIが共同開発したAIコード生成ツールGitHub Copilotは、毎月10ドルの料金を徴収していますが、施設コストのために、マイクロソフトは逆に毎月20ドルの損失を出しています。ヘビーユーザーは、マイクロソフトに毎月80ドルの損失をもたらす可能性があります。これに基づいて、30ドルのMicrosoft 365 Copilotはさらに多くの損失を出す可能性があります。
同様に、Firefly AIツールを新たに発表したAdobeも迅速にポイントシステムを導入し、ユーザーの過剰利用による会社の損失を防いでいます。ユーザーが月間割り当てポイントを超えた場合、Adobeはサービスの速度を低下させます。
マイクロソフトとAdobeは、ビジネスシーンが明確で、多くの有料ユーザーを持つソフトウェアの巨人であることを知っておくべきです。一方で、大規模なパラメータを持つ大モデルの最も主要な応用シーンは、まだチャットです。
否定できないことに、OpenAIとChatGPTの登場がなければ、このAI革命はそもそも起こらなかった可能性がある。しかし現在、大規模モデルのトレーニングによって生み出される価値はまだ議論の余地がある。
さらに、同質化競争が激化し、オープンソースモデルが増えるにつれて、単純な大規模モデルの提供者の成長の余地はますます限られる可能性があります。
iPhone 4の成功は45nmプロセスのA4プロセッサによるものではなく、植物vs.ゾンビや怒れる鳥のようなゲームができるからです。