AI Çok Modlu Savaşı: Akademik Yenilikten Mühendislik Teknolojisi Yarışmasına

AI alanındaki "yüz model savaşı": akademik yenilikten mühendislik teknolojisine

Geçen ay, AI endüstrisinde bir "hayvan savaşı" patlak verdi.

Bir taraf Meta'nın tanıttığı Llama (lama). Açık kaynak özelliği nedeniyle geliştirici topluluğu tarafından oldukça beğenildi. Nippon Electric Company, Llama makalesini ve kaynak kodunu inceledikten sonra, Japonca ChatGPT'yi hızla geliştirdi ve Japonya'nın AI alanındaki teknik darboğazını çözdü.

Diğer taraf, Falcon (Şahin) adında büyük bir modeldir. Bu yılın Mayıs ayında Falcon-40B piyasaya sürüldü ve llama'yı geride bırakarak "açık kaynak LLM sıralaması"nda zirveye yerleşti.

Bu liste, açık kaynak model topluluğu tarafından hazırlanmış olup, LLM yeteneklerini değerlendirmek için standartlar sunmaktadır. Sıralama temelde Llama ve Falcon'un sırayla listeyi yükseltmesidir.

Llama 2'nin piyasaya sürülmesinin ardından, lama ailesi geri geçti; ancak Eylül başında Falcon 180B sürümünü tanıttığında, bir kez daha daha yüksek bir sıralama elde etti.

İlginç bir şekilde, "Şahin"in geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü. Hükümet yetkilileri, bu alana katılımlarının temel oyuncuları alt üst etmek için olduğunu belirtti.

180B versiyonunun piyasaya sürülmesinin ikinci gününde, Birleşik Arap Emirlikleri Yapay Zeka Bakanı "Yapay Zeka alanındaki en etkili 100 kişi" arasına seçildi; onunla birlikte seçilenler arasında "Yapay Zeka Baba" Hinton, OpenAI'nin Altman'ı ve Baidu'nun kurucusu Li Yanhong da var.

Bugün, AI alanı "birçok rakip arasında" aşamasına girdi: belirli bir mali güce sahip ülkeler ve şirketler, ya az ya da çok kendi büyük dil modellerini oluşturuyor. Körfez ülkeleri arasında birden fazla oyuncu var - Ağustos'ta, Suudi Arabistan ülke içindeki üniversiteler için 3000'den fazla H100 çip satın aldı, LLM eğitimi için.

Bir yatırımcı sosyal medyada şunları söyledi: "O zamanlar internetin iş modeli yeniliklerini küçümsemiş, engel olmadığını düşünmüştüm: yüzlerce grup savaşı, yüzlerce araç savaşı, yüzlerce yayın savaşı; ama sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı olduğunu hiç tahmin etmemiştim..."

Başlangıçta yüksek zorlukta bir alan olarak düşünülen sert teknolojinin, nasıl olup da herkesin katılabileceği bir alan haline geldi?

Transformer oyunun kurallarını değiştiriyor

Amerika'nın girişimcileri, Çin'in teknoloji devleri ve Orta Doğu'nun petrol baronları büyük model alanına girebiliyorsa, bunun nedeni o ünlü makale: "Attention Is All You Need".

2017 yılında, 8 Google bilgisayar bilimcisi bu makalede Transformer algoritmasını açıkladı. Bu makale, şu anda AI tarihindeki en çok alıntı yapılan üçüncü makaledir ve Transformer'ın ortaya çıkışı bu AI dalgasının katalizörü olmuştur.

Mevcut çeşitli büyük modeller, dünya çapında heyecan yaratan GPT serisi dahil, Transformer temeli üzerine inşa edilmiştir.

Bundan önce, "makineleri okumayı öğretmek" kabul edilen akademik bir zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken sadece mevcut kelimelere değil, aynı zamanda bağlama da dikkat ederler. Erken dönem sinir ağlarının girdi verileri birbirinden bağımsızdı ve uzun metinleri veya tüm makaleleri anlayamıyordu, bu nedenle bazı çeviri hataları sıkça ortaya çıkıyordu.

2014 yılında, Google'da çalıştıktan sonra OpenAI'ye geçen bilgisayar bilimcisi Ilya (Ilya Sutskever) bir atılım yaptı. Doğal dil işleme için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerinin önüne geçirdi.

RNN, "döngü tasarımı"nı önerdi ve her nöron hem mevcut girişi hem de bir önceki zaman dilimindeki girişi alarak "bağlamı anlama" yeteneğine sahip oldu. RNN'nin ortaya çıkışı akademik çevrelerde araştırma heyecanını ateşledi, daha sonra Transformer makalesinin yazarı Noam Shazeer( de derinlemesine araştırmalar yaptı.

Ancak geliştiriciler, RNN'nin ciddi bir dezavantaja sahip olduğunu çabuk fark ettiler: Bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözüyor ama çalışma verimliliği düşük, çok sayıda parametreyi işlemek zor.

RNN'nin karmaşık tasarımı kısa sürede Shazelle'yi sıkmaya başladı. Bu nedenle 2015 yılından itibaren Shazelle ve 7 benzer ilgi alanına sahip kişi, RNN'nin alternatifini geliştirmeye başladılar ve bunun sonucu Transformer oldu.

RNN'e kıyasla, Transformer'ın iki büyük yeniliği var:

Birincisi, konum kodlamasının döngü tasarımının yerini alması, paralel hesaplama sağladı ve eğitim verimliliğini büyük ölçüde artırarak büyük veri setlerini işleyebilmesini sağladı, bu da AI'yı büyük model çağına taşıdı; ikincisi, bağlamı anlama yeteneğini daha da güçlendirdi.

Transformer, birçok sorunu tek seferde çözerek, doğal dil işleme alanında giderek ana akım bir çözüm haline geldi. Sanki "Transformer doğmasaydı, NLP sonsuz bir gece gibi olurdu" hissi veriyor. Hatta İlya kendi kurduğu RNN'yi bir kenara bırakıp Transformer'ı desteklemeye başladı.

Kısacası, Transformer büyük modellerin teorik araştırmadan saf bir mühendislik problemine dönüşmesini sağladı.

2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirdi ve akademiyi bir süre şaşırttı. Buna yanıt olarak, Google daha güçlü bir AI olan Meena'yı hızla piyasaya sürdü.

GPT-2 ile karşılaştırıldığında, Meena'nın temel algoritmasında bir yenilik yoktur, yalnızca parametre sayısı 8.5 kat, hesaplama gücü ise 14 kat artmıştır. Transformer makalesinin yazarı Şazel, bu tür "şiddetli yığma" yaklaşımından derinden etkilenmiş ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazmıştır.

Transformer'ın ortaya çıkması, akademik dünyada temel algoritma yenilikleri konusunda adımların belirgin şekilde yavaşlamasına neden oldu. Veri mühendisliği, hesaplama gücü ölçeği, model mimarisi gibi mühendislik unsurları, AI yarışmalarında giderek daha önemli hale geliyor; yeterli teknik yeteneğe sahip teknoloji şirketleri büyük modeller geliştirebiliyor.

Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde yaptığı bir konuşmada şunu belirtti: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şu anki üretken yapay zeka gibi bir dizi aracın birleşimidir. Tüm bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."

OpenAI hala LLM'nin öncüsü olsa da, yarı iletken analiz kuruluşları, GPT-4'ün rekabet gücünün esasen mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir.

Bazı analistler, çok geçmeden diğer büyük teknoloji şirketlerinin de GPT-4 ile eşdeğer performansa sahip büyük modeller geliştirebileceğini öngörüyor.

Kırılgan Rekabet Engelleri

Şu anda, "Bai Mo Savaşı" artık bir retorik değil, nesnel bir gerçek.

İlgili raporlar, bu yıl Temmuz itibarıyla Çin'de 130 adet büyük modelin bulunduğunu, bunun Amerika Birleşik Devletleri'ndeki 114 modeli aştığını gösteriyor. Çeşitli mitolojik hikayeler, artık yerli teknoloji şirketlerinin isimlendirmesi için yeterli olmaktan çıkmıştır.

Çin ve ABD dışında, bazı daha zengin ülkeler de "bir ülke bir model" ilkesini kısmen gerçekleştirmiştir: Japonya, Birleşik Arap Emirlikleri, Hindistan hükümeti tarafından yönetilen Bhashini, Güney Kore internet şirketi Naver tarafından geliştirilen HyperClova X vb.

Şu anki durum, sanki internet balonunun zamanına geri dönmüş gibi, her yerden sermaye deli gibi akıyor.

Daha önce belirtildiği gibi, Transformer büyük modelleri tamamen bir mühendislik sorunu haline getirdi. Yeterli insan kaynağı, finansman ve hesaplama gücü olduğu sürece büyük modeller üretilebilir. Ancak giriş engeli düşük olsa da, herkesin AI çağının devlerinden biri olabileceği anlamına gelmez.

Makalede bahsedilen "hayvan savaşları" tipik bir örnektir: Falcon, sıralamada lama'yı geride bırakmış olsa da, Meta üzerinde ne kadar büyük bir etki yarattığı söylenemez.

Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak olarak sunmanın, hem teknolojik faydaları toplumla paylaşmak, hem de kitlelerin bilgeliğinden yararlanmak amacı vardır. Çeşitli üniversite profesörleri, araştırma kurumları ve küçük-orta ölçekli işletmeler Llama'yı sürekli kullanıp geliştirirken, Meta bu sonuçları kendi ürünlerinde uygulayabilir.

Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu, temel rekabet avantajıdır.

2015 yılında AI laboratuvarını kurduğunda, Meta açık kaynak yaklaşımını benimsemişti; Zuckerberg sosyal medyadan başladı ve "kamu ilişkilerini sürdürmenin" önemini daha iyi anlıyor.

Örneğin, Ekim ayında Meta, "AI Tabanlı İçerik Üreticileri Teşvik Programı" adlı bir etkinlik düzenledi: Llama 2'yi eğitim, çevre gibi sosyal sorunları çözmek için kullanan geliştiriciler, 500.000 dolar hibe alma şansına sahip olacaklar.

Bugün, Meta'nın Llama serisi açık kaynak LLM'lerin mihenk taşı haline geldi.

Ekim ayı başı itibarıyla, bazı açık kaynaklı LLM sıralamalarının ilk 10'unda, 8'i Llama 2 tabanlı olarak geliştirilmiştir ve hepsi açık kaynak lisansını kullanmaktadır. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü geçmiştir.

Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda piyasadaki çoğu LLM ile GPT-4 arasında hala belirgin bir fark var.

Örneğin, kısa süre önce, GPT-4, AgentBench testinde 4.41 puan alarak birinciliği elde etti. AgentBench, Tsinghua Üniversitesi ile ABD'deki birçok üniversitenin ortaklaşa geliştirdiği, LLM'lerin çok boyutlu açık üretim ortamlarında akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılan bir testtir. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri içermektedir.

Test sonuçları, ikinci olan Claude'un yalnızca 2.77 puan aldığını ve aranın belirgin olduğunu gösteriyor. O geniş çapta tanıtılan açık kaynak LLM'lere gelince, onların test sonuçları genellikle 1 puan civarında ve GPT-4'ün dörtte birine bile ulaşmıyor.

Bilmek gerekir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü, bu da dünya genelindeki meslektaşların altı ay boyunca sürdürdükleri çabanın sonucudur. Bu farkı yaratan, OpenAI'nin yetenekli bilim insanları ekibi ve uzun süreli LLM araştırmalarıyla biriktirdikleri deneyimdir, bu sayede daima önde kalmayı başarıyorlar.

Yani, büyük modellerin temel yeteneği parametreler değil, ekosistem inşasıdır ) açık kaynak ( veya saf çıkarım yeteneği ) kapalı kaynak (.

Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, farklı LLM'lerin performansları benzer model mimarileri ve veri setleri kullanıldığı için birbirine yakınlaşabilir.

Başka daha somut bir soru ise: Midjourney dışında, görünüşe göre gerçekten kâr edebilen başka bir büyük model yok.

Değerin Ankraj Noktası

Bu yılın Ağustos ayında, "OpenAI'nın 2024 sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nin para harcama hızı çok yüksek.

Metinde belirtildiği gibi, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararları hızla büyüdü; sadece 2022'de yaklaşık 540 milyon dolar zarar etti ve sadece yatırımcıların ödeme yapmasını bekleyebilir.

Makale başlığı dikkat çekici olsa da, birçok büyük model sağlayıcısının durumunu da ortaya koyuyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.

Yüksek maliyetler, şu anda yapay zeka ile büyük para kazananların yalnızca Nvidia olduğunu ve en fazla Broadcom'un eklendiğini gösteriyor.

Danışmanlık şirketlerinin tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satmış. Bu, AI eğitimi için son derece verimli bir AI çipi ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları tarafından kapışılıyor. Eğer bu 300.000 H100 bir araya getirilirse, ağırlığı 4,5 Boeing 747 uçağına eşit olur.

NVIDIA'nın performansı buna bağlı olarak fırladı, yıllık gelir %854 artarak Wall Street'i şok etti. Şu anda H100'ün ikinci el piyasadaki fiyatı 40-50 bin dolar olarak speküle ediliyor, oysa malzeme maliyeti yalnızca yaklaşık 3000 dolar.

Yüksek hesaplama gücü maliyetleri, bir dereceye kadar endüstri gelişiminin önündeki engellerden biri haline gelmiştir. Bir sermaye kuruluşu, dünya genelindeki teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcayacağını tahmin etti; buna karşılık, büyük modellerin yılda en fazla 75 milyar dolar gelir üretebileceği, arada en az 125 milyar dolarlık bir açık bulunduğu belirtilmektedir.

Ayrıca, Midjourney gibi birkaç istisna dışında, çoğu yazılım şirketi büyük maliyetler yatırdıktan sonra hâlâ kâr modeli üzerine net bir düşünce geliştirmiş değil. Özellikle sektörün iki büyük lideri - Microsoft ve Adobe'nun adımları biraz tökezliyor.

Microsoft ve OpenAI'nin iş birliğiyle geliştirilen AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, altyapı maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu bağlamda, 30 dolarlık fiyatla satılan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.

Aynı şekilde, yeni çıkan Firefly AI aracını tanıtan Adobe, kullanıcıların aşırı kullanımının şirkete zarar vermesini önlemek için hızlıca bir puan sistemi başlattı. Kullanıcılar aylık tahsis edilen puanı aştığında, Adobe hizmet hızını azaltacaktır.

Microsoft ve Adobe'nin iş senaryolarının net olduğu ve büyük miktarda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Çoğu büyük parametreli modelin en önemli uygulama senaryosu hala sohbet.

Inkâr edilemez ki, OpenAI ve ChatGPT'nin ortaya çıkışı olmasaydı, bu AI devrimi muhtemelen gerçekleşmeyecekti; ancak şu anda, büyük modellerin eğitilmesiyle yaratılan değerin hala tartışmaya açık olduğu söylenebilir.

Ayrıca, homojenleşen rekabetin artması ve açık kaynaklı modellerin sayısının artmasıyla, yalnızca büyük model tedarikçilerinin gelişim alanı daha da kısıtlı hale gelebilir.

iPhone 4'ün başarısı 45nm süreçli A4 işlemcisinden değil, bitkilerle zombiler arasında savaş ve öfkeli kuşlar gibi oyunları oynayabilmesinden kaynaklanıyor.

View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 5
  • Share
Comment
0/400
OnChainSleuthvip
· 20h ago
Bu sadece sıralamaları artırmakla ilgili.
View OriginalReply0
rekt_but_resilientvip
· 20h ago
Deve ve kartal neden hâlâ kavga ediyor?
View OriginalReply0
FastLeavervip
· 21h ago
Ah, teknoloji dünyasında da hayvan dövüşleri oynanmaya başlandı.
View OriginalReply0
FlashLoanKingvip
· 21h ago
Sadece iki hayvan kavga ediyor, sana coin satın almanı tavsiye etmiyorum.
View OriginalReply0
NFTragedyvip
· 21h ago
Yırtıcı kuşlar deveye zorbalık ediyor öyle mi?
View OriginalReply0
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate app
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)