معركة المئة نموذج في مجال الذكاء الاصطناعي: من الابتكار الأكاديمي إلى التكنولوجيا الهندسية
في الشهر الماضي، اندلعت "حرب الحيوانات" في مجال الذكاء الاصطناعي.
من جهة أخرى، أطلقت ميتا لاما (لاما) (الجمل الأمريكي). وبفضل خاصيتها المفتوحة المصدر، لاقت ترحيباً كبيراً في مجتمع المطورين. بعد دراسة ورقة لاما ومصدرها من قبل شركة نيبون إلكتريك، طورت بسرعة النسخة اليابانية من ChatGPT، مما حلّ المشكلة التقنية التي كانت تعاني منها اليابان في مجال الذكاء الاصطناعي.
الطرف الآخر هو نموذج كبير يسمى فالكون. في مايو من هذا العام، ظهر فالكون-40B، متجاوزًا اللاما واحتل المرتبة الأولى في "قائمة نماذج اللغة مفتوحة المصدر".
تم إعداد هذه القائمة من قبل مجتمع نماذج المصدر المفتوح، وتوفر معيارًا لتقييم قدرات LLM. القائمة الأساسية هي في الأساس تناوب بين Llama و Falcon.
بعد إطلاق Llama 2، تفوقت عائلة ألباكا؛ ولكن بحلول أوائل سبتمبر، أطلق Falcon نسخة 180B، وحقق مرة أخرى مرتبة أعلى.
من المثير للاهتمام أن مطوري "الصقر" هم معهد الابتكار التكنولوجي في أبوظبي، عاصمة الإمارات. وأفاد مسؤولون حكوميون أنهم يشاركون في هذا المجال من أجل زعزعة اللاعبين الرئيسيين.
في اليوم الثاني من إصدار النسخة 180B، تم اختيار وزير الذكاء الاصطناعي في الإمارات العربية المتحدة ضمن "أكثر 100 شخصية تأثيراً في مجال الذكاء الاصطناعي"؛ ومن بين الذين تم اختيارهم أيضاً "أب الذكاء الاصطناعي" جيفري هينتون، وآلتمان من OpenAI، ومؤسس بايدو لي يانهونغ.
لقد دخلت مجالات الذكاء الاصطناعي اليوم مرحلة "تسابق الأبطال": حيث تعمل الدول والشركات ذات القوة المالية على بناء نماذج لغوية ضخمة خاصة بها إلى حد ما. في دائرة دول الخليج، هناك أكثر من لاعب واحد فقط - في أغسطس، اشترت المملكة العربية السعودية أكثر من 3000 شريحة H100 للجامعات المحلية، لاستخدامها في تدريب LLM.
علق بعض المستثمرين على وسائل التواصل الاجتماعي قائلين: "في ذلك الوقت، لم أكن أقدر الابتكارات في نماذج الأعمال عبر الإنترنت، وكنت أعتقد أنها بلا حواجز: معركة مئات الفرق، ومعركة مئات السيارات، ومعركة مئات البث؛ لم أكن أتوقع أن ريادة الأعمال في النماذج الكبيرة للتكنولوجيا الصلبة لا تزال معركة مئات النماذج..."
كيف أصبح المجال الذي كان يُعتبر في الأصل تقنية صعبة يمكن للجميع المشاركة فيه؟
Transformer يغير قواعد اللعبة
إن الشركات الناشئة في الولايات المتحدة، والعمالقة التكنولوجيون في الصين، وأباطرة النفط في الشرق الأوسط قادرون على الانغماس في مجال النماذج الكبيرة بفضل تلك الورقة البحثية الشهيرة: "Attention Is All You Need".
في عام 2017، قام 8 علماء كمبيوتر من جوجل بنشر خوارزمية Transformer في هذه الورقة. هذه الورقة هي حالياً ثالث أكثر ورقة تم الاستشهاد بها في تاريخ الذكاء الاصطناعي، وظهور Transformer أصبح محفزاً لهذه الجولة من ازدهار الذكاء الاصطناعي.
تستند النماذج الكبيرة الحالية، بما في ذلك سلسلة GPT التي أحدثت ضجة عالمية، إلى قاعدة Transformer.
قبل ذلك، كانت "تعليم الآلات القراءة" تعتبر مشكلة أكاديمية معترف بها. على عكس التعرف على الصور، فإن القراءة البشرية لا تركز فقط على الكلمات والعبارات الحالية، بل تجمع أيضًا بين الفهم والسياق. كانت المدخلات في الشبكات العصبية المبكرة مستقلة عن بعضها البعض، لذلك لم تكن قادرة على فهم النصوص الطويلة أو حتى المقالات الكاملة، مما أدى إلى حدوث بعض الأخطاء في الترجمة.
في عام 2014، انتقل عالم الكمبيوتر إيليا (Ilya Sutskever) من العمل في جوجل إلى OpenAI وحقق إنجازاً. استخدم الشبكات العصبية التكرارية (RNN) لمعالجة اللغة الطبيعية، مما جعل أداء ترجمة جوجل يتفوق بسرعة على المنافسين.
اقترح RNN "تصميم دائري"، مما يسمح لكل خلية عصبية بقبول المدخلات الحالية وكذلك مدخلات اللحظة السابقة، وبالتالي اكتساب القدرة على "ربط السياق". أثار ظهور RNN حماسًا بحثيًا في الأوساط الأكاديمية، ودرس مؤلفو ورقة Transformer، شازير ( Noam Shazeer )، الموضوع بعمق.
ومع ذلك، أدرك المطورون بسرعة أن RNN لديها عيوب خطيرة: يستخدم هذا الخوارزمية حسابًا تسلسليًا، على الرغم من أنه حل مشكلة السياق، إلا أن كفاءة التشغيل ليست عالية، ويصعب التعامل مع عدد كبير من المعلمات.
سرعان ما جعل التصميم المعقد لشبكات RNN شازيل يشعر بالملل. لذلك، بدأ شازيل وسبعة من زملائه في تطوير بديل لشبكات RNN منذ عام 2015، وكانت النتيجة هي Transformer.
بالنسبة لـ RNN، يتمتع Transformer بإصلاحين رئيسيين:
أولاً، تم استبدال التصميم الدوري بتشفير المواقع، مما يحقق حسابات متوازية، ويزيد بشكل كبير من كفاءة التدريب، وبالتالي يمكن معالجة كميات هائلة من البيانات، مما يدفع الذكاء الاصطناعي نحو عصر النماذج الكبيرة؛ ثانياً، تم تعزيز القدرة على فهم السياق بشكل أكبر.
مع حل Transformer للعديد من المشكلات دفعة واحدة، أصبح تدريجياً الحل السائد في معالجة اللغة الطبيعية، مما يعطي شعوراً بأن "إذا لم يكن هناك Transformer، ستظل معالجة اللغة الطبيعية في ظلام دامس إلى الأبد". حتى إليا تخلى عن RNN الذي ابتكره، وبدلاً من ذلك دعم Transformer.
باختصار، جعلت Transformer النماذج الكبيرة تتحول من بحث نظري إلى مشكلة هندسية بحتة.
في عام 2019، طورت OpenAI نموذج GPT-2 المستند إلى Transformer، مما أثار إعجاب المجتمع الأكاديمي. وفي رد سريع، أطلقت شركة جوجل ذكاءً اصطناعيًا أقوى يسمى Meena.
بالمقارنة مع GPT-2، لا توجد ابتكارات في الخوارزمية الأساسية لـ Meena، فقط زادت كمية المعلمات بمقدار 8.5 مرة، وزادت قوة الحوسبة بمقدار 14 مرة. كان المؤلف شازيل، الذي كتب ورقة Transformer، مذهولًا من هذه الطريقة "المتراكمة بعنف"، فكتب على الفور ملاحظة بعنوان "Meena تلتهم العالم".
ظهور Transformer قد أدى إلى تباطؤ ملحوظ في خطوات الابتكار في الخوارزميات الأساسية في الأوساط الأكاديمية. أصبحت عناصر الهندسة مثل هندسة البيانات، وحجم القدرة الحاسوبية، وبنية النموذج، عوامل أساسية في المنافسة في الذكاء الاصطناعي. يمكن لأي شركة تكنولوجيا تمتلك قدرات تقنية معينة تطوير نماذج كبيرة.
لذلك، قال عالم الكمبيوتر أندرو نغ خلال محاضرته في جامعة ستانفورد: "الذكاء الاصطناعي هو مجموعة من الأدوات، بما في ذلك التعلم تحت الإشراف، التعلم غير المراقب، التعلم المعزز، وأيضاً الذكاء الاصطناعي التوليدي الحالي. كل هذه تقنيات عامة، مشابهة لتقنيات عامة أخرى مثل الكهرباء والإنترنت."
على الرغم من أن OpenAI لا تزال هي المعيار لـ LLM، إلا أن وكالات تحليل أشباه الموصلات تعتقد أن قوة GPT-4 التنافسية تأتي بشكل رئيسي من الحلول الهندسية - إذا تم فتح المصدر، يمكن لأي منافس نسخها بسرعة.
تتوقع بعض التحليلات أنه قد لا يمر وقت طويل قبل أن تتمكن شركات التكنولوجيا الكبرى الأخرى من تطوير نماذج كبيرة تعادل أداء GPT-4.
حواجز المنافسة الضعيفة
حالياً، "معركة المئة نموذج" لم تعد مجرد بلاغة، بل أصبحت واقعاً موضوعياً.
تشير التقارير ذات الصلة إلى أنه حتى يوليو من هذا العام، بلغ عدد النماذج الكبيرة في الصين 130 نموذجًا، متجاوزة الولايات المتحدة التي لديها 114 نموذجًا، ولم تعد الأساطير المختلفة كافية للاستخدام من قبل شركات التكنولوجيا المحلية في التسمية.
بصرف النظر عن الصين والولايات المتحدة، حققت بعض الدول الغنية الأخرى بشكل أولي "نموذج واحد لكل دولة": اليابان، والإمارات العربية المتحدة، ومبادرة Bhashini التي تقودها الحكومة الهندية، وHyperClova X التي طورتها شركة Naver الكورية.
الوضع الحالي يبدو وكأنه عاد إلى عصر فقاعة الإنترنت، حيث تتدفق رؤوس الأموال من جميع الاتجاهات.
كما ذُكر سابقًا، جعلت تقنية التحويل (Transformer) النماذج الكبيرة مسألة هندسية بحتة، فبمجرد توفر المواهب والتمويل والقدرة الحاسوبية، يمكن إنتاج نماذج كبيرة. ولكن على الرغم من أن عتبة الدخول ليست عالية، إلا أنها لا تعني أن بإمكان الجميع أن يصبحوا عمالقة في عصر الذكاء الاصطناعي.
المثال الكلاسيكي الذي تم ذكره في بداية المقال "حرب الحيوانات" هو: على الرغم من أن الصقر قد تفوق على اللاما في الترتيب، إلا أنه من الصعب القول إنه أثر بشكل كبير على ميتا.
من المعروف أن الشركات تفتح مصادر نتائجها البحثية، وذلك ليس فقط لمشاركة فوائد التكنولوجيا مع المجتمع، ولكن أيضًا تأملاً في الاستفادة من حكمة الجماهير. مع استمرار استخدام وتحسين Llama من قبل أساتذة الجامعات المختلفة، والمؤسسات البحثية، والشركات الصغيرة والمتوسطة، يمكن لشركة ميتا تطبيق هذه النتائج في منتجاتها.
بالنسبة للنماذج الكبيرة مفتوحة المصدر، فإن مجتمع المطورين النشط هو القوة التنافسية الأساسية لها.
في عام 2015، عندما أنشأت ميتا مختبر الذكاء الاصطناعي، وضعت نغمة مفتوحة المصدر؛ زوكربيرغ بدأ من وسائل التواصل الاجتماعي، ويدرك أهمية "الحفاظ على العلاقات مع الجماهير".
على سبيل المثال، في أكتوبر، نظمت ميتا حدثًا خاصًا بعنوان "تحفيز المبدعين بنسخة الذكاء الاصطناعي": المطورون الذين يستخدمون Llama 2 لحل القضايا الاجتماعية مثل التعليم والبيئة، لديهم فرصة للحصول على تمويل قدره 500,000 دولار.
اليوم، أصبحت سلسلة Llama من Meta بمثابة علامة فارقة للنماذج اللغوية الكبيرة مفتوحة المصدر.
حتى بداية أكتوبر، كان هناك 8 من ضمن أفضل 10 في تصنيف LLM مفتوح المصدر يعتمدون على Llama 2، جميعهم استخدموا بروتوكول المصدر المفتوح الخاص به. فقط على هذه المنصة، تجاوز عدد LLMs التي تستخدم بروتوكول Llama 2 المفتوح المصدر 1500.
بالطبع، من الممكن تحسين الأداء مثل Falcon، ولكن في الوقت الحالي لا يزال هناك فجوة واضحة بين معظم نماذج LLM و GPT-4 في السوق.
على سبيل المثال، مؤخرًا، حصل GPT-4 على المركز الأول في اختبار AgentBench بدرجة 4.41. تم إطلاق AgentBench بواسطة جامعة تسينغhua بالتعاون مع العديد من الجامعات الأمريكية، ويهدف إلى تقييم قدرات LLM في مجالات الاستدلال واتخاذ القرار في بيئات توليد مفتوحة متعددة الأبعاد، وتشمل محتويات الاختبار مهام في 8 بيئات مختلفة مثل أنظمة التشغيل، وقواعد البيانات، والرسوم البيانية المعرفية، ومعارك البطاقات وغيرها.
أظهرت نتائج الاختبار أن المركز الثاني Claude حصل فقط على 2.77 نقطة، والفارق واضح. أما بالنسبة لتلك النماذج المفتوحة المصدر ذات الضجيج الكبير، فإن نتائج اختبارها تتراوح عادة حول 1 نقطة، وهو أقل من ربع نقاط GPT-4.
للإدراك، تم إصدار GPT-4 في مارس من هذا العام، وهذا هو نتيجة جهود زملائه في جميع أنحاء العالم الذين حاولوا اللحاق بالركب لأكثر من نصف عام. السبب في هذه الفجوة هو فريق العلماء الممتاز في OpenAI والخبرة المتراكمة من الأبحاث الطويلة في LLM، مما يسمح لهم بالحفاظ على الريادة باستمرار.
أي أنه، ليست القدرة الأساسية للنموذج الكبير هي المعلمات، بل هي بناء النظام البيئي ( مفتوح المصدر ) أو القدرة على الاستدلال الخالص ( مغلق المصدر ).
مع تزايد نشاط المجتمع المفتوح المصدر، قد تتقارب أداءات نماذج اللغة الكبيرة (LLM) لأن الجميع يستخدم هياكل نماذج ومجموعات بيانات مشابهة.
السؤال الآخر الأكثر وضوحًا هو: بخلاف Midjourney، يبدو أنه لا يوجد نموذج كبير آخر قادر على تحقيق الربح حقًا.
نقطة ربط القيمة
في أغسطس من هذا العام، أثار مقال بعنوان "قد تعلن OpenAI إفلاسها في نهاية عام 2024" اهتمامًا. يمكن تلخيص جوهر المقال في جملة واحدة: سرعة حرق الأموال لدى OpenAI سريعة للغاية.
ذكر النص أنه منذ تطوير ChatGPT، توسعت خسائر OpenAI بسرعة، حيث بلغت الخسائر حوالي 540 مليون دولار فقط في عام 2022، ولا يمكن إلا الانتظار حتى يدفع المستثمرون.
على الرغم من أن عنوان المقال يثير الدهشة، إلا أنه يكشف أيضًا عن حالة العديد من مزودي النماذج الكبيرة: اختلال خطير بين التكاليف والعائدات.
التكاليف المرتفعة أدت إلى أن الشركات الوحيدة التي تحقق أرباحًا كبيرة من الذكاء الاصطناعي هي إنفيديا، وربما أيضًا برودكوم.
وفقًا لتقديرات شركة استشارية، باعت شركة إنفيديا أكثر من 300,000 وحدة من H100 في الربع الثاني من هذا العام. هذه شريحة ذكاء اصطناعي، تتمتع بكفاءة عالية في تدريب الذكاء الاصطناعي، وتتنافس شركات التكنولوجيا الكبرى والمؤسسات البحثية على شرائها. إذا تم تكديس هذه الـ 300,000 وحدة من H100 فوق بعضها البعض، فإن وزنها يعادل 4.5 طائرات بوينغ 747.
ارتفعت عائدات إنفيديا بشكل كبير، مع زيادة في الإيرادات بنسبة 854% على أساس سنوي، مما أثار دهشة وول ستريت. من الجدير بالذكر أن سعر H100 في السوق الثانوية قد ارتفع إلى 40-50 ألف دولار، بينما تبلغ تكلفة المواد حوالي 3000 دولار فقط.
أصبحت تكلفة قوة الحوسبة المرتفعة عقبة أمام تطوير الصناعة إلى حد ما. وقد قدرت بعض المؤسسات الاستثمارية أن الشركات التكنولوجية العالمية ستنفق حوالي 200 مليار دولار سنويًا على بناء بنية تحتية للنماذج الكبيرة؛ بالمقارنة، يمكن أن تحقق النماذج الكبيرة إيرادات تصل إلى 75 مليار دولار سنويًا فقط، مما يترك فجوة لا تقل عن 125 مليار دولار.
علاوة على ذلك، باستثناء بعض الاستثناءات مثل Midjourney، لم تفكر معظم شركات البرمجيات في نموذج الربح بعد استثمار مبالغ ضخمة. خاصةً أن خطى رائدي الصناعة الرئيسيين - مايكروسوفت وأدوبي - تبدو متعثرة بعض الشيء.
أداة توليد الكود بالذكاء الاصطناعي GitHub Copilot التي طورتها مايكروسوفت بالتعاون مع OpenAI، على الرغم من أنها تتقاضى 10 دولارات شهريًا، إلا أن مايكروسوفت تخسر 20 دولارًا شهريًا بسبب تكاليف المنشآت، ويمكن أن يتسبب المستخدمون ذوو الاستخدام الثقيل في خسارة مايكروسوفت 80 دولارًا شهريًا. وبناءً على ذلك، يُحتمل أن يكون Microsoft 365 Copilot الذي يتم تسعيره بـ 30 دولارًا أكثر خسارة.
وبالمثل، أطلقت شركة Adobe أداة Firefly AI بسرعة نظام نقاط لمنع الاستخدام المفرط من قبل المستخدمين مما يؤدي إلى خسائر للشركة. بمجرد تجاوز المستخدمين للنقاط المخصصة شهريًا، ستقوم Adobe بتقليل سرعة الخدمة.
يجب أن نعلم أن مايكروسوفت وأدوبي هما بالفعل عمالقة البرمجيات الذين يتمتعون بمشاهد عمل واضحة ولديهم عدد كبير من المستخدمين المدفوعين. في حين أن معظم النماذج الكبيرة والمعقدة، فإن المشهد التطبيقي الرئيسي لها لا يزال هو الدردشة.
لا يمكن إنكار أنه لولا ظهور OpenAI و ChatGPT، ربما لم تكن هذه الثورة في الذكاء الاصطناعي ستحدث على الإطلاق؛ لكن القيمة التي تم إنشاؤها من تدريب النماذج الكبيرة لا تزال موضع نقاش.
ومع زيادة حدة المنافسة المتجانسة، وزيادة عدد النماذج مفتوحة المصدر، قد يصبح مجال تطوير موردي النماذج الكبيرة محدودًا بشكل أكبر.
لم يكن نجاح iPhone 4 ناتجًا عن معالج A4 بتقنية 45nm، بل لأنه كان قادرًا على تشغيل ألعاب مثل Plants vs. Zombies وAngry Birds.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
معركة النماذج المائة للذكاء الاصطناعي: من الابتكار الأكاديمي إلى المنافسة في التكنولوجيا الهندسية
معركة المئة نموذج في مجال الذكاء الاصطناعي: من الابتكار الأكاديمي إلى التكنولوجيا الهندسية
في الشهر الماضي، اندلعت "حرب الحيوانات" في مجال الذكاء الاصطناعي.
من جهة أخرى، أطلقت ميتا لاما (لاما) (الجمل الأمريكي). وبفضل خاصيتها المفتوحة المصدر، لاقت ترحيباً كبيراً في مجتمع المطورين. بعد دراسة ورقة لاما ومصدرها من قبل شركة نيبون إلكتريك، طورت بسرعة النسخة اليابانية من ChatGPT، مما حلّ المشكلة التقنية التي كانت تعاني منها اليابان في مجال الذكاء الاصطناعي.
الطرف الآخر هو نموذج كبير يسمى فالكون. في مايو من هذا العام، ظهر فالكون-40B، متجاوزًا اللاما واحتل المرتبة الأولى في "قائمة نماذج اللغة مفتوحة المصدر".
تم إعداد هذه القائمة من قبل مجتمع نماذج المصدر المفتوح، وتوفر معيارًا لتقييم قدرات LLM. القائمة الأساسية هي في الأساس تناوب بين Llama و Falcon.
بعد إطلاق Llama 2، تفوقت عائلة ألباكا؛ ولكن بحلول أوائل سبتمبر، أطلق Falcon نسخة 180B، وحقق مرة أخرى مرتبة أعلى.
من المثير للاهتمام أن مطوري "الصقر" هم معهد الابتكار التكنولوجي في أبوظبي، عاصمة الإمارات. وأفاد مسؤولون حكوميون أنهم يشاركون في هذا المجال من أجل زعزعة اللاعبين الرئيسيين.
في اليوم الثاني من إصدار النسخة 180B، تم اختيار وزير الذكاء الاصطناعي في الإمارات العربية المتحدة ضمن "أكثر 100 شخصية تأثيراً في مجال الذكاء الاصطناعي"؛ ومن بين الذين تم اختيارهم أيضاً "أب الذكاء الاصطناعي" جيفري هينتون، وآلتمان من OpenAI، ومؤسس بايدو لي يانهونغ.
لقد دخلت مجالات الذكاء الاصطناعي اليوم مرحلة "تسابق الأبطال": حيث تعمل الدول والشركات ذات القوة المالية على بناء نماذج لغوية ضخمة خاصة بها إلى حد ما. في دائرة دول الخليج، هناك أكثر من لاعب واحد فقط - في أغسطس، اشترت المملكة العربية السعودية أكثر من 3000 شريحة H100 للجامعات المحلية، لاستخدامها في تدريب LLM.
علق بعض المستثمرين على وسائل التواصل الاجتماعي قائلين: "في ذلك الوقت، لم أكن أقدر الابتكارات في نماذج الأعمال عبر الإنترنت، وكنت أعتقد أنها بلا حواجز: معركة مئات الفرق، ومعركة مئات السيارات، ومعركة مئات البث؛ لم أكن أتوقع أن ريادة الأعمال في النماذج الكبيرة للتكنولوجيا الصلبة لا تزال معركة مئات النماذج..."
كيف أصبح المجال الذي كان يُعتبر في الأصل تقنية صعبة يمكن للجميع المشاركة فيه؟
Transformer يغير قواعد اللعبة
إن الشركات الناشئة في الولايات المتحدة، والعمالقة التكنولوجيون في الصين، وأباطرة النفط في الشرق الأوسط قادرون على الانغماس في مجال النماذج الكبيرة بفضل تلك الورقة البحثية الشهيرة: "Attention Is All You Need".
في عام 2017، قام 8 علماء كمبيوتر من جوجل بنشر خوارزمية Transformer في هذه الورقة. هذه الورقة هي حالياً ثالث أكثر ورقة تم الاستشهاد بها في تاريخ الذكاء الاصطناعي، وظهور Transformer أصبح محفزاً لهذه الجولة من ازدهار الذكاء الاصطناعي.
تستند النماذج الكبيرة الحالية، بما في ذلك سلسلة GPT التي أحدثت ضجة عالمية، إلى قاعدة Transformer.
قبل ذلك، كانت "تعليم الآلات القراءة" تعتبر مشكلة أكاديمية معترف بها. على عكس التعرف على الصور، فإن القراءة البشرية لا تركز فقط على الكلمات والعبارات الحالية، بل تجمع أيضًا بين الفهم والسياق. كانت المدخلات في الشبكات العصبية المبكرة مستقلة عن بعضها البعض، لذلك لم تكن قادرة على فهم النصوص الطويلة أو حتى المقالات الكاملة، مما أدى إلى حدوث بعض الأخطاء في الترجمة.
في عام 2014، انتقل عالم الكمبيوتر إيليا (Ilya Sutskever) من العمل في جوجل إلى OpenAI وحقق إنجازاً. استخدم الشبكات العصبية التكرارية (RNN) لمعالجة اللغة الطبيعية، مما جعل أداء ترجمة جوجل يتفوق بسرعة على المنافسين.
اقترح RNN "تصميم دائري"، مما يسمح لكل خلية عصبية بقبول المدخلات الحالية وكذلك مدخلات اللحظة السابقة، وبالتالي اكتساب القدرة على "ربط السياق". أثار ظهور RNN حماسًا بحثيًا في الأوساط الأكاديمية، ودرس مؤلفو ورقة Transformer، شازير ( Noam Shazeer )، الموضوع بعمق.
ومع ذلك، أدرك المطورون بسرعة أن RNN لديها عيوب خطيرة: يستخدم هذا الخوارزمية حسابًا تسلسليًا، على الرغم من أنه حل مشكلة السياق، إلا أن كفاءة التشغيل ليست عالية، ويصعب التعامل مع عدد كبير من المعلمات.
سرعان ما جعل التصميم المعقد لشبكات RNN شازيل يشعر بالملل. لذلك، بدأ شازيل وسبعة من زملائه في تطوير بديل لشبكات RNN منذ عام 2015، وكانت النتيجة هي Transformer.
بالنسبة لـ RNN، يتمتع Transformer بإصلاحين رئيسيين:
أولاً، تم استبدال التصميم الدوري بتشفير المواقع، مما يحقق حسابات متوازية، ويزيد بشكل كبير من كفاءة التدريب، وبالتالي يمكن معالجة كميات هائلة من البيانات، مما يدفع الذكاء الاصطناعي نحو عصر النماذج الكبيرة؛ ثانياً، تم تعزيز القدرة على فهم السياق بشكل أكبر.
مع حل Transformer للعديد من المشكلات دفعة واحدة، أصبح تدريجياً الحل السائد في معالجة اللغة الطبيعية، مما يعطي شعوراً بأن "إذا لم يكن هناك Transformer، ستظل معالجة اللغة الطبيعية في ظلام دامس إلى الأبد". حتى إليا تخلى عن RNN الذي ابتكره، وبدلاً من ذلك دعم Transformer.
باختصار، جعلت Transformer النماذج الكبيرة تتحول من بحث نظري إلى مشكلة هندسية بحتة.
في عام 2019، طورت OpenAI نموذج GPT-2 المستند إلى Transformer، مما أثار إعجاب المجتمع الأكاديمي. وفي رد سريع، أطلقت شركة جوجل ذكاءً اصطناعيًا أقوى يسمى Meena.
بالمقارنة مع GPT-2، لا توجد ابتكارات في الخوارزمية الأساسية لـ Meena، فقط زادت كمية المعلمات بمقدار 8.5 مرة، وزادت قوة الحوسبة بمقدار 14 مرة. كان المؤلف شازيل، الذي كتب ورقة Transformer، مذهولًا من هذه الطريقة "المتراكمة بعنف"، فكتب على الفور ملاحظة بعنوان "Meena تلتهم العالم".
ظهور Transformer قد أدى إلى تباطؤ ملحوظ في خطوات الابتكار في الخوارزميات الأساسية في الأوساط الأكاديمية. أصبحت عناصر الهندسة مثل هندسة البيانات، وحجم القدرة الحاسوبية، وبنية النموذج، عوامل أساسية في المنافسة في الذكاء الاصطناعي. يمكن لأي شركة تكنولوجيا تمتلك قدرات تقنية معينة تطوير نماذج كبيرة.
لذلك، قال عالم الكمبيوتر أندرو نغ خلال محاضرته في جامعة ستانفورد: "الذكاء الاصطناعي هو مجموعة من الأدوات، بما في ذلك التعلم تحت الإشراف، التعلم غير المراقب، التعلم المعزز، وأيضاً الذكاء الاصطناعي التوليدي الحالي. كل هذه تقنيات عامة، مشابهة لتقنيات عامة أخرى مثل الكهرباء والإنترنت."
على الرغم من أن OpenAI لا تزال هي المعيار لـ LLM، إلا أن وكالات تحليل أشباه الموصلات تعتقد أن قوة GPT-4 التنافسية تأتي بشكل رئيسي من الحلول الهندسية - إذا تم فتح المصدر، يمكن لأي منافس نسخها بسرعة.
تتوقع بعض التحليلات أنه قد لا يمر وقت طويل قبل أن تتمكن شركات التكنولوجيا الكبرى الأخرى من تطوير نماذج كبيرة تعادل أداء GPT-4.
حواجز المنافسة الضعيفة
حالياً، "معركة المئة نموذج" لم تعد مجرد بلاغة، بل أصبحت واقعاً موضوعياً.
تشير التقارير ذات الصلة إلى أنه حتى يوليو من هذا العام، بلغ عدد النماذج الكبيرة في الصين 130 نموذجًا، متجاوزة الولايات المتحدة التي لديها 114 نموذجًا، ولم تعد الأساطير المختلفة كافية للاستخدام من قبل شركات التكنولوجيا المحلية في التسمية.
بصرف النظر عن الصين والولايات المتحدة، حققت بعض الدول الغنية الأخرى بشكل أولي "نموذج واحد لكل دولة": اليابان، والإمارات العربية المتحدة، ومبادرة Bhashini التي تقودها الحكومة الهندية، وHyperClova X التي طورتها شركة Naver الكورية.
الوضع الحالي يبدو وكأنه عاد إلى عصر فقاعة الإنترنت، حيث تتدفق رؤوس الأموال من جميع الاتجاهات.
كما ذُكر سابقًا، جعلت تقنية التحويل (Transformer) النماذج الكبيرة مسألة هندسية بحتة، فبمجرد توفر المواهب والتمويل والقدرة الحاسوبية، يمكن إنتاج نماذج كبيرة. ولكن على الرغم من أن عتبة الدخول ليست عالية، إلا أنها لا تعني أن بإمكان الجميع أن يصبحوا عمالقة في عصر الذكاء الاصطناعي.
المثال الكلاسيكي الذي تم ذكره في بداية المقال "حرب الحيوانات" هو: على الرغم من أن الصقر قد تفوق على اللاما في الترتيب، إلا أنه من الصعب القول إنه أثر بشكل كبير على ميتا.
من المعروف أن الشركات تفتح مصادر نتائجها البحثية، وذلك ليس فقط لمشاركة فوائد التكنولوجيا مع المجتمع، ولكن أيضًا تأملاً في الاستفادة من حكمة الجماهير. مع استمرار استخدام وتحسين Llama من قبل أساتذة الجامعات المختلفة، والمؤسسات البحثية، والشركات الصغيرة والمتوسطة، يمكن لشركة ميتا تطبيق هذه النتائج في منتجاتها.
بالنسبة للنماذج الكبيرة مفتوحة المصدر، فإن مجتمع المطورين النشط هو القوة التنافسية الأساسية لها.
في عام 2015، عندما أنشأت ميتا مختبر الذكاء الاصطناعي، وضعت نغمة مفتوحة المصدر؛ زوكربيرغ بدأ من وسائل التواصل الاجتماعي، ويدرك أهمية "الحفاظ على العلاقات مع الجماهير".
على سبيل المثال، في أكتوبر، نظمت ميتا حدثًا خاصًا بعنوان "تحفيز المبدعين بنسخة الذكاء الاصطناعي": المطورون الذين يستخدمون Llama 2 لحل القضايا الاجتماعية مثل التعليم والبيئة، لديهم فرصة للحصول على تمويل قدره 500,000 دولار.
اليوم، أصبحت سلسلة Llama من Meta بمثابة علامة فارقة للنماذج اللغوية الكبيرة مفتوحة المصدر.
حتى بداية أكتوبر، كان هناك 8 من ضمن أفضل 10 في تصنيف LLM مفتوح المصدر يعتمدون على Llama 2، جميعهم استخدموا بروتوكول المصدر المفتوح الخاص به. فقط على هذه المنصة، تجاوز عدد LLMs التي تستخدم بروتوكول Llama 2 المفتوح المصدر 1500.
بالطبع، من الممكن تحسين الأداء مثل Falcon، ولكن في الوقت الحالي لا يزال هناك فجوة واضحة بين معظم نماذج LLM و GPT-4 في السوق.
على سبيل المثال، مؤخرًا، حصل GPT-4 على المركز الأول في اختبار AgentBench بدرجة 4.41. تم إطلاق AgentBench بواسطة جامعة تسينغhua بالتعاون مع العديد من الجامعات الأمريكية، ويهدف إلى تقييم قدرات LLM في مجالات الاستدلال واتخاذ القرار في بيئات توليد مفتوحة متعددة الأبعاد، وتشمل محتويات الاختبار مهام في 8 بيئات مختلفة مثل أنظمة التشغيل، وقواعد البيانات، والرسوم البيانية المعرفية، ومعارك البطاقات وغيرها.
أظهرت نتائج الاختبار أن المركز الثاني Claude حصل فقط على 2.77 نقطة، والفارق واضح. أما بالنسبة لتلك النماذج المفتوحة المصدر ذات الضجيج الكبير، فإن نتائج اختبارها تتراوح عادة حول 1 نقطة، وهو أقل من ربع نقاط GPT-4.
للإدراك، تم إصدار GPT-4 في مارس من هذا العام، وهذا هو نتيجة جهود زملائه في جميع أنحاء العالم الذين حاولوا اللحاق بالركب لأكثر من نصف عام. السبب في هذه الفجوة هو فريق العلماء الممتاز في OpenAI والخبرة المتراكمة من الأبحاث الطويلة في LLM، مما يسمح لهم بالحفاظ على الريادة باستمرار.
أي أنه، ليست القدرة الأساسية للنموذج الكبير هي المعلمات، بل هي بناء النظام البيئي ( مفتوح المصدر ) أو القدرة على الاستدلال الخالص ( مغلق المصدر ).
مع تزايد نشاط المجتمع المفتوح المصدر، قد تتقارب أداءات نماذج اللغة الكبيرة (LLM) لأن الجميع يستخدم هياكل نماذج ومجموعات بيانات مشابهة.
السؤال الآخر الأكثر وضوحًا هو: بخلاف Midjourney، يبدو أنه لا يوجد نموذج كبير آخر قادر على تحقيق الربح حقًا.
نقطة ربط القيمة
في أغسطس من هذا العام، أثار مقال بعنوان "قد تعلن OpenAI إفلاسها في نهاية عام 2024" اهتمامًا. يمكن تلخيص جوهر المقال في جملة واحدة: سرعة حرق الأموال لدى OpenAI سريعة للغاية.
ذكر النص أنه منذ تطوير ChatGPT، توسعت خسائر OpenAI بسرعة، حيث بلغت الخسائر حوالي 540 مليون دولار فقط في عام 2022، ولا يمكن إلا الانتظار حتى يدفع المستثمرون.
على الرغم من أن عنوان المقال يثير الدهشة، إلا أنه يكشف أيضًا عن حالة العديد من مزودي النماذج الكبيرة: اختلال خطير بين التكاليف والعائدات.
التكاليف المرتفعة أدت إلى أن الشركات الوحيدة التي تحقق أرباحًا كبيرة من الذكاء الاصطناعي هي إنفيديا، وربما أيضًا برودكوم.
وفقًا لتقديرات شركة استشارية، باعت شركة إنفيديا أكثر من 300,000 وحدة من H100 في الربع الثاني من هذا العام. هذه شريحة ذكاء اصطناعي، تتمتع بكفاءة عالية في تدريب الذكاء الاصطناعي، وتتنافس شركات التكنولوجيا الكبرى والمؤسسات البحثية على شرائها. إذا تم تكديس هذه الـ 300,000 وحدة من H100 فوق بعضها البعض، فإن وزنها يعادل 4.5 طائرات بوينغ 747.
ارتفعت عائدات إنفيديا بشكل كبير، مع زيادة في الإيرادات بنسبة 854% على أساس سنوي، مما أثار دهشة وول ستريت. من الجدير بالذكر أن سعر H100 في السوق الثانوية قد ارتفع إلى 40-50 ألف دولار، بينما تبلغ تكلفة المواد حوالي 3000 دولار فقط.
أصبحت تكلفة قوة الحوسبة المرتفعة عقبة أمام تطوير الصناعة إلى حد ما. وقد قدرت بعض المؤسسات الاستثمارية أن الشركات التكنولوجية العالمية ستنفق حوالي 200 مليار دولار سنويًا على بناء بنية تحتية للنماذج الكبيرة؛ بالمقارنة، يمكن أن تحقق النماذج الكبيرة إيرادات تصل إلى 75 مليار دولار سنويًا فقط، مما يترك فجوة لا تقل عن 125 مليار دولار.
علاوة على ذلك، باستثناء بعض الاستثناءات مثل Midjourney، لم تفكر معظم شركات البرمجيات في نموذج الربح بعد استثمار مبالغ ضخمة. خاصةً أن خطى رائدي الصناعة الرئيسيين - مايكروسوفت وأدوبي - تبدو متعثرة بعض الشيء.
أداة توليد الكود بالذكاء الاصطناعي GitHub Copilot التي طورتها مايكروسوفت بالتعاون مع OpenAI، على الرغم من أنها تتقاضى 10 دولارات شهريًا، إلا أن مايكروسوفت تخسر 20 دولارًا شهريًا بسبب تكاليف المنشآت، ويمكن أن يتسبب المستخدمون ذوو الاستخدام الثقيل في خسارة مايكروسوفت 80 دولارًا شهريًا. وبناءً على ذلك، يُحتمل أن يكون Microsoft 365 Copilot الذي يتم تسعيره بـ 30 دولارًا أكثر خسارة.
وبالمثل، أطلقت شركة Adobe أداة Firefly AI بسرعة نظام نقاط لمنع الاستخدام المفرط من قبل المستخدمين مما يؤدي إلى خسائر للشركة. بمجرد تجاوز المستخدمين للنقاط المخصصة شهريًا، ستقوم Adobe بتقليل سرعة الخدمة.
يجب أن نعلم أن مايكروسوفت وأدوبي هما بالفعل عمالقة البرمجيات الذين يتمتعون بمشاهد عمل واضحة ولديهم عدد كبير من المستخدمين المدفوعين. في حين أن معظم النماذج الكبيرة والمعقدة، فإن المشهد التطبيقي الرئيسي لها لا يزال هو الدردشة.
لا يمكن إنكار أنه لولا ظهور OpenAI و ChatGPT، ربما لم تكن هذه الثورة في الذكاء الاصطناعي ستحدث على الإطلاق؛ لكن القيمة التي تم إنشاؤها من تدريب النماذج الكبيرة لا تزال موضع نقاش.
ومع زيادة حدة المنافسة المتجانسة، وزيادة عدد النماذج مفتوحة المصدر، قد يصبح مجال تطوير موردي النماذج الكبيرة محدودًا بشكل أكبر.
لم يكن نجاح iPhone 4 ناتجًا عن معالج A4 بتقنية 45nm، بل لأنه كان قادرًا على تشغيل ألعاب مثل Plants vs. Zombies وAngry Birds.