اللامركزية التدريب: استكشاف الكأس المقدسة في مجال الذكاء الاصطناعي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد وأعلىها من حيث المتطلبات التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلية. مقارنةً بمرحلة الاستدلال التي تتطلب استدعاء خفيف الوزن، يحتاج عملية التدريب إلى استثمار مستمر في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من وجهة نظر نماذج العمارة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، حيث يتم تنسيق تشغيل جميع المكونات من الأجهزة والبرامج الأساسية ونظام جدولة المجموعات إلى إطار التدريب بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية العميقة المتكاملة تحقيق أقصى كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآليات تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، ولديها مزايا الكفاءة العالية، والموارد القابلة للتحكم، ولكنها تعاني في الوقت نفسه من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهام تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود حساب وتخزين الآلة الواحدة. على الرغم من أن لديه خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن النظام ككل لا يزال يتم التحكم فيه وتنسيقه بواسطة مؤسسة مركزية، وغالبًا ما يعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التوازي البياني: كل عقدة تدرب معلمات بيانات مختلفة ويتم مشاركة الوزن النموذجي، يجب أن تتطابق.
التوازي النموذجي: نشر أجزاء مختلفة من النموذج على عقد مختلفة لتحقيق قابلية التوسع العالية
توازي الأنابيب: تنفيذ متسلسل على مراحل، لزيادة معدل النقل
التوازي المتجه: تقسيم دقيق لحساب المصفوفات، وزيادة حجم التوازي
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير لمجموعة من الموظفين في "مكاتب" متعددة عن بُعد لإكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
تمثل تدريبات اللامركزية مسارًا مستقبليًا يتمتع بمزيد من الانفتاح وخصائص مقاومة الرقابة. تتمثل السمة الأساسية في: يمكن أن تكون العديد من العقد التي لا تثق ببعضها البعض ( أجهزة كمبيوتر منزلية أو وحدات معالجة رسومات سحابية أو أجهزة حافة ) تعمل بالتعاون في إكمال مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تحرك توزيع المهام والتعاون، واستفادة من آليات تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
صعوبة التوافق بين الأجهزة المتنوعة وتقسيم المهام: صعوبة تنسيق الأجهزة المتنوعة وكفاءة منخفضة في تقسيم المهام
عنق الزجاجة في كفاءة الاتصال: الاتصال الشبكي غير مستقر، وضوح عنق الزجاجة في مزامنة التدرجات
غياب التنفيذ الموثوق: نقص في بيئة التنفيذ الموثوق، مما يجعل من الصعب التحقق مما إذا كانت العقدة تشارك فعليًا في الحساب
نقص التنسيق الموحد: لا يوجد جهاز تحكم مركزي، توزيع المهام، وآلية التراجع عن الاستثناءات معقدة
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بالهندسة المعمارية للنظام، وبروتوكولات الاتصال، والأمان التشفيري، والآليات الاقتصادية، والتحقق من النموذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز الصدق + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
يعتبر التعلم الفيدرالي شكلًا انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويُناسب السيناريوهات التي تركز على الامتثال للخصوصية مثل الرعاية الصحية والمالية (. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرات التعاون المحلي، ومع ذلك فهو يعتمد على طرف موثوق للتنسيق، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المراقبة" في السيناريوهات التي تتطلب الامتثال للخصوصية، حيث تكون المهام التدريبية، وهياكل الثقة، وآليات الاتصال معتدلة نسبيًا، مما يجعله أكثر ملاءمة كنموذج نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والمسارات الواقعية
من منظور أنماط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو ارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه لا يناسب بطبيعته أن يتم إنجازه بكفاءة بين عقد غير متجانسة وموثوق بها. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وزمن انتقال منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والأخلاقيات، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي تفتقر إلى حوافز التعاون إلى دوافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، القابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام تدريب بعد السلوك مثل RLHF، DPO)، تدريب ووسم البيانات الجماعي، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتمتع بشكل عام بخصائص عالية من التوازي، وانخفاض التداخل، وتحمل القدرة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جداً للتدريب التعاوني عبر الشبكات P2P، بروتوكولات Swarm، والمحسنات الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تكون مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبياً، حيث يمكن رؤية التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسات المعمارية وراء هذه المشاريع الخمسة بالتتابع، واستكشاف الفروق والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
( Prime Intellect: رائد الشبكات التعاونية في التعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
)# 01، هيكل بروتوكول Prime Intellect والهيكل الأساسي للقيمة
![كأس القدر للذكاء الاصطناعي: استكشافات متقدمة في التدريب اللامركزي]###https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp###
(# 02، شرح آلية التدريب الرئيسية لـ Prime Intellect
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة المهام والتنفيذ المصمم خصيصًا من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، وهو مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي للتكيف، ويفصل هيكليًا بين عمليات التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. مقارنةً بعمليات التعلم المراقب التقليدية، يُعتبر PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
#TOPLOC:آلية التحقق من سلوك التدريب الخفيف
TOPLOC)الملاحظة الموثوقة & فحص سياسة المحلية### هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تستخدم لتحديد ما إذا كانت عقدة ما قد أكملت بالفعل تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يتم ذلك من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة، مما يحقق تحققًا هيكليًا خفيف الوزن. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، مما يمثل الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون حاجة للثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية غير مركزية قابلة للتدقيق والتحفيز.
#SHARDCAST: بروتوكول تجميع الوزن غير المتزامن ونشره
SHARDCAST هو بروتوكول نشر وتجميع الوزن المصمم من قبل Prime Intellect، وهو مُحسّن خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق التقارب التدريجي للأوزان وتطورات متعددة. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُعزز SHARDCAST بشكل كبير من قابلية توسيع التدريب اللامركزي وقدرته على تحمل الأخطاء، وهو الأساس الرئيسي لبناء توافق وزن مستقر وتكرار تدريب مستمر.
#OpenDiLoCo:إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات مفتوح المصدر تم تنفيذه بشكل مستقل من قبل فريق Prime Intellect بناءً على فكرة DiLoCo التي اقترحتها DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. هيكله يعتمد على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب تكاليف الاتصال العالية الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج المشترك. بالجمع بين التحديثات غير المتزامنة وآلية تحمل الأخطاء، يجعل OpenDiLoCo من الممكن لمعدات GPU الاستهلاكية والأجهزة الطرفية أن تشارك بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL(Prime Collective Communication Library) هو مكتبة اتصالات خفيفة الوزن تم تصميمها بواسطة Prime Intellect لبيئة تدريب AI اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية في الأجهزة المتغايرة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الهيكل النادر، وضغط التدرج، والتزامن الدقيق المنخفض واستعادة النقاط المقطوعة، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقاً وموثوقة.
(# 03، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق بدون إذن، مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
عقد التدريب: تنفيذ التدريب المحلي، تقديم تحديثات الوزن ومسارات المراقبة
عقد التحقق: استخدام آلية TOPLOC للتحقق من صحة سلوك التدريب والمشاركة في حساب المكافآت وتجميع الاستراتيجيات
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان )SHARDCAST### وتوزيع المكافآت، لتشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
(# 04، INTELLECT-2: إصدار أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بواسطة عقد لامركزية غير موثوقة ومتزامنة، يصل حجم معاييره إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة 100+ عقد GPU متباينة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستمر التدريب لأكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا ما اقترحته Prime Intellect "
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 9
أعجبني
9
6
مشاركة
تعليق
0/400
GasGuru
· 07-10 11:51
قوة الحوسبة لا تزال الأكثر موثوقية عندما تكون مركزة، تفرقت، تفرقت.
شاهد النسخة الأصليةرد0
GhostAddressHunter
· 07-10 07:46
متى سيحدث هذا مرة أخرى؟
شاهد النسخة الأصليةرد0
MidnightSeller
· 07-08 14:28
قوة الحوسبة卷起来了啊
شاهد النسخة الأصليةرد0
BridgeNomad
· 07-08 14:25
تدريب الذكاء الاصطناعي اللامركزي؟ نفس مشاكل الثقة مثل الجسور بصراحة... انتظر حتى نرى أول استغلال كبير
شاهد النسخة الأصليةرد0
JustHereForMemes
· 07-08 14:22
آها، القيام بتدريب الذكاء الاصطناعي الموزع حقًا يتطلب أموالًا كثيرة.
استكشافات متقدمة في تدريب الذكاء الاصطناعي اللامركزي: من Prime Intellect إلى Pluralis
اللامركزية التدريب: استكشاف الكأس المقدسة في مجال الذكاء الاصطناعي
في سلسلة القيمة الكاملة للذكاء الاصطناعي، يعتبر تدريب النماذج هو المرحلة الأكثر استهلاكًا للموارد وأعلىها من حيث المتطلبات التقنية، حيث يحدد مباشرة الحد الأقصى لقدرات النموذج وفعالية تطبيقه الفعلية. مقارنةً بمرحلة الاستدلال التي تتطلب استدعاء خفيف الوزن، يحتاج عملية التدريب إلى استثمار مستمر في قوة الحوسبة الكبيرة، وعمليات معالجة بيانات معقدة، ودعم خوارزميات تحسين عالية الكثافة، مما يجعلها "الصناعة الثقيلة" الحقيقية لبناء أنظمة الذكاء الاصطناعي. من وجهة نظر نماذج العمارة، يمكن تقسيم طرق التدريب إلى أربع فئات: التدريب المركزي، التدريب الموزع، التعلم الفيدرالي، والتدريب اللامركزي الذي يتم مناقشته في هذه المقالة.
تعتبر التدريب المركزي الطريقة التقليدية الأكثر شيوعًا، حيث يتم تنفيذ جميع عمليات التدريب من قبل مؤسسة واحدة داخل مجموعة عالية الأداء محليًا، حيث يتم تنسيق تشغيل جميع المكونات من الأجهزة والبرامج الأساسية ونظام جدولة المجموعات إلى إطار التدريب بواسطة نظام تحكم موحد. تتيح هذه البنية التحتية العميقة المتكاملة تحقيق أقصى كفاءة في مشاركة الذاكرة، ومزامنة التدرجات، وآليات تحمل الأخطاء، مما يجعلها مناسبة جدًا لتدريب نماذج كبيرة مثل GPT وGemini، ولديها مزايا الكفاءة العالية، والموارد القابلة للتحكم، ولكنها تعاني في الوقت نفسه من مشاكل احتكار البيانات، وحواجز الموارد، واستهلاك الطاقة، ومخاطر النقاط الفردية.
التدريب الموزع هو الطريقة السائدة حاليًا في تدريب النماذج الكبيرة، حيث يكمن جوهره في تقسيم مهام تدريب النموذج ثم توزيعها على عدة آلات لتنفيذها بشكل متعاون، وذلك لتجاوز قيود حساب وتخزين الآلة الواحدة. على الرغم من أن لديه خصائص "اللامركزية" من الناحية الفيزيائية، إلا أن النظام ككل لا يزال يتم التحكم فيه وتنسيقه بواسطة مؤسسة مركزية، وغالبًا ما يعمل في بيئة شبكة محلية عالية السرعة، من خلال تقنية NVLink لربط الحافلات عالية السرعة، حيث يقوم العقدة الرئيسية بتنسيق المهام الفرعية بشكل موحد. تشمل الطرق السائدة:
التدريب الموزع هو مزيج من "التحكم المركزي + التنفيذ الموزع"، يشبه توجيه نفس المدير لمجموعة من الموظفين في "مكاتب" متعددة عن بُعد لإكمال المهام. حاليًا، يتم تدريب جميع النماذج الكبيرة الرئيسية تقريبًا بهذه الطريقة.
تمثل تدريبات اللامركزية مسارًا مستقبليًا يتمتع بمزيد من الانفتاح وخصائص مقاومة الرقابة. تتمثل السمة الأساسية في: يمكن أن تكون العديد من العقد التي لا تثق ببعضها البعض ( أجهزة كمبيوتر منزلية أو وحدات معالجة رسومات سحابية أو أجهزة حافة ) تعمل بالتعاون في إكمال مهام التدريب دون وجود منسق مركزي، عادةً من خلال بروتوكولات تحرك توزيع المهام والتعاون، واستفادة من آليات تحفيز مشفرة لضمان نزاهة المساهمات. تشمل التحديات الرئيسية التي تواجه هذا النموذج:
يمكن فهم التدريب اللامركزي على أنه: مجموعة من المتطوعين العالميين، يساهم كل منهم بقوة الحوسبة لتدريب النموذج بشكل تعاوني، لكن "التدريب اللامركزي الكبير القابل للتطبيق حقًا" لا يزال يمثل تحديًا هندسيًا نظاميًا، ويتعلق بالهندسة المعمارية للنظام، وبروتوكولات الاتصال، والأمان التشفيري، والآليات الاقتصادية، والتحقق من النموذج، وغيرها من المستويات، ولكن ما إذا كان يمكن "التعاون بفعالية + تحفيز الصدق + النتائج الصحيحة" لا يزال في مرحلة استكشاف النموذج الأولي المبكر.
يعتبر التعلم الفيدرالي شكلًا انتقالياً بين التوزيع واللامركزية، حيث يركز على الاحتفاظ بالبيانات محليًا، وتجميع معلمات النموذج مركزيًا، ويُناسب السيناريوهات التي تركز على الامتثال للخصوصية مثل الرعاية الصحية والمالية (. يتمتع التعلم الفيدرالي بهيكل هندسي للتدريب الموزع وقدرات التعاون المحلي، ومع ذلك فهو يعتمد على طرف موثوق للتنسيق، ولا يتمتع بخصائص مفتوحة تمامًا ومقاومة للرقابة. يمكن اعتباره نوعًا من "اللامركزية المراقبة" في السيناريوهات التي تتطلب الامتثال للخصوصية، حيث تكون المهام التدريبية، وهياكل الثقة، وآليات الاتصال معتدلة نسبيًا، مما يجعله أكثر ملاءمة كنموذج نشر انتقالي في الصناعة.
حدود التدريب اللامركزي، الفرص والمسارات الواقعية
من منظور أنماط التدريب، فإن التدريب اللامركزي لا يناسب جميع أنواع المهام. في بعض السيناريوهات، بسبب تعقيد هيكل المهمة، أو ارتفاع متطلبات الموارد، أو صعوبة التعاون، فإنه لا يناسب بطبيعته أن يتم إنجازه بكفاءة بين عقد غير متجانسة وموثوق بها. على سبيل المثال، غالبًا ما يعتمد تدريب النماذج الكبيرة على ذاكرة عالية، وزمن انتقال منخفض، وعرض نطاق ترددي عالٍ، مما يجعل من الصعب تقسيمها ومزامنتها بشكل فعال في شبكة مفتوحة؛ المهام التي تتعلق بخصوصية البيانات وقيود السيادة مقيدة بالقوانين والامتثال والأخلاقيات، مما يمنع المشاركة المفتوحة؛ بينما تفتقر المهام التي تفتقر إلى حوافز التعاون إلى دوافع المشاركة الخارجية. تشكل هذه الحدود معًا القيود الواقعية الحالية للتدريب اللامركزي.
لكن هذا لا يعني أن التدريب اللامركزي هو فرضية زائفة. في الواقع، في أنواع المهام الخفيفة الهيكل، سهلة التوازي، القابلة للتحفيز، يظهر التدريب اللامركزي آفاق تطبيق واضحة. بما في ذلك، على سبيل المثال لا الحصر: ضبط LoRA، مهام تدريب بعد السلوك مثل RLHF، DPO)، تدريب ووسم البيانات الجماعي، تدريب نماذج أساسية صغيرة قابلة للتحكم في الموارد، وكذلك سيناريوهات التدريب التعاوني بمشاركة الأجهزة الطرفية. هذه المهام تتمتع بشكل عام بخصائص عالية من التوازي، وانخفاض التداخل، وتحمل القدرة الحاسوبية غير المتجانسة، مما يجعلها مناسبة جداً للتدريب التعاوني عبر الشبكات P2P، بروتوكولات Swarm، والمحسنات الموزعة.
تحليل المشاريع الكلاسيكية للتدريب اللامركزي
في الوقت الحالي، تشمل المشاريع البارزة في مجال التدريب اللامركزي والتعلم الفيدرالي بشكل رئيسي Prime Intellect وPluralis.ai وGensyn وNous Research وFlock.io. من حيث الابتكار التكنولوجي وصعوبة التنفيذ الهندسي، قدمت Prime Intellect وNous Research وPluralis.ai العديد من الاستكشافات الأصلية في تصميم النظام والخوارزميات، مما يمثل الاتجاهات الرائدة في الأبحاث النظرية الحالية؛ بينما تكون مسارات التنفيذ لـ Gensyn وFlock.io واضحة نسبياً، حيث يمكن رؤية التقدم الهندسي الأولي. ستقوم هذه المقالة بتحليل التقنيات الأساسية والهندسات المعمارية وراء هذه المشاريع الخمسة بالتتابع، واستكشاف الفروق والعلاقات التكميلية بينها في نظام تدريب الذكاء الاصطناعي اللامركزي.
( Prime Intellect: رائد الشبكات التعاونية في التعلم المعزز القابل للتحقق من مسارات التدريب
تسعى Prime Intellect إلى بناء شبكة تدريب AI لا تحتاج إلى ثقة، مما يسمح لأي شخص بالمشاركة في التدريب والحصول على مكافآت موثوقة مقابل مساهماته الحسابية. تأمل Prime Intellect من خلال ثلاثة وحدات PRIME-RL + TOPLOC + SHARDCAST في بناء نظام تدريب AI اللامركزي الذي يتمتع بالتحقق، والانفتاح، وآلية تحفيز كاملة.
)# 01، هيكل بروتوكول Prime Intellect والهيكل الأساسي للقيمة
![كأس القدر للذكاء الاصطناعي: استكشافات متقدمة في التدريب اللامركزي]###https://img-cdn.gateio.im/webp-social/moments-69eb6c2dab3d6284b890285c71e7a47f.webp###
(# 02، شرح آلية التدريب الرئيسية لـ Prime Intellect
#PRIME-RL: هيكل مهمة التعلم المعزز غير المتزامن المفكك
PRIME-RL هو إطار نمذجة المهام والتنفيذ المصمم خصيصًا من قبل Prime Intellect لسيناريوهات التدريب اللامركزية، وهو مصمم خصيصًا للشبكات غير المتجانسة والمشاركة غير المتزامنة. يعتمد على التعلم المعزز كهدف رئيسي للتكيف، ويفصل هيكليًا بين عمليات التدريب والاستدلال ورفع الأوزان، مما يسمح لكل عقدة تدريب بإكمال دورة المهام بشكل مستقل محليًا، والتعاون من خلال واجهات معيارية وآليات التحقق والتجميع. مقارنةً بعمليات التعلم المراقب التقليدية، يُعتبر PRIME-RL أكثر ملاءمة لتحقيق التدريب المرن في بيئات بدون جدولة مركزية، مما يقلل من تعقيد النظام ويضع الأساس لدعم المهام المتعددة بالتوازي وتطور الاستراتيجيات.
#TOPLOC:آلية التحقق من سلوك التدريب الخفيف
TOPLOC)الملاحظة الموثوقة & فحص سياسة المحلية### هو آلية جوهرية للتحقق من التدريب اقترحها Prime Intellect، تستخدم لتحديد ما إذا كانت عقدة ما قد أكملت بالفعل تعلم استراتيجية فعالة بناءً على بيانات الملاحظة. على عكس الحلول الثقيلة مثل ZKML، لا يعتمد TOPLOC على إعادة حساب النموذج بالكامل، بل يتم ذلك من خلال تحليل "تسلسل الملاحظة ↔ تحديث الاستراتيجية" بين المسارات المحلية المتسقة، مما يحقق تحققًا هيكليًا خفيف الوزن. إنها المرة الأولى التي يتم فيها تحويل مسارات السلوك أثناء عملية التدريب إلى كائنات يمكن التحقق منها، مما يمثل الابتكار الرئيسي لتحقيق توزيع مكافآت التدريب بدون حاجة للثقة، مما يوفر مسارًا قابلاً للتطبيق لبناء شبكة تدريب تعاونية غير مركزية قابلة للتدقيق والتحفيز.
#SHARDCAST: بروتوكول تجميع الوزن غير المتزامن ونشره
SHARDCAST هو بروتوكول نشر وتجميع الوزن المصمم من قبل Prime Intellect، وهو مُحسّن خصيصًا للبيئات الشبكية الحقيقية التي تتسم باللامركزية، وقيود النطاق الترددي، وتغير حالة العقد. يجمع بين آلية نشر gossip واستراتيجيات التزامن المحلي، مما يسمح لعدة عقد بتقديم تحديثات جزئية باستمرار في حالات عدم التزامن، مما يحقق التقارب التدريجي للأوزان وتطورات متعددة. مقارنةً بأساليب AllReduce المركزية أو المتزامنة، يُعزز SHARDCAST بشكل كبير من قابلية توسيع التدريب اللامركزي وقدرته على تحمل الأخطاء، وهو الأساس الرئيسي لبناء توافق وزن مستقر وتكرار تدريب مستمر.
#OpenDiLoCo:إطار الاتصال غير المتزامن النادر
OpenDiLoCo هو إطار تحسين الاتصالات مفتوح المصدر تم تنفيذه بشكل مستقل من قبل فريق Prime Intellect بناءً على فكرة DiLoCo التي اقترحتها DeepMind، مصمم خصيصًا للتحديات الشائعة في التدريب اللامركزي مثل قيود النطاق الترددي، وتنوع الأجهزة، وعدم استقرار العقد. هيكله يعتمد على التوازي في البيانات، من خلال بناء هياكل طوبولوجية نادرة مثل Ring وExpander وSmall-World، مما يتجنب تكاليف الاتصال العالية الناتجة عن التزامن العالمي، ويعتمد فقط على العقد المجاورة المحلية لإكمال تدريب النموذج المشترك. بالجمع بين التحديثات غير المتزامنة وآلية تحمل الأخطاء، يجعل OpenDiLoCo من الممكن لمعدات GPU الاستهلاكية والأجهزة الطرفية أن تشارك بشكل مستقر في مهام التدريب، مما يعزز بشكل كبير إمكانية المشاركة في التدريب التعاوني العالمي، وهو أحد البنى التحتية الأساسية للاتصالات لبناء شبكة تدريب لامركزية.
#PCCL: مكتبة الاتصالات التعاونية
PCCL(Prime Collective Communication Library) هو مكتبة اتصالات خفيفة الوزن تم تصميمها بواسطة Prime Intellect لبيئة تدريب AI اللامركزية، تهدف إلى حل اختناقات التكيف في المكتبات التقليدية في الأجهزة المتغايرة والشبكات ذات النطاق الترددي المنخفض. تدعم PCCL الهيكل النادر، وضغط التدرج، والتزامن الدقيق المنخفض واستعادة النقاط المقطوعة، ويمكن تشغيلها على وحدات معالجة الرسوميات الاستهلاكية والعقد غير المستقرة، وهي مكون أساسي يدعم قدرة الاتصال غير المتزامن لبروتوكول OpenDiLoCo. لقد عززت بشكل كبير من تحمل عرض النطاق الترددي لشبكة التدريب وتوافق الأجهزة، مما يفتح "آخر كيلومتر" من الأساسيات الاتصالية لبناء شبكة تدريب تعاونية مفتوحة حقاً وموثوقة.
(# 03، شبكة Prime Intellect للتحفيز وتقسيم الأدوار
بنى Prime Intellect شبكة تدريب قابلة للتحقق بدون إذن، مزودة بآلية حوافز اقتصادية، مما يسمح لأي شخص بالمشاركة في المهام والحصول على مكافآت بناءً على المساهمات الحقيقية. يعمل البروتوكول بناءً على ثلاث فئات من الأدوار الأساسية:
تشمل العمليات الأساسية للبروتوكول نشر المهام، تدريب العقد، التحقق من المسارات، تجميع الأوزان )SHARDCAST### وتوزيع المكافآت، لتشكل حلقة تحفيزية تدور حول "سلوك التدريب الحقيقي".
(# 04، INTELLECT-2: إصدار أول نموذج تدريب لامركزي يمكن التحقق منه
أصدرت Prime Intellect في مايو 2025 INTELLECT-2، وهو أول نموذج كبير للتعلم المعزز تم تدريبه بواسطة عقد لامركزية غير موثوقة ومتزامنة، يصل حجم معاييره إلى 32B. تم تدريب نموذج INTELLECT-2 بواسطة 100+ عقد GPU متباينة موزعة عبر ثلاث قارات، باستخدام بنية غير متزامنة بالكامل، واستمر التدريب لأكثر من 400 ساعة، مما يظهر جدوى واستقرار الشبكة التعاونية غير المتزامنة. لا يمثل هذا النموذج مجرد اختراق في الأداء، بل هو أيضًا ما اقترحته Prime Intellect "