أصدرت جامعة إلينوي في إربانا شامبين بالتعاون مع العديد من الجامعات والمؤسسات البحثية منصة تقييم موثوقية شاملة لنماذج اللغة الكبيرة (LLMs)، وقد تم تقديمها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أجرى فريق البحث تقييمًا شاملاً لموثوقية نموذج GPT، واكتشفوا بعض الثغرات التي لم يتم الإعلان عنها سابقًا. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يكشف عن بيانات التدريب ومعلومات الخصوصية في سجل المحادثات. على الرغم من أنه في الاختبارات القياسية، يكون GPT-4 عادةً أكثر موثوقية من GPT-3.5، إلا أنه عندما يواجه مطالبات مصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجمات، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
تم تقييم نموذج GPT بشكل شامل من 8 زوايا موثوقة، بما في ذلك متانة النموذج ضد الهجمات النصية المعاكسة، وقدرته على التكيف مع تعليمات المهام المختلفة والنصوص التوجيهية. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
أظهرت النتائج أن نموذج GPT يتفوق في بعض الجوانب، مثل عدم الانحراف بسبب أمثلة غير واقعية. ومع ذلك، هناك بعض المشكلات، مثل سهولة تأثره بالتوجيهات المضللة التي تؤدي إلى محتوى متحيز، وخاصة أن GPT-4 أكثر عرضة للتأثر. يرتبط مستوى التحيز في النموذج أيضًا بالموضوع المحدد، حيث يكون التحيز أقل في بعض المواضيع الحساسة.
فيما يتعلق بحماية الخصوصية، وجدت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، مثل عناوين البريد الإلكتروني. يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنة بـ GPT-3.5، ولكن في بعض الحالات قد لا يزال يكشف عن الخصوصية.
توفر هذه الدراسة معيارًا شاملاً لتقييم موثوقية نماذج اللغة، مما يساعد على اكتشاف الثغرات المحتملة ويدفع تطوير نماذج أكثر موثوقية. يأمل فريق البحث أن تعزز هذه الجهود المجتمع الأكاديمي لمواصلة البحث في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أقوى وأكثر موثوقية.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
تسجيلات الإعجاب 14
أعجبني
14
8
مشاركة
تعليق
0/400
AirdropHuntress
· منذ 8 س
آه، لقد رأيت البيانات، بالفعل تكشف عن مخاطر خصوصية كبيرة.
شاهد النسخة الأصليةرد0
MevShadowranger
· منذ 11 س
إذا لم يكن بالإمكان الجري، فلا يمكن الجري.
شاهد النسخة الأصليةرد0
SerLiquidated
· منذ 18 س
ليس كذلك، هل له علاقة بالأمن الوطني؟
شاهد النسخة الأصليةرد0
DarkPoolWatcher
· منذ 18 س
الثغرات كثيرة جداً، كل شيء يمكن أن يُفخ لك.
شاهد النسخة الأصليةرد0
MEV_Whisperer
· منذ 18 س
نعم، النموذج يحتاج إلى ترقية.
شاهد النسخة الأصليةرد0
HappyToBeDumped
· منذ 18 س
يجب تحديث النموذج مرة أخرى
شاهد النسخة الأصليةرد0
CounterIndicator
· منذ 18 س
هذا الجي بي تي حقاً لا يعمل، أليس ذكاءً اصطناعيًا؟ ابدأ بالاستثمار.
تقييم موثوقية نموذج GPT يكشف عن ثغرات محتملة ومخاطر الخصوصية
دراسة تقييم موثوقية نماذج اللغة
أصدرت جامعة إلينوي في إربانا شامبين بالتعاون مع العديد من الجامعات والمؤسسات البحثية منصة تقييم موثوقية شاملة لنماذج اللغة الكبيرة (LLMs)، وقد تم تقديمها في الورقة البحثية الأخيرة "DecodingTrust: تقييم شامل لموثوقية نماذج GPT".
أجرى فريق البحث تقييمًا شاملاً لموثوقية نموذج GPT، واكتشفوا بعض الثغرات التي لم يتم الإعلان عنها سابقًا. على سبيل المثال، يميل نموذج GPT إلى إنتاج مخرجات سامة ومتحيزة، وقد يكشف عن بيانات التدريب ومعلومات الخصوصية في سجل المحادثات. على الرغم من أنه في الاختبارات القياسية، يكون GPT-4 عادةً أكثر موثوقية من GPT-3.5، إلا أنه عندما يواجه مطالبات مصممة بشكل خبيث، يصبح GPT-4 أكثر عرضة للهجمات، ربما لأنه يتبع التعليمات المضللة بشكل أكثر صرامة.
تم تقييم نموذج GPT بشكل شامل من 8 زوايا موثوقة، بما في ذلك متانة النموذج ضد الهجمات النصية المعاكسة، وقدرته على التكيف مع تعليمات المهام المختلفة والنصوص التوجيهية. تم استخدام مجموعة متنوعة من السيناريوهات والمهام والمعايير ومجموعات البيانات في التقييم.
أظهرت النتائج أن نموذج GPT يتفوق في بعض الجوانب، مثل عدم الانحراف بسبب أمثلة غير واقعية. ومع ذلك، هناك بعض المشكلات، مثل سهولة تأثره بالتوجيهات المضللة التي تؤدي إلى محتوى متحيز، وخاصة أن GPT-4 أكثر عرضة للتأثر. يرتبط مستوى التحيز في النموذج أيضًا بالموضوع المحدد، حيث يكون التحيز أقل في بعض المواضيع الحساسة.
فيما يتعلق بحماية الخصوصية، وجدت الأبحاث أن نماذج GPT قد تكشف عن معلومات حساسة في بيانات التدريب، مثل عناوين البريد الإلكتروني. يعتبر GPT-4 أكثر قوة في حماية المعلومات الشخصية مقارنة بـ GPT-3.5، ولكن في بعض الحالات قد لا يزال يكشف عن الخصوصية.
توفر هذه الدراسة معيارًا شاملاً لتقييم موثوقية نماذج اللغة، مما يساعد على اكتشاف الثغرات المحتملة ويدفع تطوير نماذج أكثر موثوقية. يأمل فريق البحث أن تعزز هذه الجهود المجتمع الأكاديمي لمواصلة البحث في هذا المجال، والعمل معًا على إنشاء نماذج لغوية أقوى وأكثر موثوقية.