Evaluasi keandalan model GPT mengungkapkan potensi kerentanan dan risiko privasi

robot
Pembuatan abstrak sedang berlangsung

Penelitian Penilaian Keandalan Model Bahasa

Universitas Illinois di Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian untuk meluncurkan platform evaluasi kredibilitas besar untuk model bahasa (LLMs), dan diperkenalkan dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT."

Tim penelitian telah melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk menghasilkan output yang beracun dan bias, serta berpotensi membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang, mungkin karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.

Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang kredibilitas, termasuk ketahanan terhadap serangan adversarial teks, serta adaptasi terhadap instruksi tugas yang berbeda dan prompt sistem. Evaluasi dilakukan dengan menggunakan berbagai skenario, tugas, metrik, dan dataset.

Hasil menunjukkan bahwa model GPT menunjukkan performa yang luar biasa dalam beberapa aspek, seperti tidak terpengaruh oleh contoh kontra faktual. Namun, ada juga beberapa masalah, seperti mudah terpengaruh oleh petunjuk sistem yang menyesatkan dan menghasilkan konten yang bias, terutama GPT-4 lebih mudah terpengaruh. Tingkat bias model juga terkait dengan topik tertentu, dengan bias yang lebih kecil terhadap beberapa topik sensitif.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus masih dapat membocorkan privasi.

Penelitian ini menyediakan tolok ukur yang komprehensif untuk mengevaluasi keandalan model bahasa, membantu menemukan kerentanan potensial dan mendorong pengembangan model yang lebih dapat diandalkan. Tim peneliti berharap pekerjaan ini dapat mendorong akademisi untuk terus melakukan penelitian lebih mendalam di atas dasar ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.

Lihat Asli
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Hadiah
  • 8
  • Bagikan
Komentar
0/400
AirdropHuntressvip
· 8jam yang lalu
Eh, melihat data memang mengungkapkan banyak risiko privasi.
Lihat AsliBalas0
MevShadowrangervip
· 11jam yang lalu
Jika tidak bisa berlari, ya tidak bisa berlari.
Lihat AsliBalas0
SerLiquidatedvip
· 18jam yang lalu
Tidak mungkin, apakah ini ada hubungannya dengan keamanan negara?
Lihat AsliBalas0
DarkPoolWatchervip
· 18jam yang lalu
Banyak sekali celah, apa saja bisa dijebakan.
Lihat AsliBalas0
MEV_Whisperervip
· 18jam yang lalu
Hmm, modelnya masih perlu diupgrade.
Lihat AsliBalas0
HappyToBeDumpedvip
· 18jam yang lalu
Model akan diperbarui lagi.
Lihat AsliBalas0
CounterIndicatorvip
· 18jam yang lalu
GPT ini memang tidak berguna, masih kecerdasan buatan juga, ayo top up dulu.
Lihat AsliBalas0
MetaverseHermitvip
· 18jam yang lalu
Tanpa privasi adalah privasi yang terbaik
Lihat AsliBalas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)