Evaluasi keandalan model GPT mengungkapkan potensi kerentanan dan risiko privasi

2025-07-13 06:51:33

Pembuatan abstrak sedang berlangsung

Penelitian Penilaian Keandalan Model Bahasa

Universitas Illinois di Champaign bekerja sama dengan beberapa universitas dan lembaga penelitian untuk meluncurkan platform evaluasi kredibilitas besar untuk model bahasa (LLMs), dan diperkenalkan dalam makalah terbaru berjudul "DecodingTrust: Evaluasi Komprehensif Kredibilitas Model GPT."

Tim penelitian telah melakukan evaluasi menyeluruh terhadap model GPT dan menemukan beberapa kerentanan yang sebelumnya belum dipublikasikan. Misalnya, model GPT rentan untuk menghasilkan output yang beracun dan bias, serta berpotensi membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal dibandingkan GPT-3.5, ketika menghadapi prompt yang dirancang dengan jahat, GPT-4 justru lebih mudah diserang, mungkin karena ia lebih ketat dalam mengikuti instruksi yang menyesatkan.

Penelitian ini melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut pandang kredibilitas, termasuk ketahanan terhadap serangan adversarial teks, serta adaptasi terhadap instruksi tugas yang berbeda dan prompt sistem. Evaluasi dilakukan dengan menggunakan berbagai skenario, tugas, metrik, dan dataset.

Hasil menunjukkan bahwa model GPT menunjukkan performa yang luar biasa dalam beberapa aspek, seperti tidak terpengaruh oleh contoh kontra faktual. Namun, ada juga beberapa masalah, seperti mudah terpengaruh oleh petunjuk sistem yang menyesatkan dan menghasilkan konten yang bias, terutama GPT-4 lebih mudah terpengaruh. Tingkat bias model juga terkait dengan topik tertentu, dengan bias yang lebih kecil terhadap beberapa topik sensitif.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT mungkin dapat membocorkan informasi sensitif dari data pelatihan, seperti alamat email. GPT-4 lebih kuat dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi dalam beberapa kasus masih dapat membocorkan privasi.

Penelitian ini menyediakan tolok ukur yang komprehensif untuk mengevaluasi keandalan model bahasa, membantu menemukan kerentanan potensial dan mendorong pengembangan model yang lebih dapat diandalkan. Tim peneliti berharap pekerjaan ini dapat mendorong akademisi untuk terus melakukan penelitian lebih mendalam di atas dasar ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat dipercaya.

GPT2.22%

Lihat Asli

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

14 Suka