Đánh giá độ tin cậy của mô hình GPT tiết lộ lỗ hổng tiềm ẩn và rủi ro về quyền riêng tư

robot
Đang tạo bản tóm tắt

Nghiên cứu đánh giá độ tin cậy của mô hình ngôn ngữ

Đại học Illinois tại Urbana-Champaign đã phối hợp với nhiều trường đại học và tổ chức nghiên cứu để phát hành một nền tảng đánh giá độ tin cậy tổng hợp cho các mô hình ngôn ngữ lớn (LLMs), và đã được giới thiệu trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của các mô hình GPT."

Nhóm nghiên cứu đã thực hiện đánh giá toàn diện về độ tin cậy của mô hình GPT và phát hiện ra một số lỗ hổng chưa được công bố trước đây. Ví dụ, mô hình GPT dễ dàng tạo ra đầu ra độc hại và có thành kiến, và có thể rò rỉ thông tin riêng tư từ dữ liệu đào tạo và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các lời nhắc được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là do nó tuân theo các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nghiên cứu đã đánh giá toàn diện mô hình GPT từ 8 khía cạnh tin cậy, bao gồm khả năng chống lại các cuộc tấn công chống lại văn bản, khả năng thích ứng với các chỉ dẫn nhiệm vụ khác nhau và các gợi ý hệ thống. Đánh giá đã sử dụng nhiều cảnh, nhiệm vụ, chỉ số và tập dữ liệu khác nhau.

Kết quả cho thấy, mô hình GPT thể hiện xuất sắc ở một số khía cạnh, chẳng hạn như không bị làm lệch bởi các ví dụ phản thực. Nhưng cũng tồn tại một số vấn đề, chẳng hạn như dễ bị ảnh hưởng bởi các gợi ý hệ thống gây hiểu nhầm mà tạo ra nội dung có thiên kiến, đặc biệt là GPT-4 dễ bị ảnh hưởng hơn. Mức độ thiên kiến của mô hình còn liên quan đến chủ đề cụ thể, có thiên kiến nhỏ hơn đối với một số chủ đề nhạy cảm.

Trong lĩnh vực bảo vệ quyền riêng tư, nghiên cứu cho thấy mô hình GPT có thể làm rò rỉ thông tin nhạy cảm từ dữ liệu đào tạo, chẳng hạn như địa chỉ email. GPT-4 mạnh mẽ hơn trong việc bảo vệ thông tin danh tính cá nhân so với GPT-3.5, nhưng trong một số trường hợp vẫn có thể làm rò rỉ quyền riêng tư.

Nghiên cứu này cung cấp một tiêu chuẩn toàn diện để đánh giá độ tin cậy của các mô hình ngôn ngữ, giúp phát hiện các lỗ hổng tiềm ẩn và thúc đẩy sự phát triển của các mô hình đáng tin cậy hơn. Nhóm nghiên cứu hy vọng rằng công việc này sẽ thúc đẩy cộng đồng học thuật tiếp tục nghiên cứu sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra các mô hình ngôn ngữ mạnh mẽ và đáng tin cậy hơn.

Xem bản gốc
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Phần thưởng
  • 8
  • Chia sẻ
Bình luận
0/400
AirdropHuntressvip
· 1giờ trước
Ôi, nhìn vào dữ liệu, thực sự lộ ra rất nhiều rủi ro về quyền riêng tư.
Xem bản gốcTrả lời0
MevShadowrangervip
· 4giờ trước
Sự thật là không thể chạy thì không thể chạy.
Xem bản gốcTrả lời0
SerLiquidatedvip
· 11giờ trước
Không lẽ nào, có liên quan đến an ninh quốc gia không?
Xem bản gốcTrả lời0
DarkPoolWatchervip
· 11giờ trước
Lỗ hổng quá nhiều, cái gì cũng có thể bẫy ra được.
Xem bản gốcTrả lời0
MEV_Whisperervip
· 11giờ trước
Ừm, mô hình cần phải được nâng cấp thì mới được.
Xem bản gốcTrả lời0
HappyToBeDumpedvip
· 12giờ trước
Lại phải cập nhật mô hình rồi
Xem bản gốcTrả lời0
CounterIndicatorvip
· 12giờ trước
gpt này thật sự không được, vẫn là trí tuệ nhân tạo, trước tiên hãy nạp tiền.
Xem bản gốcTrả lời0
MetaverseHermitvip
· 12giờ trước
Không có quyền riêng tư chính là quyền riêng tư tốt nhất.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)