A avaliação da credibilidade do modelo GPT revela vulnerabilidades potenciais e riscos de privacidade.

robot
Geração do resumo em andamento

Estudo de Avaliação da Confiabilidade de Modelos de Linguagem

A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino superior e centros de pesquisa, lançou uma plataforma de avaliação de confiabilidade abrangente para o modelo de linguagem em larga escala (LLMs), descrita no mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."

A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações pessoais de dados de treinamento e histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.

O estudo avaliou de forma abrangente o modelo GPT a partir de 8 ângulos de credibilidade, incluindo a robustez contra ataques adversariais de texto, a adaptabilidade a diferentes instruções de tarefa e prompts de sistema, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.

Os resultados mostram que o modelo GPT se destaca em certos aspectos, como não ser enganado por exemplos contrafactuais. No entanto, também existem alguns problemas, como a suscetibilidade à influência de prompts enganosos, o que pode resultar em conteúdos tendenciosos, especialmente o GPT-4, que é mais suscetível. O grau de viés do modelo também está relacionado a tópicos específicos, apresentando menos viés em alguns temas sensíveis.

Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 é mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ainda pode vazar privacidade em certos casos.

Este estudo fornece uma base abrangente para avaliar a confiabilidade dos modelos de linguagem, ajudando a identificar possíveis vulnerabilidades e promovendo o desenvolvimento de modelos mais confiáveis. A equipe de pesquisa espera que este trabalho possa incentivar a academia a continuar a investigação aprofundada com base nisso, trabalhando em conjunto para criar modelos de linguagem mais robustos e confiáveis.

Ver original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Recompensa
  • 8
  • Compartilhar
Comentário
0/400
AirdropHuntressvip
· 8h atrás
Ai, olhando os dados, realmente expõe muitos riscos de privacidade.
Ver originalResponder0
MevShadowrangervip
· 11h atrás
A verdade é que não consigo correr.
Ver originalResponder0
SerLiquidatedvip
· 18h atrás
Não pode ser, isso tem a ver com a segurança nacional?
Ver originalResponder0
DarkPoolWatchervip
· 18h atrás
Há muitos漏洞. Qualquer coisa pode ser armadilha.
Ver originalResponder0
MEV_Whisperervip
· 18h atrás
Sim, o modelo precisa ser atualizado.
Ver originalResponder0
HappyToBeDumpedvip
· 18h atrás
Já vai ser atualizado o modelo.
Ver originalResponder0
CounterIndicatorvip
· 18h atrás
Este gpt não funciona mesmo, ainda é inteligência artificial, vamos primeiro recarregar.
Ver originalResponder0
MetaverseHermitvip
· 18h atrás
Não ter privacidade é a melhor privacidade.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)