A avaliação da credibilidade do modelo GPT revela vulnerabilidades potenciais e riscos de privacidade.

2025-07-13 06:51:33

Geração do resumo em andamento

Estudo de Avaliação da Confiabilidade de Modelos de Linguagem

A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino superior e centros de pesquisa, lançou uma plataforma de avaliação de confiabilidade abrangente para o modelo de linguagem em larga escala (LLMs), descrita no mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."

A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações pessoais de dados de treinamento e histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.

O estudo avaliou de forma abrangente o modelo GPT a partir de 8 ângulos de credibilidade, incluindo a robustez contra ataques adversariais de texto, a adaptabilidade a diferentes instruções de tarefa e prompts de sistema, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.

Os resultados mostram que o modelo GPT se destaca em certos aspectos, como não ser enganado por exemplos contrafactuais. No entanto, também existem alguns problemas, como a suscetibilidade à influência de prompts enganosos, o que pode resultar em conteúdos tendenciosos, especialmente o GPT-4, que é mais suscetível. O grau de viés do modelo também está relacionado a tópicos específicos, apresentando menos viés em alguns temas sensíveis.

Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 é mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ainda pode vazar privacidade em certos casos.

Este estudo fornece uma base abrangente para avaliar a confiabilidade dos modelos de linguagem, ajudando a identificar possíveis vulnerabilidades e promovendo o desenvolvimento de modelos mais confiáveis. A equipe de pesquisa espera que este trabalho possa incentivar a academia a continuar a investigação aprofundada com base nisso, trabalhando em conjunto para criar modelos de linguagem mais robustos e confiáveis.

GPT2.22%

Ver original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

14 Curtidas