Estudo de Avaliação da Confiabilidade de Modelos de Linguagem
A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino superior e centros de pesquisa, lançou uma plataforma de avaliação de confiabilidade abrangente para o modelo de linguagem em larga escala (LLMs), descrita no mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."
A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações pessoais de dados de treinamento e histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
O estudo avaliou de forma abrangente o modelo GPT a partir de 8 ângulos de credibilidade, incluindo a robustez contra ataques adversariais de texto, a adaptabilidade a diferentes instruções de tarefa e prompts de sistema, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.
Os resultados mostram que o modelo GPT se destaca em certos aspectos, como não ser enganado por exemplos contrafactuais. No entanto, também existem alguns problemas, como a suscetibilidade à influência de prompts enganosos, o que pode resultar em conteúdos tendenciosos, especialmente o GPT-4, que é mais suscetível. O grau de viés do modelo também está relacionado a tópicos específicos, apresentando menos viés em alguns temas sensíveis.
Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 é mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ainda pode vazar privacidade em certos casos.
Este estudo fornece uma base abrangente para avaliar a confiabilidade dos modelos de linguagem, ajudando a identificar possíveis vulnerabilidades e promovendo o desenvolvimento de modelos mais confiáveis. A equipe de pesquisa espera que este trabalho possa incentivar a academia a continuar a investigação aprofundada com base nisso, trabalhando em conjunto para criar modelos de linguagem mais robustos e confiáveis.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
14 Curtidas
Recompensa
14
8
Compartilhar
Comentário
0/400
AirdropHuntress
· 8h atrás
Ai, olhando os dados, realmente expõe muitos riscos de privacidade.
Ver originalResponder0
MevShadowranger
· 11h atrás
A verdade é que não consigo correr.
Ver originalResponder0
SerLiquidated
· 18h atrás
Não pode ser, isso tem a ver com a segurança nacional?
Ver originalResponder0
DarkPoolWatcher
· 18h atrás
Há muitos漏洞. Qualquer coisa pode ser armadilha.
Ver originalResponder0
MEV_Whisperer
· 18h atrás
Sim, o modelo precisa ser atualizado.
Ver originalResponder0
HappyToBeDumped
· 18h atrás
Já vai ser atualizado o modelo.
Ver originalResponder0
CounterIndicator
· 18h atrás
Este gpt não funciona mesmo, ainda é inteligência artificial, vamos primeiro recarregar.
A avaliação da credibilidade do modelo GPT revela vulnerabilidades potenciais e riscos de privacidade.
Estudo de Avaliação da Confiabilidade de Modelos de Linguagem
A Universidade de Illinois em Urbana-Champaign, em colaboração com várias instituições de ensino superior e centros de pesquisa, lançou uma plataforma de avaliação de confiabilidade abrangente para o modelo de linguagem em larga escala (LLMs), descrita no mais recente artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT."
A equipe de pesquisa realizou uma avaliação abrangente da confiabilidade do modelo GPT e descobriu algumas vulnerabilidades que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT é propenso a gerar saídas tóxicas e tendenciosas, e pode vazar informações pessoais de dados de treinamento e histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao enfrentar prompts maliciosamente projetados, o GPT-4 é, na verdade, mais suscetível a ataques, possivelmente porque segue de forma mais rigorosa instruções enganosas.
O estudo avaliou de forma abrangente o modelo GPT a partir de 8 ângulos de credibilidade, incluindo a robustez contra ataques adversariais de texto, a adaptabilidade a diferentes instruções de tarefa e prompts de sistema, entre outros. A avaliação utilizou uma variedade de cenários, tarefas, métricas e conjuntos de dados.
Os resultados mostram que o modelo GPT se destaca em certos aspectos, como não ser enganado por exemplos contrafactuais. No entanto, também existem alguns problemas, como a suscetibilidade à influência de prompts enganosos, o que pode resultar em conteúdos tendenciosos, especialmente o GPT-4, que é mais suscetível. O grau de viés do modelo também está relacionado a tópicos específicos, apresentando menos viés em alguns temas sensíveis.
Em termos de proteção da privacidade, estudos descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. O GPT-4 é mais robusto na proteção de informações de identificação pessoal do que o GPT-3.5, mas ainda pode vazar privacidade em certos casos.
Este estudo fornece uma base abrangente para avaliar a confiabilidade dos modelos de linguagem, ajudando a identificar possíveis vulnerabilidades e promovendo o desenvolvimento de modelos mais confiáveis. A equipe de pesquisa espera que este trabalho possa incentivar a academia a continuar a investigação aprofundada com base nisso, trabalhando em conjunto para criar modelos de linguagem mais robustos e confiáveis.