Оценка надежности модели GPT выявляет потенциальные уязвимости и риски конфиденциальности

robot
Генерация тезисов в процессе

Исследование оценки надежности языковых моделей

Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».

Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.

Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.

Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.

В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.

Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.

Посмотреть Оригинал
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Награда
  • 8
  • Поделиться
комментарий
0/400
AirdropHuntressvip
· 8ч назад
Эх, посмотрев на данные, действительно выявляется множество рисков для конфиденциальности.
Посмотреть ОригиналОтветить0
MevShadowrangervip
· 11ч назад
Честно говоря, если не могу бежать, то не могу бежать.
Посмотреть ОригиналОтветить0
SerLiquidatedvip
· 18ч назад
Неужели это как-то связано с национальной безопасностью?
Посмотреть ОригиналОтветить0
DarkPoolWatchervip
· 18ч назад
Слишком много уязвимостей, из чего угодно можно сделать ловушку.
Посмотреть ОригиналОтветить0
MEV_Whisperervip
· 18ч назад
Да, модель нужно обновить.
Посмотреть ОригиналОтветить0
HappyToBeDumpedvip
· 18ч назад
Снова нужно обновить модель.
Посмотреть ОригиналОтветить0
CounterIndicatorvip
· 18ч назад
Этот GPT действительно не работает, он все еще искусственный интеллект. Сначала заряжу.
Посмотреть ОригиналОтветить0
MetaverseHermitvip
· 18ч назад
Нет конфиденциальности — это лучшая конфиденциальность
Посмотреть ОригиналОтветить0
  • Закрепить