Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».
Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.
Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
14 Лайков
Награда
14
8
Поделиться
комментарий
0/400
AirdropHuntress
· 8ч назад
Эх, посмотрев на данные, действительно выявляется множество рисков для конфиденциальности.
Посмотреть ОригиналОтветить0
MevShadowranger
· 11ч назад
Честно говоря, если не могу бежать, то не могу бежать.
Посмотреть ОригиналОтветить0
SerLiquidated
· 18ч назад
Неужели это как-то связано с национальной безопасностью?
Посмотреть ОригиналОтветить0
DarkPoolWatcher
· 18ч назад
Слишком много уязвимостей, из чего угодно можно сделать ловушку.
Посмотреть ОригиналОтветить0
MEV_Whisperer
· 18ч назад
Да, модель нужно обновить.
Посмотреть ОригиналОтветить0
HappyToBeDumped
· 18ч назад
Снова нужно обновить модель.
Посмотреть ОригиналОтветить0
CounterIndicator
· 18ч назад
Этот GPT действительно не работает, он все еще искусственный интеллект. Сначала заряжу.
Посмотреть ОригиналОтветить0
MetaverseHermit
· 18ч назад
Нет конфиденциальности — это лучшая конфиденциальность
Оценка надежности модели GPT выявляет потенциальные уязвимости и риски конфиденциальности
Исследование оценки надежности языковых моделей
Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».
Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.
Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.
Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.
В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.
Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.