Оценка надежности модели GPT выявляет потенциальные уязвимости и риски конфиденциальности

2025-07-13 06:51:33

Генерация тезисов в процессе

Исследование оценки надежности языковых моделей

Университет Иллинойс в Урбана-Шампейн вместе с несколькими университетами и научными учреждениями выпустил крупную языковую модель (LLMs), а также представил платформу для комплексной оценки достоверности в своей последней статье «DecodingTrust: всесторонняя оценка достоверности моделей GPT».

Исследовательская группа провела всестороннюю оценку надежности модели GPT и обнаружила несколько ранее не опубликованных уязвимостей. Например, модель GPT склонна генерировать токсичный и предвзятый вывод, а также может раскрывать конфиденциальную информацию из обучающих данных и истории диалога. Хотя в стандартных тестах GPT-4 обычно более надежен, чем GPT-3.5, при столкновении с злонамеренно разработанными подсказками, GPT-4 оказывается более уязвимым для атак, возможно, потому что он более строго следует вводящим в заблуждение инструкциям.

Исследование провело всестороннюю оценку модели GPT с восьми углов доверия, включая её устойчивость к текстовым атакам, адаптивность к разным заданиям и системным подсказкам и т.д. Оценка проводилась с использованием различных сценариев, задач, показателей и наборов данных.

Результаты показывают, что модель GPT демонстрирует отличные результаты в некоторых аспектах, например, не поддается заблуждающим контрфактическим примерам. Однако существуют и некоторые проблемы, такие как высокая восприимчивость к вводящим в заблуждение системным подсказкам, что приводит к созданию предвзятости в контенте, особенно модель GPT-4 более подвержена этому. Степень предвзятости модели также зависит от конкретной темы, и предвзятость по некоторым чувствительным темам меньше.

В области защиты конфиденциальности исследования показали, что модели GPT могут раскрывать чувствительную информацию из обучающих данных, такую как адреса электронной почты. GPT-4 более надежен в защите личной идентификационной информации по сравнению с GPT-3.5, но в некоторых случаях все равно может раскрывать конфиденциальность.

Это исследование предоставляет всесторонние критерии для оценки надежности языковых моделей, что помогает выявлять потенциальные уязвимости и содействовать разработке более надежных моделей. Исследовательская группа надеется, что эта работа будет способствовать тому, чтобы академическое сообщество продолжало углубленные исследования на этой основе, совместно стремясь создать более мощные и надежные языковые модели.

GPT1.37%

Посмотреть Оригинал

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

14 Лайков