Интерпретация НИКОГДА не будет хорошей, если она НЕ отражает поведение модели.

Схема

  • Мотивирующий пример в классификации последовательностей с помощью BERT
  • Что такое «верность»?
  • Простой пример измерения верности

Мотивирующий пример

Предположим, что мы обучили модель BERT на наборе данных классификации анализа настроений. После оценки модель правильно классифицирует следующую входную последовательность в класс «1» (положительный), т.е.

Теперь нам интересно узнать, как наша модель принимает решение по этому конкретному образцу. В частности, мы хотим знать, какие токены приводят к решению модели. Мы хотим присвоить оценку важности каждому токену.

Мы используем два распространенных метода интерпретации: LIME и Интегрированные градиенты (IG), чтобы получить интерпретации этого конкретного экземпляра классификации (x, f(x)). После некоторых вычислений мы получаем две серии оценок важности. Для простоты мы выделяем только самые важные токены, определяемые каждым методом интерпретации.

Теперь у нас есть две разные интерпретации! Какая из интерпретаций кажется вам «лучшей»? Интерпретация, которая выглядит «хорошей», на самом деле может быть ПЛОХОЙ! Интерпретация НИКОГДА не будет хорошей, если она НЕ отражает поведение модели. Здесь «верность» решает эту проблему.

Что такое «верность»?

Якови и Голдберг. (2020),

«Верность» относится к тому, насколько точно она (интерпретация) отражает истинный процесс рассуждений модели.

Другими словами, верная интерпретация должна рассматривать маркеры, на которых модель основывает свое решение, как более «важные», чем те маркеры, которые редко влияют на решение модели.

Далее мы представляем простой метод измерения достоверности приведенных выше интерпретаций.

Простой пример измерения верности

Показатели достоверности, основанные на удалении, являются наиболее распространенными методами оценки показателей достоверности. (Серрано и Смит, 2019 г.; Арья и др., 2019 г.; ДеЯнг и др., 2020 г.; Хризостому и Алетрас, 2021 г.). Они выводятся из изменений в поведении модели, когда важные токены удаляются, как правило, в порядке убывания важности. Вот их предположение:

Важный токен действительно «важный» только в том случае, если выходные данные модели резко меняются после его удаления.

Используя подход, основанный на удалении, простой способ измерить достоверность состоит в том, чтобы рассчитать изменение вероятности вывода модели по отношению к предсказанному классу при удалении наиболее важного токена:

  1. Удалите самые важные токены

2. Рассчитайте изменения вероятности выхода модели и сравните изменения

Теперь мы видим, что «понять» для модели важнее, чем «удивительно». Интерпретация IG лучше!

На самом деле, «как измерить верность» по-прежнему является предметом исследований. В последние годы было предложено множество показателей достоверности.

Краткое содержание

  • Введем понятие достоверности интерпретации модели на примерах.
  • Мы не должны судить о качестве интерпретации человеческим глазом. Достоверность является одним из объективных способов измерения качества интерпретации.
  • Многие показатели достоверности используют подход, основанный на удалении.

Рекомендации

  • Повышение достоверности объяснений, основанных на внимании, с помощью информации для конкретной задачи для классификации текста. (Хрисостому и Алетрас, 2021 г.)
  • Можно ли интерпретировать внимание? (Серрано и Смит, 2019 г.)
  • ERASER: эталон для оценки рационализированных моделей НЛП. (ДеЯнг и др., 2020 г.)
  • Одно объяснение не подходит всем: инструментарий и систематика методов объяснимости ИИ. (Арья и др., 2019 г.)
  • На пути к достоверно интерпретируемым системам НЛП: как нам определить и оценить достоверность? (Якови и Голдберг, 2020 г.)