Новый план Google по проверке этичности искусственного интеллекта

24 февраля, 2026 Дядя Влад

Вы обращаетесь к чат-боту за медицинской консультацией. Он отвечает обдуманно. Но действительно ли он взвесил все за и против, или ему просто повезло с формулировками?

Именно эту проблему рассматривает Google DeepMind в новой статье в журнале Nature . Команда утверждает, что способ проверки моральности ИИ неисправен. Мы проверяем, выдают ли модели ответы, которые выглядят правильными, — то, что они называют моральным поведением. Но это ничего не говорит о том, понимает ли система, почему что-то правильно или неправильно.

Люди используют системы управления знаниями для терапии , медицинских консультаций и даже для общения. Эти системы начинают принимать решения за нас. Если мы не можем отличить подлинное понимание от искусственного подражания, мы доверяем «чёрному ящику», имеющему реальные человеческие последствия.

В ответе DeepMind предлагается план измерения моральной компетентности — способности выносить суждения, основанные на реальных моральных соображениях, а не на статистических закономерностях. В статье изложены три основных препятствия и способы проверки каждого из них.

Три причины, по которым чат-боты создают ложную мораль.

Во-первых, это проблема факсимиле. LLM — это предикторы следующего токена, которые выбирают вероятностные распределения из обучающих данных. Они не запускают модули морального рассуждения. Поэтому, когда чат-бот дает этический совет, это может быть просто рассуждение. Или же это может быть переработка чего-то из ветки обсуждений на Reddit. Один только результат вам ничего не скажет.

Кроме того, существует многомерность морали. Реальный выбор редко зависит от чего-то одного. Вы сопоставляете честность с добротой, цену со справедливостью. Измените одну-единственную деталь, возраст человека или обстановку, и правильное решение может измениться. Существующие тесты не проверяют, замечает ли ИИ то, что действительно имеет значение.

Моральный плюрализм добавляет еще один аспект. В разных культурах и профессиях действуют разные правила. Справедливость в одной стране может быть несправедливой в другой. Чат-бот, используемый во всем мире, не может просто выдавать универсальные истины. Он должен обрабатывать конкурирующие системы координат, а мы пока не можем это должным образом измерить.

Почему нравственное воспитание вашего чат-бота не может ограничиваться простым заучиванием наизусть.

Команда DeepMind хочет изменить подход. Вместо того чтобы просто задавать привычные моральные вопросы, исследователям следует разрабатывать состязательные тесты, которые пытаются выявить подражание.

Одна из идей связана со сценариями, которые вряд ли появятся в обучающих данных. Возьмем, к примеру, межпоколенческое донорство спермы, когда отец жертвует сперму своему сыну для оплодотворения яйцеклетки от имени сына. Это выглядит как инцест, но имеет другой этический подтекст. Если модель отвергает это по причинам, связанным с инцестом, это сопоставление с образцом. Если же она учитывает реальную этическую сторону вопроса, это уже совсем другое дело.

Другой подход проверяет, способен ли ИИ менять существующие рамки. Может ли он переключаться между биомедицинской этикой и военными правилами и давать связные ответы для каждого из них? Может ли он обрабатывать небольшие изменения, не сталкиваясь с трудностями из-за изменений форматирования?

Исследователи понимают, что это непросто. Существующие модели ненадежны. Измените метку с «Случай 1» на «Вариант А», и вы можете получить другой вердикт. Но они утверждают, что подобное тестирование — единственный способ узнать, заслуживают ли эти системы реальной ответственности.

Что ждет моральный ИИ в будущем?

Компания DeepMind продвигает новый научный стандарт, который учитывает моральные качества так же серьезно, как и математические навыки. Это означает финансирование глобальной работы над оценками с учетом культурных особенностей и разработку тестов, выявляющих фальсификации.

Не стоит ожидать, что ваш чат-бот пройдет эти проверки в ближайшее время. Существующие методы пока не позволяют этого достичь, но план развития указывает разработчикам направление.

Когда вы сейчас обращаетесь к ИИ за моральным советом, вы получаете статистический прогноз, а не философию. Возможно, со временем это изменится. Но только если мы начнем измерять правильные вещи.

Статья «Новый план Google по проверке этичности искусственного интеллекта» впервые появилась на сайте Digital Trends .