Google обнаружил, что точность чат-ботов с искусственным интеллектом составляет всего 69%… в лучшем случае.
Компания Google опубликовала откровенную оценку надежности современных чат-ботов с искусственным интеллектом, и цифры не внушают оптимизма. Используя недавно представленный набор инструментов FACTS Benchmark Suite , компания обнаружила, что даже лучшие модели ИИ с трудом преодолевают отметку в 70% точности ответов. Лучший результат показал Gemini 3 Pro , достигнув 69% общей точности, в то время как другие ведущие системы от OpenAI , Anthropic и xAI показали еще более низкие результаты. Вывод прост и неприятен. Эти чат-боты по-прежнему дают примерно каждый третий неправильный ответ, даже когда звучат уверенно .
Эталонный тест имеет значение, потому что большинство существующих тестов ИИ сосредоточены на том, может ли модель выполнить задачу, а не на том, является ли выдаваемая ею информация действительно достоверной . Для таких отраслей, как финансы, здравоохранение и юриспруденция, этот разрыв может дорого обойтись. Уверенный, но содержащий ошибки ответ может нанести реальный ущерб, особенно когда пользователи считают, что чат-бот знает, о чем говорит.
Что показывает тест точности Google
Набор тестов FACTS Benchmark Suite был разработан командой FACTS компании Google совместно с Kaggle для непосредственной проверки точности фактов в четырех реальных условиях. Один тест измеряет параметрические знания, проверяя, может ли модель отвечать на вопросы, основанные на фактах, используя только то, что она узнала во время обучения. Другой тест оценивает эффективность поиска, проверяя, насколько хорошо модели используют веб-инструменты для получения точной информации. Третий тест фокусируется на привязке, то есть на том, придерживается ли модель предоставленного документа, не добавляя ложных деталей. Четвертый тест исследует мультимодальное понимание, например, правильное чтение диаграмм, графиков и изображений.
Результаты показывают существенные различия между моделями. Gemini 3 Pro лидирует с показателем FACTS в 69%, за ним следуют Gemini 2.5 Pro и ChatGPT-5 от OpenAI с результатом почти в 62%. Claude 4.5 Opus показал результат около 51%, а Grok 4 — около 54%. Наиболее слабым местом оказались мультимодальные задачи, точность которых часто опускалась ниже 50%. Это важно, поскольку эти задачи включают чтение диаграмм, графиков или изображений, где чат-бот может с уверенностью неправильно интерпретировать график продаж или извлечь неверную цифру из документа, что приводит к ошибкам, которые легко пропустить, но трудно исправить.
Главный вывод не в том, что чат-боты бесполезны, а в том, что слепое доверие рискованно. Собственные данные Google показывают, что ИИ совершенствуется, но ему по-прежнему необходимы проверка, механизмы контроля и человеческий надзор, прежде чем его можно будет считать надежным источником информации.
Статья " Google обнаружил, что точность чат-ботов с искусственным интеллектом составляет всего 69%… в лучшем случае" впервые появилась на сайте Digital Trends .