Doubao только что выпустила несколько крупных моделей: сделав DeepSeek более полезным, а аудиоверсия Sora поразила аудиторию.

16 октября, 2025 Дядя Влад

Должен сказать, что на дворе 2025 год, и когда я задаю ИИ вопрос, мои ответы зачастую оказываются неоднозначными.

Он отвечает на простые вопросы в течение нескольких секунд, но при этом создается впечатление, будто ответа нет вовсе.

Сложные вещи требуют глубокого размышления, и на обдумывание уходит более 30 секунд.

И с каждым ответом ИИ постоянно «сжигает» токены.

Для бизнеса потребление токенов напрямую связано с затратами. Хотя модели, поддерживающие глубокое обучение, могут значительно повысить производительность, задержка увеличивается, потребление токенов растёт, а затраты стремительно растут.

Это болевая точка для всей отрасли.

С ростом числа приложений ИИ потребление токенов также стремительно растёт. Например, среднесуточное использование токенов Doubao к концу сентября превысило 30 триллионов, что на 80% больше, чем в конце мая. И это лишь малая часть рынка.

Учитывая такой темп роста спроса на ИИ, выбор стоит между экономией средств за счёт использования лёгких моделей с низкой производительностью и высокой эффективностью или же инвестированием в обеспечение производительности топовых моделей. Возникает вопрос: чему отдать приоритет: производительности или стоимости?

16 октября компания Volcano Engine представила четыре новых продукта на инновационном туре FORCE LINK AI в Ухане, чтобы донести до вас: только дети делают выбор.

Doubao large model 1.6 изначально поддерживает 4-уровневую регулировку длины мышления, Doubao 1.6 lite снижает стоимость в два раза и улучшает эффект, а также имеются модель синтеза речи Doubao 2.0 и модель воспроизведения звука 2.0.

По данным отчета IDC, в первой половине 2025 года Volcano Engine заняла 49,2% доли рынка услуг больших моделей публичных облаков Китая, прочно заняв первое место.

Какая концепция?

На каждые две компании, использующие большие модели в облаке, приходится одна, использующая Volcano Engine.

На сегодняшней пресс-конференции было отмечено, что, хотя режим Deep Thinking Mode может повысить производительность на 31%, фактическое использование составляет всего 18% из-за задержек, возросших затрат и стремительно растущего потребления токенов. Проще говоря, компании хотят его использовать, но просто не могут себе позволить.

Чтобы решить эту проблему, современная обновленная модель Doubao Big Model 1.6 предлагает четыре уровня длительности мышления: минимальный, низкий, средний и высокий.

Это первая модель в Китае, которая изначально поддерживает «постепенную регулировку длительности мышления».

Как это понять?

Это похоже на установку «коробки передач» для ИИ: для простых запросов используйте минимальный режим, чтобы экономить токены, а для сложных рассуждений переключайтесь на высокий режим, чтобы сохранить эффект.

Предприятия могут гибко балансировать эффекты, задержки и затраты в соответствии со сценарием, а эффективность мышления еще больше повышается.

Возьмем в качестве примера режим мышления низкого уровня.

По сравнению с режимом одиночного мышления до обновления общее количество выходных токенов сократилось на 77,5%, а время размышления сократилось на 84,6%.

Эффект? Остаётся неизменным.

Когда стоимость каждого токена можно точно контролировать, чем больше вы покупаете, тем больше экономите; чем детальнее оптимизация, тем больше вы зарабатываете.

Volcano Engine также выпустила большую модель Doubao 1.6 lite, которая легче и имеет более высокую скорость вывода, чем флагманская модель.

По производительности эта модель превосходит Doubao 1.5 pro, показывая улучшение на 14% при оценке сценариев на уровне предприятия.

Что касается стоимости, то в диапазоне ввода 0–32 тыс. общая стоимость использования снижена на 53,3% по сравнению с Doubao 1.5 pro.

Эффект лучше, а стоимость сокращается вдвое.

Такое увеличение «плотности стоимости токена» по сути означает, что каждая копейка тратится разумно.

На конференции Volcano Engine также представила модель синтеза речи Doubao 2.0 и модель воспроизведения звука 2.0.

Голосовое управление становится основным методом взаимодействия для приложений ИИ.

Но что еще более примечательно, чем их более сильная эмоциональная экспрессия или более точное выполнение инструкций, так это то, что они, наконец, могут точно произносить сложные формулы.

Это может показаться незначительным, но в образовательной среде чтение вслух сложных формул и символов всегда было сложной задачей.

В настоящее время точность считывания аналогичных моделей, представленных на рынке, в целом составляет менее 50%.

После целенаправленной оптимизации двух новых моделей голоса точность произнесения сложных формул по всем предметам от начальной до средней школы выросла до 90%.

В основе этого лежит новая архитектура синтеза речи, разработанная на основе большой языковой модели Doubao, которая позволяет как синтезированным, так и воспроизводимым звукам иметь глубокие возможности семантического понимания, а также расширяет возможности контекстного мышления.

ИИ больше не бездумно преобразует текст в звук, а сначала «понимает» содержание, а затем «точно выражает эмоции».

Пользователи могут использовать естественный язык для точной настройки скорости речи, эмоций, голоса, тона и стиля, максимально повышая управляемость голоса.

Хотите чего-нибудь помягче? «Чего-нибудь понежнее».

Хотите ещё больше впечатлений? «Читайте с волнением».

На пресс-конференции Volcano Engine показала очень интересную демо-версию:

Была создана детская иллюстрированная книга на тему защиты нырка Бэра в Ухане. Иллюстрации были созданы с помощью модели создания изображений Doubao Seedream4.0, а модель синтеза речи Doubao 2.0 обеспечила эмоциональную интерпретацию.

В ходе процесса вы также можете контролировать эффект чтения в реальном времени с помощью инструкций.

С момента своего первого запуска в мае прошлого года семейство голосовых моделей Doubao охватило семь основных областей, включая синтез речи, распознавание речи, воспроизведение звука, речь в реальном времени, синхронный перевод, создание музыки и создание подкастов, и было подключено к более чем 460 миллионам смарт-терминалов.

На сегодняшней пресс-конференции Тан Дай выделил три основные тенденции развития глобальных больших моделей ИИ:

Модели глубокого мышления тесно интегрируются с возможностями мультимодального понимания. Видео-, графические и голосовые модели постепенно достигают уровня приложений промышленного уровня, а сложные агенты корпоративного уровня становятся более зрелыми.

Подождите, давайте остановимся на минутку.

Поскольку появляется все больше и больше моделей, как нам выбрать наиболее экономически эффективную модель при столкновении с конкретными потребностями?

Для многих компаний это может стать вопросом самоанализа.

Компания Volcano Engine выпустила Smart Model Router — первое в Китае решение для интеллектуального выбора модели.

Начиная с сегодняшнего дня пользователи могут выбрать функцию «Интеллектуальная модель маршрутизации» на Volcano Ark.

Эта функция поддерживает три режима: «Сбалансированный режим», «Режим приоритета эффектов» и «Режим приоритета затрат», и может автоматически выбирать наиболее подходящую модель для запросов задач.

Зачем это нужно?

Потому что разные задачи предъявляют совершенно разные требования к «плотности ценности» токенов.

Система обслуживания клиентов отвечает на вопрос «Как вернуть товар?» с помощью облегченной модели.

Однако когда дело доходит до медицинской диагностики и анализа случая, необходимо использовать наиболее сильную модель.

Хотя потребление токенов одинаковое, плотность стоимости сильно различается.

Суть интеллектуальной модельной маршрутизации заключается в том, чтобы позволить ИИ самостоятельно решать, «сколько токенов стоит потратить на эту задачу».

В настоящее время интеллектуальная модель маршрутизации Volcano Engine уже поддерживает множество основных моделей, включая Doubao, DeepSeek, Qwen и Kimi.

Возьмем в качестве примера DeepSeek, измеренные данные:

В режиме «эффект-сначала» эффект модели после интеллектуальной маршрутизации улучшается на 14% по сравнению с прямым использованием DeepSeek-V3.1.

В режиме «стоимость на первом месте» при достижении результатов, аналогичных DeepSeek-V3.1, общая стоимость модели может быть снижена до 70%.

Когда искусственный интеллект берет на себя выбор модели, во всей отрасли формируется положительный цикл обратной связи:

Более широкие возможности модели открывают новые сценарии применения → Бурный рост новых приложений приводит к росту потребления токенов → Рост потребления приводит к постоянной оптимизации интеллектуальной маршрутизации → Оптимизация маршрутизации дополнительно снижает удельные затраты → Более низкие затраты обеспечивают большую эластичность спроса → Рост спроса, в свою очередь, приводит к росту общего потребления.

Это напоминает нам о 1882 году, когда Эдисон построил первую в мире коммерческую электростанцию. Никто не мог предвидеть, что единица измерения «киловатт-час» положит начало всей современной промышленной системе.

Сегодня токены становятся «киловатт-часами» эпохи ИИ.

Список «Клуба триллионов токенов», недавно объявленный OpenAI, и 130 триллионов токенов, сжигаемых Google каждый месяц, подтверждают бурный рост производительности.

Конечно, хорошая модель — это только отправная точка, а конечная цель — хороший опыт.

Задавая вопрос ИИ, не стоит беспокоиться о том, насколько быстро или качественно он справится. Многоуровневое мышление позволяет мгновенно и точно отвечать на простые вопросы, одновременно обеспечивая глубокую аргументацию и эффективность при решении сложных задач.

Благодаря интеллектуальной маршрутизации вам не придется беспокоиться о выборе модели — искусственный интеллект сам найдет наиболее подходящую.

Используя естественный язык, вы можете точно контролировать речевую модель, не теряя при этом контроль над множеством параметров. Каждая итерация этих технологий имеет одну конечную цель: сделать её доступной и, что ещё важнее, эффективной для пользователей.

Возможно, именно таким должен быть ИИ.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo