Недавно выпущенный Doubao Big Model 1.6 спас меня от сверхурочных! Также есть видеоинструмент, который превосходит Veo 3 и занимает первое место в мире

12 июня, 2025 Дядя Влад

В какой степени эта большая модель стала запутанной?

Оглядываясь на темпы этого года, ByteDance предлагает новые идеи почти каждый месяц, и даже больше одной модели в месяц. Компания выпускает одну модель за другой, и они не только новые, но и имеют реальные обновления, которые продолжают поднимать конкурентный порог отрасли выше.

В январе была выпущена модель Doubao 1.5 Pro.

В апреле были одновременно обновлены модель глубокого мышления Doubao 1.5, модель Wenshengtu 3.0 и модель визуального понимания.

В мае требуются модель генерации видео Seedance 1.0 lite, модель визуального глубокого мышления Doubao 1.5 и музыкальная модель, текст, изображения, звуки, байты.

На конференции Force Power, проведенной сегодня Volcano Engine, линейка продуктов искусственного интеллекта ByteDance продолжила выпуск продукции без какой-либо метафизики, сосредоточившись на больших объемах и полноценном использовании «из коробки».

Новые модели, такие как Doubao Big Model 1.6, модель генерации видео Seedance 1.0 pro, DeepResearch, способная составлять отраслевые отчеты, а также облачные сервисы искусственного интеллекта, такие как платформа разработки Agent, появились одна за другой.

В конечном итоге вы можете не понять Transformer, но вы определенно можете почувствовать, что эти продукты ИИ действительно могут многое сделать для людей.

Основные моменты обновления продукта:

Модели серии Doubao 1.6

Расширенные возможности рассуждения, поддержка «думай во время поиска» и «глубокого исследования»
Отличная способность к мультимодальному пониманию, лучшее понимание и решение реальных проблем
Работа с графическим интерфейсом стала более интеллектуальной и обеспечивает бесперебойное взаимодействие с другими инструментами.
Превосходное соотношение цены и качества

Модель видеогенерации Seedance 1.0 pro

Множество планов и смена сцен, увеличивающие объем информации и повествования
Улучшенная непрерывность движения, стабильность изображения и общая текстура

Doubao Big Model 1.6: хорошо сдает экзамены, умеет бронировать отели и имеет высокую эффективность затрат

Изюминкой этой конференции станет серия Doubao Big Model 1.6, состоящая из трех моделей.

Doubao-Seed-1.6: комплексная модель «все в одном»

Он поддерживает глубокое мышление, мультимодальное понимание и работу графического интерфейса. Глубокое мышление имеет три режима: включено, выключено и автоматический. В адаптивном режиме модель автоматически решает, следует ли включать глубокое мышление, исходя из сложности задачи, экономя как время, так и токены. Более того, это первая модель в Китае, которая поддерживает 256k контекста.

Doubao-Seed-1.6-thinking: улучшенная версия с точки зрения глубокого мышления

1.6- в этом обновлении основное внимание уделяется мышлению. Мыслительная способность была усилена, и она может понимать и обрабатывать сложные задачи более точно. Есть дальнейшие улучшения в кодировании, математике, логическом мышлении и следовании инструкциям. Она также поддерживает 256k контекста и мультимодальное мышление.

Doubao-Seed-1.6-flash: самая быстрая версия серии 1.6

Задержка чрезвычайно низкая, что делает его очень подходящим для сценариев, чувствительных к низкой задержке. Понимание текста лучше, чем у Doubao 1.5-lite, а визуальное понимание сопоставимо с лучшими продуктами других производителей.

На конференции модели серии Doubao 1.6 объявили ряд авторитетных результатов оценки. В частности, производительность Doubao 1.6-thinking заняла одно из первых мест в мире.

способность рассуждать

Сдавать экзамены по моделированию не ново, но редко удается получить такой высокий балл, как в Пекинском университете или Университете Цинхуа.

Если взять в качестве примера способность к рассуждению, то Doubao 1.6 добился значительного прогресса по сравнению с предыдущими моделями. Doubao набрал 144 балла по математическим вопросам нового национального вступительного экзамена в колледж в этом году, заняв первое место в стране. Используя смоделированный полный тест Haidian, по сравнению с прошлогодними 500-600 баллами, Doubao 1.6 набрал более 700 баллов как по гуманитарным наукам, так и по естественным наукам в этом году.

Одной из главных особенностей Doubao в плане логического мышления является то, что он не только думает самостоятельно, но и умеет «искать, думая». Сначала он разбирает проблему, находит ключевую информацию, проводит раунд размышлений, а затем выполняет несколько раундов поиска на основе недостающей информации.

Например, когда Doubao попросили «подробно описать распределение насекомых и распространенных видов в провинции Гуандун и представить их в форме исследовательского отчета», компания сначала рассмотрела требования к формату исследовательского отчета во время своего глубокого размышления, а затем быстро определила рамки сортировки. Затем Doubao посчитала, что «содержание должно быть подкреплено конкретными данными и примерами», поэтому она начала самостоятельно искать данные о природной среде в провинции Гуандун и предыдущие связанные исследования.

На встрече также было упомянуто, что Doubao в настоящее время тестирует функцию DeepResearch. Раньше профессионалам требовалось несколько часов или дней, чтобы написать профессиональный отчет, но Doubao может сделать это за 5–30 минут. Он также может автоматически извлекать информацию и суммировать ее на веб-странице для проверки людьми.

Кроме того, чтобы облегчить корпоративным пользователям использование функций «думай во время поиска» и «DeepResearch», официальный сайт Volcano Engine запустил большую лабораторию приложений моделей и открыл исходный код, что позволяет пользователям создавать собственные прототипы приложений ИИ и гибко организовывать собственные интеллектуальные сущности.

Способность к мультимодальному пониманию

Вся серия Doubao 1.6 изначально поддерживает возможности мультимодального мышления, что позволяет модели лучше понимать и решать реальные проблемы.

Мультимодальное понимание поддерживает новейшую функцию Doubao «видеозвонок в реальном времени». На стороне предприятия его можно широко использовать в обзорах продуктов электронной коммерции, маркировке автономного вождения, проверке безопасности и других сценариях.

Например, модель можно использовать для проведения стандартизированных обзоров изображений, загружаемых продавцами, или для быстрого сравнения цен на аналогичные товары.

В автомобильной отрасли модели можно использовать для более точного определения направления движения автомобиля и намерений водителя, а также для выбора определенных сегментов из огромных объемов дорожных данных для обучения последующих моделей автономного вождения.

В более офлайн-сценариях Doubao может точно находить и подсчитывать информацию на изображении, тем самым выполняя такие задачи, как проверки безопасности и проверки магазинов.

Например, пусть Doubao 1.6-thinking проверит, есть ли какие-либо потенциальные угрозы безопасности, вызванные отсутствием касок на фотографии исследования пещеры. Благодаря глубокому мышлению он может не только точно подсчитать количество касок, надетых на фотографию, но и, что удивительно, он может далее подумать над вопросом «Безопасно ли носить каску?», а затем проанализировать, правильно ли надеты каски на фотографии, соответствует ли одежда, полно ли осветительное оборудование, соответствует ли безопасное расстояние для ходьбы и т. д., и, наконец, выдвинуть приоритет исправления.

Возможность работы с графическим интерфейсом

Благодаря передовым возможностям визуального глубокого мышления и точной визуальной позиционной обработки Doubao 1.6 позволяет интеллектуальным агентам бесперебойно взаимодействовать и работать с браузерами и другими инструментами, а также эффективно выполнять такие задачи, как проверка бронирования отелей и сортировка билетов.

Работа графического интерфейса пользователя в данной модели не просто заменяет удобство нажатия людьми кнопок приложения пальцами, но и позволяет преодолеть ограничения традиционных приложений и графического интерфейса пользователя, чтобы удовлетворять основные потребности людей более разумно и автоматически.

Экономическая эффективность

Doubao Big Model 1.6 принимает единую модель ценообразования. Независимо от того, включен ли режим глубокого мышления или нет, текстовый он или визуальный, цена токенов одинакова, и цена основана на диапазоне длины входного контекста.

В диапазоне входных значений 0–32 тыс., используемом большинством компаний, цена составляет 0,8 юаней/миллион токенов за вход и 8 юаней/миллион токенов за выход.
В диапазоне ввода от 32 тыс. до 128 тыс. цена составляет 1,2 юаня/миллион токенов за ввод и 16 юаней/миллион токенов за вывод.
В диапазоне ввода от 128 тыс. до 256 тыс. цена составляет 2,4 юаня/миллион токенов за ввод и 24 юаня/миллион токенов за вывод.

С точки зрения комплексной стоимости большинство входных данных запроса находятся в пределах 32 тыс., а соотношение входных и выходных данных составляет 3:1. Комплексная стоимость Doubao Large Model 1.6 (2,6 юаней) на 63% ниже комплексной стоимости Doubao Large Model 1.5 Deep Thinking Model и DeepSeek R1 (7 юаней). Это означает, что вы можете использовать новую модель с более мощными возможностями и собственной мультимодальностью всего за одну треть от первоначальной цены.

На этот раз Volcano Engine также добавил специальную зону скидок. Для запросов с вводом 32k и выводом менее 200 токенов цена Doubao Large Model 1.6 будет дополнительно снижена до 0,8 юаней/миллион токенов за ввод и 2 юаней/миллион токенов за вывод. Это эквивалентно потребностям большинства не думающих моделей, и вы также можете спокойно использовать новую модель с лучшими эффектами.

Seedance 1.0 pro уже доступен: вы можете снимать блокбастеры, не тратя денег

Помимо моделей серии Doubao Big Model 1.6, на этой пресс-конференции Volcano Engine также представила новую модель видеопоколения Seedance 1.0 pro.

Первое изменение, о котором стоит упомянуть в этой модели, — это прорыв в языке линз.

Модель поддерживает ввод текста и изображений и может генерировать высококачественные видео 1080P с плавным переключением нескольких объективов. Seedance 1.0 pro фокусируется на многофункциональном варианте использования и свободном движении камеры, что не только поддерживает генерацию 10-секундных видеороликов с переключением 2-3 объективов, но и переключается между дальними, средними и крупными планами, тем самым значительно улучшая информационное наполнение и повествование видео.

Более того, благодаря многомерному набору данных и механизму обучения с обратной связью, внедренному на этапе постобучения, новая модель поддерживает очень высокий уровень с точки зрения непрерывности движения, стабильности изображения и общей текстуры.

Новая видеомодель Doubao не останавливается на стадии демонстрации. Будь то создание рекламных роликов продукта, быстрое выполнение набросков раскадровки или предоставление клиентам возможности создавать игровых персонажей и сюжетные видеоролики, новая видеомодель Doubao шаг за шагом движется к этим наиболее продуктивным сценариям.

Рейтинги стороннего оценочного агентства Artificial Analysis показывают, что Seedance 1.0 в настоящее время занимает лидирующие позиции как в китайском, так и в английском рейтингах.

В списке видео Wensheng Seedance 1.0 имеет рейтинг ELO 1299, превосходя Google Veo 3 Preview, Veo 2 и серию Keling Kuaishou. В списке видео Tusheng Seedance 1.0 имеет рейтинг ELO 1343, превосходя Runway Gen 4, Keling 2.0 и т. д., и является непобедимым.

Несмотря на максимальную производительность, цена на удивление приемлемая.

При бюджете в 10 000 юаней вы можете сгенерировать 2 725 видеороликов (5 секунд 1080P) с помощью Seedance 1.0 pro, что эквивалентно созданию 9 708 видеороликов (5 секунд 720P) с помощью Seedance 1.0 lite. Для сравнения, выход конкурирующих продуктов, таких как KeLing v2.1 Master Edition и Veo2 (5 секунд 1080P), составляет менее 1 000.

Помимо модели генерации видео, Doubao одновременно запустила полномасштабную модель голоса в реальном времени, выведя антропоморфизм и семантический контроль на новый уровень.

Он может гибко настраивать тон, громкость и т. д. в зависимости от контекста; поддерживает выразительные голосовые взаимодействия, такие как пение и шепот; и даже поддерживает местные диалекты, включая сычуаньский. Во время живой демонстрации голосовая модель Doubao также спела "The Moon Represents My Heart". Знаете что, это действительно звучит интересно.

Что касается реальных сценариев применения, то помимо сотрудничества с Mercedes-Benz по разработке голосового взаимодействия в автомобиле, компания Doubao также запустила «модель генерации подкастов», основанную на технологии голосовой связи в реальном времени, которая поддерживает сложные голосовые структуры, такие как естественные разговоры, прерывания и паузы между несколькими людьми.

Он может автоматически распознавать входной контент (подсказку, веб-ссылку, длинный текст), а затем автоматически генерировать полный сценарий подкаста + антропоморфный аудиоконтент. От ритма до междометия, до тональности клипа подкаста, продемонстрированного на сайте, почти нет ощущения ИИ.

2025 год — первый год Агента. Как по-настоящему интегрировать Агента в корпоративную систему, стало практической проблемой, с которой сталкиваются все производители.

Чтобы лучше поддерживать разработку и применение агентов, Volcano Engine запустила полный набор облачных продуктов ИИ полного цикла: от сервисов MCP, интеллектуальных инструментов подсказок PromptPilot, систем управления знаниями ИИ до фреймворков обучения с подкреплением veRL, многомодальных озер данных, частных вычислений AICC и межсетевых экранов приложений с большими моделями.

Тан Дай, президент Volcano Engine, подчеркнул важность «безопасности» для Agentic AI и представил два продукта безопасности AI, которые будут запущены в ближайшее время: «AICC Confidential Computing» и «Large Model Application Firewall».

Среди них конфиденциальные вычисления AICC могут позволить предприятиям безопасно и в соответствии с требованиями использовать облачные сервисы, как и при использовании частных моделей, обеспечивая при этом эффект обоснования.

Крупномасштабный межсетевой экран приложений создан на основе «Volcano Ark» и может перехватывать варианты атак с малой задержкой и высокой точностью, создавая безопасное и надежное пространство для обработки данных для корпоративных интеллектуальных приложений.

На протяжении всей пресс-конференции Volcano Engine не продолжали развивать тему AGI. Вместо этого они вернули свою точку зрения в настоящее и сосредоточились на продуктах AI, которые можно внедрять, развертывать и запускать в производственных средах уже сегодня.

За последние шесть месяцев консенсус отрасли стал все более очевидным, что вторая половина ИИ на самом деле является первой половиной продукта. Различия в параметрах будут и дальше устраняться, но эффективность вызовов продукта, путь интеграции и стоимость использования будут определять уровень удержания пользователей.

Вот почему на сегодняшней пресс-конференции, в дополнение к Doubao Big Model 1.6 и модели генерации видео Seedance 1.0 pro, Volcano Engine одновременно представила ряд возможностей продукта, которые не кажутся такими уж взрывными, но крайне важны.

От вызова модели до комбинации конкретных сценариев и безопасного и стабильного выполнения замкнутого цикла — эти возможности должны быть связаны друг с другом, чтобы сформировать по-настоящему пригодную для использования производственную систему ИИ.

Возможно, это не самый привлекательный вариант, но он может быть наиболее осуществимым и наиболее близким к «удобству использования».

Автор: Ван Синь, Мо Чунюй

#Добро пожаловать на официальный публичный аккаунт WeChat iFanr: iFanr (WeChat ID: ifanr), где вам будет представлен еще более интересный контент как можно скорее.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo