Я вручную переработал macOS, используя крупномасштабную модель Doubao 2.0. После Seedance 2.0 компания ByteDance также разыграет подарок в честь Весеннего фестиваля, связанный с искусственным интеллектом.

В последние несколько дней мои «Моменты» в WeChat были завалены видеороликами о Seedance 2.0, создавая впечатление, что каждый может стать режиссером. Однако, как раз когда все с восторгом наблюдали за происходящим и обсуждали, как искусственный интеллект произведет революцию в Голливуде, состоялся официальный релиз всего пакета Doubao Big Model 2.0.

Это также первое обновление поколения большой модели Doubao с момента ее официального выпуска в мае 2024 года.

Честно говоря, как человек, использующий ИИ в качестве инструмента повышения производительности, меня больше всего волнуют две вещи: сможет ли он действительно выполнять задачи? И можно ли сделать его дешевле? Последнее обновление Doubao Big Model 2.0 дает очень простой ответ: он может понимать диаграммы и документы, обрабатывать длинные видеоролики, писать полезный код и снижать цену.

Более того, это не просто модернизация одной модели, а целый комплекс "комплексных усовершенствований".

Серия Doubao Big Model 2.0 включает три универсальные модели агентов (Pro, Lite и Mini) и модель для кодировщиков, гибко адаптирующиеся к различным бизнес-сценариям. Теперь вы можете оценить обновленную версию Doubao Big Model 2.0 Pro, открыв приложение Doubao, клиент для ПК или веб-версию и нажав «Экспертный режим».

  • Doubao 2.0 Pro: Мощный набор высокопроизводительных компонентов, специализирующийся на глубоком инференцировании и задачах с длинными цепочками. Официально он считается полностью сопоставимым с GPT-5.2 и Gemini 3 Pro.
  • 2.0 Lite: Он стремится стать машиной «два в одном», мастерски сочетающей производительность и стоимость, и его общие возможности превзошли возможности основного двигателя предыдущего поколения, 1.8.
  • 2.0 Mini: Низкая задержка, высокая параллельность, специально разработан для сценариев, где стоимость имеет чрезвычайно важное значение.
  • Версия кода (Doubao-Seed-2.0-Code): специально разработана для программистов. Для достижения лучших результатов рекомендуется использовать её совместно с инструментом IDE TRAE.

Насколько сильна многомодальная способность Doubao к восприятию видео, превосходящая даже человеческие возможности?

Если текстовые модели — это мозг ИИ, то мультимодальное понимание — это его глаза.

Согласно официальным техническим отчетам, серия Doubao Big Model 2.0 показала лучшие в отрасли результаты в таких бенчмарках, как VLMsAreBiased и OmniDocBench.

Данные могут быть скучными, поэтому мы нашли забавную картинку, созданную пользователями сети – бутылку мужского шампуня, на которой написано «20 в 1». Бутылка плотно заполнена различными видами средств.

Даже после сокращения текста Doubao 2.0 Pro чётко распознал его по контексту. Более того, вместо простого представления продукта, он прямо заявил, что это «трюк».

Это соответствует высочайшей производительности ChartQAPro и OmniDocBench 1.5, упомянутой в официальных данных — программа не только анализирует, но и понимает иерархические связи информации.

Это «понимание» приводит к повышению производительности труда.

Большое количество реальных запросов от пользователей содержало сложные изображения — скриншоты, диаграммы, отсканированные документы. Я попытался отправить ему технический документ о самой «Большой модели 2.0» Doubao и попросить его проанализировать. К моему удивлению, он не только извлек ключевую информацию, но и сгенерировал ментальную карту и презентацию PowerPoint, сформировав довольно полную структуру.

Даже в плане понимания видео он продемонстрировал потенциал для «зависимости от просмотра сериалов запоем». В техническом отчете упоминается, что большая модель Doubao 2.0 превзошла результаты людей в бенчмарке EgoTempo.

Действительно ли речь идёт о том, чтобы быть лучше других? Мы показали кадр из телесериала «Моё солнышко» и спросили: «По этой фотографии вы можете определить, с юга или с севера этот мужчина?»

Это типичный смешанный тестовый вопрос, сочетающий в себе «визуальное восприятие, знания и рассуждения». Система Doubao's Big Model 2.0 отреагировала очень быстро, не только распознав в нем телесериал «Мое солнышко» и актера Уоллеса Чунга, но и предоставив подробный и понятный аналитический отчет, основанный на обстановке оригинального романа.

Даже при анализе длинных видеороликов высокие результаты в тестах TVBench и MotionBench подтверждаются и в реальных условиях: программа может точно анализировать ритм движений в длинном видео. Для отраслей, которым необходимо обрабатывать потоки видеонаблюдения и анализировать спортивные события, это имеет гораздо большее значение.

Гениальный исследователь встречается с человеком, совершенно неопытным в жизни.

Что касается логического мышления, результаты сравнительных тестов показывают, что Doubao 2.0 Pro набрал больше баллов, чем GPT-5.2 в SuperGPQA (вопросы и ответы уровня аспирантуры), и даже завоевал золотую медаль на Международной математической олимпиаде (IMO).

Будь то «Почему Сунь Укун, постигший искусство бессмертия, умер в возрасте 342 лет?» или «Два оружия, одно с атакой 1-5, а другое с атакой 2-4, какое из них мощнее с точки зрения данных?», эти вопросы, очевидно, не поставят Доубао в тупик.

Однако даже этот «академический гений», способный решать математические задачи на олимпиаде, всё же неправильно ответил на простой вопрос о автомойке в 50 метрах от дома: «Я хочу помыть машину. Автомойка находится в 50 метрах от моего дома. Мне нужно доехать туда на машине или дойти пешком?»

Обычный человек подумал бы: «Поезжай туда на машине, иначе зачем ее мыть?» Однако Doubao 2.0 Pro впал в глубокое «излишнее рассуждение». Он начал анализировать стоимость преодоления расстояния, пользу для здоровья от ходьбы, затраты на запуск автомобиля… и, наконец, всерьёз предложил мне пройтись пешком.

Это также распространенная проблема современных больших моделей. Несмотря на наличие у них возможностей для рассуждений на уровне научных исследований, им все еще не хватает здравого смысла, основанного на физическом мире. Можно лишь сказать, что до полного решения этой проблемы еще далеко.

Хороший ИИ — это тот, который помогает вам уйти с работы раньше.

Наибольшие амбиции этого обновления на самом деле связаны с Агентом (интеллектуальным агентом). Команда Seed обнаружила проблемную точку: модель может решать задачи, но не может справляться с долгосрочными задачами (такими как написание полноценного приложения или разработка эксперимента).

Для решения этой проблемы компания Doubao разработала масштабную модель 2.0, ориентированную на повышение эффективности выполнения инструкций и решение долгосрочных задач. Она заняла первое место на HealthBench и показала высокие результаты на FrontierSci.

На практике это проявляется в его способности функционировать как настоящий «помощник исследователя». При решении сложной биологической задачи — «анализ белков аппарата Гольджи» — он не предлагал расплывчатых объяснений. Он не только предоставлял общую схему действий, но и интегрировал генную инженерию, создание моделей на мышах и мультиомиксный анализ в единый процесс.

Что касается программирования, то для проверки "кода" Doubao Big Model 2.0 мы напрямую открыли собственную IDE ByteDance – TRAE и вызвали Doubao-Seed-2.0-Code, специально оптимизированный для программирования.

Например, его можно использовать с p5js для создания потрясающих многоцветных интерактивных анимаций, и эффект получается весьма впечатляющим. Код работает без проблем с первого раза, а цвета на экране не только плавно перетекают, но и интерактивная логика полностью оправдывает ожидания.

Далее мы попросили программу создать полностью с нуля настольную систему macOS, используя чистый код. Анимация панели Dock, иерархия окон и верхняя панель меню были выполнены довольно хорошо, но эстетику можно было бы улучшить, а общая производительность оказалась посредственной.

Как указала команда Doubao Big Model в своей карточке модели:

Важно отметить, что серия Seed 2.0 по-прежнему отстает от ведущих международных моделей обработки больших объемов данных. Компания Seed четко определила свое направление развития как улучшение способности модели справляться со сложностями реального мира и вложила значительные усилия в оптимизацию серии моделей Seed с этой целью.

Но все это не имеет значения, когда речь идет о цене. Потому что, хотя Big Model 2.0 от Doubao улучшает производительность, она также снижает стоимость токенов примерно на порядок.

Это очень реалистичная бизнес-логика. Когда затраты на логические рассуждения становятся более экономически эффективными, многие сценарии, такие как полный анализ документов и мониторинг видеопотоков в реальном времени, внезапно становятся осуществимыми.

картина

На основе этого обширного сравнительного отчета мой главный вывод можно свести к двум словам: практичность. Это не идеально, но для работающих профессионалов ИИ, который может помочь понимать графики, писать надежный код и при этом доступен по цене, может оказаться гораздо полезнее.

В конце концов, хороший ИИ — это тот, который помогает нам уходить с работы раньше.

Прилагается 79-страничная модельная карточка:
https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/seed2/0214/Seed2.0%20Model%20Card.pdf

#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.

ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo