Наушники Kimi K2.5 вызвали настоящий ажиотаж.
Обновление K2.5 вызвало много дискуссий как внутри страны, так и за рубежом за последние два дня. Оно включает в себя собственную многомодальную модель, обеспечивающую самые современные возможности программирования и компьютерного зрения, а также парадигму автономного роя агентов — призыв группы агентов для выполнения задач. Звучит невероятно круто.
Множество агентов с различными навыками — это так круто и весело!
K2.5 полностью выпущен и доступен для немедленного использования на клиентских устройствах. K2.5 Agent предлагает бесплатную пробную версию, в то время как K2.5 Cluster — это платная функция, в настоящее время доступная только в тарифном плане Allegretto. Подписки также имеют ограничение по количеству баллов: от 47 баллов в месяц, при этом каждая задача потребляет 3 балла.
В целом, этого достаточно. Если вы сомневаетесь, можете поучаствовать в сегодняшнем розыгрыше и сначала попробовать.

Однако, как давний пользователь Kimi, я, конечно же, не мог пройти мимо. У меня как раз было много файлов, которые нужно было объединить, и мне было лень копировать и вставлять их вручную, поэтому я отправил их в Kimi и включил кластерный режим, чтобы обработать их все одновременно.

В кластерной модели Кими добавил в эту область элемент дизайна: вниз будет опускаться именная табличка, позволяющая увидеть, кто из «ответственных лиц» выполняет задачу.

Итоговый результат объединения документов оказался довольно хорошим, и я также предложил использовать его для организации и корректировки подзаголовков на каждом уровне, что позволило бы выстроить рабочий процесс анализа, подготовки предложений и их реализации. Однако лучше загрузить документы локально, чтобы проверить форматирование, поскольку встроенная функция предварительного просмотра Kimi иногда неточно отражает изменения, внесенные на каждом этапе.
Для дальнейшего изучения работы в режиме многопоточности я обратился к официальной демоверсии и протестировал задачу: собрал всю литературу по кластерным агентам за последние три месяца, скомпилировал ее в электронную таблицу Excel и выделил основные выводы и инновации в исследованиях.

На этот раз было организовано больше «персонала», различные агенты спешили оказать поддержку, и каждому были назначены свои задачи.

Это заняло значительно больше времени, чем раньше, но ничего страшного; пока я могу оставить его работать в фоновом режиме. Тем временем я также назначил задачу по тестированию его мультимодальных возможностей.

Это исходное изображение, загруженное в Kimi; видеоверсия содержит больше анимации. Задача Kimi — преобразовать этот дизайн в веб-страницу, сохранив при этом все элементы дизайна и стиль. Задание простое, но сама работа сложная: она требует распознавания и понимания изображения, генерации исходного изображения и написания фронтенда.

Эта задача заняла значительное количество времени, но конечный результат оказался превосходным. Было несколько незначительных проблем, таких как расположение изображений, эффекты при наведении курсора и проблемы с навигацией. Однако основные элементы дизайна были сохранены, и функциональность веб-сайта оказалась полной.

Оглядываясь назад, можно сказать, что поиск литературы также завершен, и создана аккуратная электронная таблица Excel:

Финальное задание теста заключалось в поиске влиятельных лиц на платформе Xiaohongshu (Маленькая красная книга), а именно, технических блогеров с более чем 5000 подписчиков и более чем 100 публикациями. Эти два условия на самом деле довольно мягкие, что делает поиск очень широким.

Первая проблема Кими заключалась в том, что она не могла получить доступ к Xiaohongshu. На самом деле, это можно было бы решить, заблаговременно спросив пользователя, аналогично методу, используемому GPTagent.
Но это не сработало. Вместо этого Кими обратился к Newrank для сбора данных, что позволило ему обойти разрешения сайта и получить прямой доступ к цифрам. Это была не очень удачная стратегия, так как он смог найти лишь небольшое количество блогеров, что, очевидно, намного больше, чем на Xiaohongshu. Кроме того, исключение из платформы помешало ему продемонстрировать свои визуальные способности, поскольку он собирал только легкодоступные данные.

В целом, однако, Swarm Agent внушает ощущение надежности. Может ли один агент выполнить эти задачи? Конечно, может, но это занимает время и чревато ошибками. Выполнение задачи группой людей обеспечивает большую уверенность.
Где же инновации?
На этом этапе вы можете спросить: разве это не просто многоагентная архитектура? Многие компании уже используют её.
Ключевое различие заключается в том, «кто будет начальником».
В традиционных многоагентных системах человеку необходимо заранее спроектировать весь рабочий процесс: кто за что отвечает, что выполняется первым и как подводятся итоги. Это как строить из кубиков: сначала нужно нарисовать чертежи. Ключевое новшество Agent Swarm заключается в том, что сам ИИ выступает в роли проектировщика.
Команда Кими использовала метод обучения PARL (Parallel-Agent Reinforcement Learning), чтобы научить модель «разбивать задачи на части» и «распределять ресурсы ». Ей не нужно говорить: «Сначала отправьте 3 человек на поиск информации, затем 2 — на написание резюме», она может сама определить: на сколько частей следует разбить эту задачу? Кто должен выполнять каждую часть? Когда следует выполнять работу параллельно, а когда — последовательно?
Иными словами, Multi-Agent — это «симфонический оркестр, составленный людьми», а Agent Swarm — это джазовый ансамбль, собранный самим искусственным интеллектом.

Ещё одно легко путаемое понятие — MoE: Mixture of Experts (смесь экспертов). Многие распространённые крупномасштабные модели используют архитектуру MoE внутри себя, но они совершенно отличаются от Agent Swarm.
Моделирование процессов происходит внутри модели. Можно представить это как группу «экспертов», живущих внутри модели, и каждый раз, когда обрабатывается задача, модель динамически решает, каких экспертов привлечь к участию. Однако эти эксперты не обладают независимой идентичностью и не сотрудничают друг с другом; они просто представляют собой разные вычислительные пути внутри модели.
Процесс «роя агентов» происходит вне модели. Каждый субагент представляет собой относительно независимую исполнительную единицу со своими собственными задачами, может работать параллельно и даже запускать инструменты (например, поиск по веб-страницам или написание кода). Взаимоотношения между ними представляют собой истинное «сотрудничество», а не просто «активацию».
Если использовать несколько неточную аналогию: MoE — это как распределенная работа мозга человека, а Agent Swarm — это как командная работа в компании .
На основе реальных испытаний и официальных демонстраций Agent Swarm демонстрирует исключительно высокие результаты как минимум в следующих категориях задач:
Первая категория — это крупномасштабный сбор информации. Примерами могут служить опрос создателей контента в 100 областях в официальном случае и поиск блогеров на Xiaohongshu в нашем тесте. Общей чертой решения задач такого типа является их «параллелизация» — каждая подзадача относительно независима и не требует значительной координации на промежуточных этапах.

Вторая категория — это сложные задачи, включающие как визуальное восприятие, так и программирование. Kimi K2.5 подчеркивает, что это «нативная мультимодальная» модель, способная понимать изображения и видео. В сочетании с Agent Swarm она может анализировать скриншоты пользовательского интерфейса, одновременно направляя различных агентов для обработки компоновки, стиля и логики взаимодействия, в конечном итоге генерируя полный фронтенд-код.

Третья категория — обработка длинных документов. В официальной документации указано, что Kimi Agent может обрабатывать «статью объемом 10 000 слов или документ на 100 страниц», поддерживая расширенные функции, такие как аннотации Word, сводные таблицы Excel и формулы LaTeX. Agent Swarm может разбивать длинные документы на несколько глав, позволяя различным агентам обрабатывать их параллельно, а затем объединять их в единый формат — как в исходном тестовом примере.
Однако не стоит пока слишком радоваться; Agent Swarm не «жульничает». На практике вы обнаружите несколько очевидных ограничений:
Во-первых, сама задача должна быть «разложимой на составляющие». Если между этапами задачи существуют сильные зависимости — например, «сначала обдумывание аргумента, затем поиск доказательств и, наконец, написание заключения» — принудительная их параллельная реализация на самом деле принесет больше вреда, чем пользы.
Во-вторых, затраты значительно возрастут. Одновременная работа 100 прокси-серверов означает в 100 раз больше вызовов API. Хотя общее время работы сократится, потребление токенов будет существенным.
Во-третьих, качество не обязательно лучше, чем у одного агента. Для некоторых задач, требующих глубокого логического мышления, таких как математические доказательства или сложные задачи программирования, «режим глубокого мышления» одного агента на самом деле более надежен. Преимущество Agent Swarm заключается в его «широте» и «скорости», а не в «глубине». В ходе реального тестирования Kimi автоматически переключался на модель с одним агентом для решения некоторых задач, что подтвердили члены команды Kimi в онлайн-вопросах и ответах на Reddit.

Будущее, каким его видит команда Кими.
В ходе сессии вопросов и ответов (AMA) на Reddit команда Кими ответила на многочисленные вопросы о технологиях, продуктах и видении будущего. Благодаря этим ответам мы можем составить представление об их мыслях по поводу Agent Swarm и даже о будущем искусственного интеллекта в целом.
На вопрос о дальнейших планах развития Agent Swarm команда Кими назвала несколько направлений:
[Более интеллектуальное планирование] Текущая система роя агентов может автоматически декомпозировать задачи и создавать под-агентов, но стратегия планирования все еще относительно «грубая». В будущем ожидается, что удастся установить более детальное распределение ресурсов — например, динамически определять, «сколько человек отправить и как долго работать», исходя из срочности, сложности и зависимостей задачи.
[Более глубокое сотрудничество] В настоящее время взаимодействие между субагентами ограничено и в основном сводится к «выполнению каждым своей работы и передаче результатов ведущему агенту для агрегирования». В будущем может быть обеспечена поддержка прямого сотрудничества между субагентами, например, «агент А, обнаружив проблему, может заблаговременно обратиться за помощью к агенту Б».
[Расширение интеграции инструментов] Команда Kimi заявила о расширении библиотеки инструментов, доступных Agent, включая, помимо прочего, больше офисного программного обеспечения, сред разработки и инструментов анализа данных. Цель состоит в том, чтобы позволить Agent Swarm действительно выполнять сложные рабочие процессы «от начала до конца».
Ещё один интересный вопрос из сессии вопросов и ответов: многие говорят, что закон масштабирования достиг своего предела. Как команда Кими относится к этому вопросу?
Команда Кими ответила, что кластеризация агентов была их первой попыткой. Заглядывая в будущее, возможно, появится модель, которая потребует минимальной или вообще никакой предварительной информации от человека.

Эта концепция может показаться идеалистической, но при более внимательном рассмотрении она имеет глубокие последствия. В течение последних двух лет область ИИ была сосредоточена на «масштабировании параметров» — модели становятся все больше и все дороже. Agent Swarm представляет собой другой подход: вместо того, чтобы один супермозг делал все, лучше иметь группу работающих вместе супермозгов, каждый из которых выполняет свои задачи.
Возможно, это более прагматичный путь к созданию общего искусственного интеллекта: отдельная пчела может показаться незначительной, но когда тысячи пчел работают вместе, они способны построить сложные ульи.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.
ifanr | Оригинальная ссылка · Посмотреть комментарии · Sina Weibo