Как мне уговорить нового агента Кими создать для меня путеводитель ко Дню независимости? Столкнусь ли я с какими-либо трудностями, если буду путешествовать с помощью ИИ?

Во время празднования Национального дня крупные модели искусственного интеллекта представили свои награды в виде волны обновлений.

OpenAI внезапно выпустил Sora2, DeepSeek обновился до V3.2, Zhipu обновился до GLM-4.6, а Kimi обновил приложение, а затем тихо написал это предложение в своей истории версий.

У Кими, конечно, тоже есть «дань уважения». В прошлый четверг началось тестирование режима «Агент» и был запущен интеллектуальный агент под названием «OK Computer».

В отличие от глубоких исследований, которыми мы делились ранее, OK Computer выходит за рамки простого предоставления визуального отчёта. Он даёт нам компьютер. Всё, что мы можем сделать с помощью компьютера, может сделать и агент OK Computer.

Но между умением что-то сделать и умением делать это хорошо — большая разница. Как и прежде, мы проведём испытания в реальных условиях, чтобы увидеть, как новый компьютер Кими OK Computer покажет себя в категории «Агент».

ИИ поможет вам спланировать путеводитель по Дню независимости

Сначала давайте взглянем на возможности развёртывания веб-сайтов. Скорость значительно выше, чем при глубоком исследовании, но, думаю, эффект всё ещё на уровне «популярного агента», особенно фон некоторых страниц всё ещё градиентно-фиолетовый.

▲ Подсказка: Я хочу создать многостраничный туристический сайт, посвященный Дню независимости. Требования: 1. На главной странице должно быть введение «Куда поехать на День независимости» и рекомендации трёх направлений внутри страны, подходящих для 3–5-дневной поездки. Контент должен быть интересным. 2. На второй странице должен быть планировщик маршрута: планируйте питание, развлечения и проживание на каждый день и выводите таблицу. 3. На третьей странице должен быть калькулятор бюджета: разбивайте расходы на четыре категории: транспорт, проживание, питание и билеты, указывайте примерный диапазон цен и автоматически обновляйте бюджет при изменении количества человек. 4. Дизайн должен быть ориентирован на мобильные устройства, подходить для просмотра с мобильных устройств, с чистым, понятным дизайном страницы и, желательно, с использованием эмодзи.
https://dpcbcrcmrjbym.ok.kimi.link/

Содержание, оформление и подборка изображений весьма разумны; однако рекомендуемые места — Пекин, Ханчжоу и Западное озеро. Если вы поедете на Западное озеро во время празднования Дня национального праздника, то, скорее всего, увидите только людей. Поэтому, я считаю, что создание этого «Путешествия ко Дню национального праздника» нельзя назвать выдающимся.

С другой стороны, если бы я попросил OK Computer напрямую сгенерировать для меня маршрут путешествия и сказал бы ему действовать как первоклассный планировщик путешествий и разработать два маршрута, которые бы полностью избегали Золотой недели Национального дня, предоставленные им результаты выглядели бы весьма неплохими.

▲ Подсказка: Золотая неделя Национального дня уже совсем близко, и мы с тремя друзьями (всего четыре человека) планируем семидневное автопутешествие. Наши основные требования — «небольшое количество людей, красивые пейзажи и яркие впечатления», полное отсутствие очередей и толп. Пожалуйста, возьмите на себя роль главного организатора путешествий и разработайте для нас два отдельных маршрута «обратного тура». Создайте красивое, подробное слайд-шоу для каждого маршрута, чтобы мы могли проголосовать за него внутри компании.
https://3hhjy4acccol4.ok.kimi.link/

Эстетика довольно хорошая, шрифт, фоновое изображение и цвета подобраны очень удачно. Однако, мне всё же кажется, что контент немного пустоват, и мало что может действительно помочь мне в путешествиях.

В большинстве случаев я просто знаю, что такие места существуют, но понятия не имею, зачем они нужны и как туда попасть. Более того, я отношусь к подобному контенту с некоторым недоверием. Если бы мне показали достопримечательность, рекомендованную искусственным интеллектом, и фотографию достопримечательности, отфильтрованную с помощью фильтра Xiaohongshu, я бы всё равно выбрал ту, что опубликовал пользователь Xiaohongshu.

Компания OK Computer выполнила оба проекта очень быстро. Мы также опробовали этот вариант, используя глубокое исследование Кими. В результате работа заняла почти час, и в итоге был подготовлен предварительный отчёт объёмом более 50 страниц.

▲ Из-за ограничений по размеру полный контент можно найти по адресу https://www.kimi.com/preview/19984f16-9a42-89a6-8000-05d52a6374b9

Поскольку Deep Research отличается от OK Computer, в Deep Research доступен только предварительный отчет, который нельзя изменить.

Компания Qianwen также недавно обновила множество новых моделей. В их официальном блоге я видел умного помощника под названием «Планировщик путешествий». Если я предъявлю ему те же требования, будет ли результат лучше, чем OK Computer от Kimi?

▲10-страничный PDF-файл с четким указанием периода времени, типа деятельности и возможных расходов на топливо. https://chat.qwen.ai/s/15769740-974a-4fbb-b0bf-dd835ea999ec

Ответ действительно лучше. Qwen, планировщик путешествий, в полной мере использует обширную экосистему Alibaba. Вместо того, чтобы просто указать несколько достопримечательностей и соединить их в маршрут, он фактически использует карты AutoNavi для определения подходящего маршрута с учётом заданной широты и долготы. Это очень похоже на недавнюю платформу планирования путешествий Fliggy AI, которая также является компанией.

Эффекты других продуктов-агентов, по сути, мало чем отличаются от OK Computer Кими. Агент ChatGPT сгенерировал 10-страничный PPT, такой же лаконичный, как и раньше; и Manus был таким же красивым, но не имел особой практической ценности.

▲ Контент, сгенерированный агентом ChatGPT на основе того же ключевого слова

Однако преимущество Kimi в том, что он может выдавать схожие результаты без необходимости дополнительных настроек сети.

Кроме того, недавно они запустили платный план членства, который позволяет вычесть все предыдущие суммы чаевых в качестве членских взносов, а бесплатные пользователи также могут получить ограниченное количество возможностей пробного использования OK Computer.

iPhone против Xiaomi 17 Pro Max

Также на основе возможностей Agentic Kimi K2, OK Computer будет автоматически просматривать веб-страницы, искать релевантный контент и генерировать изображения для завершения дизайна веб-страницы.

На этот раз информация более полная и точная. Когда OK Computer искал веб-контент, я обнаружил, что большинство использованных источников — это международные технологические СМИ, такие как The Verge. В процессе углубленного исследования с помощью Kimi в качестве источников информации в основном использовались веб-страницы на упрощенном китайском языке.

▲ Задание: Помогите создать веб-сайт с динамичной адаптивной версткой, подходящий для мобильных телефонов и компьютеров. Тема: «Сравнение iPhone 17 Pro Max и Xiaomi 17 Pro Max». Требования: найти актуальную информацию о двух мобильных телефонах в интернете, сравнить основные преимущества, составить привлекательные таблицы и выделить такие аспекты, как камера, процессор, аккумулятор, цена и т. д. Необходимо провести горизонтальное и вертикальное сравнение двух продуктов, например, сравнение iPhone 17promax и 16 promax, а также Xiaomi 17promax и 15 promax. Также сделайте вывод: какой из них стоит купить? Используйте краткие маркированные списки, чтобы перечислить преимущества и недостатки. Каждая страница должна быть лаконичной, не слишком многословной, но с достаточным количеством информации, и использовать подходящие иллюстрации.
https://rwsh4gkhckrxy.ok.kimi.link/

Кроме того, OK Computer также имеет функцию создания звука из изображений, как, например, эта фотография разборки камеры мобильного телефона, которая поразила меня с первого взгляда.

Доставка агента: потрясающая демонстрация, но сложная в реализации

После этих тестов я не могу сказать, что возможности Agentic у Kimi K2 недостаточны, но мне кажется, что большинство продуктов на базе Agentic все еще застряли на этапе « я могу что-то сделать, но это может оказаться бесполезным ».

Почти все агенты утверждают, что могут создавать презентации PowerPoint, отчеты по бизнес-анализу, планировать маршруты поездок, разрабатывать и размещать веб-сайты и т. д. Однако я думаю, что сложно найти конечные результаты, которые можно было бы действительно использовать с уверенностью.

▲ GPDval — это новый метод оценки, используемый для измерения эффективности моделей в реальных задачах, имеющих экономическую ценность, в 44 профессиях, указанных выше.

Несколько дней назад компания OpenAI выпустила новый бенчмарк-тест GDPval. Он описывается как «конкурс профессиональных навыков», проводимый ИИ-агентами. Тест больше не является академическим, а включает в себя 44 реальные профессии из девяти отраслей, вносящих наибольший вклад в ВВП США.

Эти задачи были разработаны ведущими экспертами (такими как юристы, инженеры и медсестры) со средним опытом работы 14 лет, а предоставленный контент представлял собой не простой текст, а довольно сложные форматы, включая слайды, электронные таблицы, файлы проектов САПР и т. д., точно так же, как готовые продукты, предоставляемые Agent сейчас.

Появление GDPval фактически призвано начать решать проблему с этапа «я могу это сделать» до «я могу это сделать хорошо».

Профессиональные оценщики сравнили результаты модели с результатами экспертов. Результаты Claude Opus 4.1 были оценены как не хуже, чем у людей, или даже лучше почти в половине задач (47,6%).

Хотя это исследование OpenAI, первое место всё же занимает Claude Opus 4.1. Думаю, именно поэтому модель Claude так высоко ценится в сфере программирования. Клод умеет писать код, но он умеет писать код хорошо.

Что касается причин неэффективности работы агента, лаборатория Thinking Machines Lab, соучредителем которой является бывший руководитель OpenAI Мира Мурати, опубликовала пост в блоге. В нём говорится, что проблемы неопределённости, с которыми в настоящее время сталкиваются крупные языковые модели, связаны не со случайностью вычислений на графических процессорах, а с отсутствием пакетной инвариантности при обработке обучающих данных.

Другая причина — нехватка доступных данных для обучения . В отличие от обучения ИИ генерировать одно изображение, видео или текст, контент, который должен предоставить агент, сложен, а задачи в реальном мире многочисленны и не могут быть отнесены к одному типу медиа.

▲ В отличие от людей, обучающихся выполнять задачу, для больших моделей требуется имитация среды обучения с подкреплением.

Большинство задач агентов, которые мы часто видим сейчас, сосредоточены на создании PPT, создании веб-страницы, бронировании ресторана, просмотре социальных сетей от нашего имени, автоматических покупках и т. д. Это лишь очень малая часть реального мира, не говоря уже о том, что для этих задач нет четких критериев оценки.

TechCrunch, известное техническое издание, недавно сообщило, что Кремниевая долина вкладывает значительные средства в создание имитируемых тренировочных площадок для агентов, называемых «средами обучения с подкреплением». Некоторые основатели компаний, занимающихся разработкой ИИ, описывают эти «среды» как скучные видеоигры, включая симуляции браузеров, интернет-магазинов и даже редакторов кода.

▲ Чтобы проверить выполнение задачи агентом, необходимо разбить общую задачу на более мелкие этапы и создать стандарт оценки, чтобы проверить, правильно ли модель ИИ выполнила каждый этап. Источник изображения: https://www.theinformation.com/articles/anthropic-openai-developing-ai-co-workers

В такой «среде» ИИ-агент, подобно начинающему игроку, учится самостоятельно выполнять ряд сложных многоэтапных задач, таких как покупка товаров и исправление кодов, посредством повторных попыток, неудач и вознаграждений.

Тогда Фэй-Фэй Ли сделала большой шаг вперед в области компьютерного зрения, создав массив размеченных данных ImageNet, и ее также называют «крестной матерью ИИ».

Текущее развитие агентов, похоже, происходит по-прежнему. Без большого количества задач, обозначенных как «среда обучения с подкреплением», агентам сложно стать надёжными технологиями глубокого обучения, такими как распознавание лиц, особенно учитывая, что суть «алхимии» не изменилась.

▲Обложка альбома OK Computer — это третий студийный альбом британской рок-группы Radiohead, выпущенный в 1997 году. С тех пор прошло почти 30 лет, и он завоевал множество наград, включая рейтинг «100 лучших альбомов».

Кими по-прежнему любит рок-музыку, начиная от названия его компании Moonshot (дань уважения Pink Floyd) и заканчивая названием OK Computer (дань уважения Radiohead).
В предисловии к альбому на Apple Music альбом OK Computer описывается как выражение исследований и размышлений людей о новых технологиях на пороге нового тысячелетия.

Несмотря на всепроникающее настроение страха и меланхолии, «OK Computer» сохраняет оптимизм, передавая веру в то, что движение общества вперед не обязательно означает, что мы утрачиваем нашу доброту.

Если вас угнетает ускоренный темп жизни, вызванный технологиями, то решение на самом деле довольно простое: как поет Йорк в конце заключительного трека «The Tourist»: «Идиот, сбавь скорость».

Сегодняшний запуск Кими OK Computer, похоже, отражает то, как технологии меняют наши рабочие привычки и ускоряют темп жизни. Однако очевидно, что существующие на рынке продукты-агенты вряд ли смогут нас по-настоящему перегрузить.

Будь то Kimi или ChatGPT, существует множество подобных продуктов-агентов. При их выпуске часто говорится о наличии у нашего агента этих функций и его возможностях, но редко говорится о том, что именно он может делать.

Нет нужды сбавлять темп, настоящий OK Computer все еще догоняет нас.

#Приглашаем вас следить за официальным публичным аккаунтом WeChat проекта iFaner: iFaner (WeChat ID: ifanr), где в ближайшее время вам будет представлен еще более интересный контент.

iFanr | Исходная ссылка · Просмотреть комментарии · Sina Weibo