Ян Чжилинь, Ло Фули, Ся Лисюэ, Чжан Пэн и Хуан Чао — пять ведущих специалистов в области искусственного интеллекта — подробно обсудили лобстеров, токены и открытый исходный код.
Слово «лобстер» стало одним из наиболее часто используемых в последнее время в сообществе специалистов по искусственному интеллекту.
Речь идёт об OpenClaw, фреймворке для создания интеллектуальных агентов с открытым исходным кодом, который в последнее время быстро распространился в сообществе ИИ. Некоторые считают его похожим на Jarvis, другие — на каркас системы, а третьи — на облегчённую операционную систему. Его используют все, и чем больше его используют, тем больше не могут остановиться.
Последовали дискуссии: что могут делать омары, чего они не могут, куда это приведет дальше, достаточно ли вычислительной мощности, кто от этого выигрывает, а кто обеспокоен.

Теперь группа людей, наиболее близких к передовой линии индустрии, собралась и провела серьезное обсуждение этого вопроса. Только что Ян Чжилинь, основатель Moon's Dark Side, модерировал дискуссию с участием пяти человек за круглым столом, посвященным открытому исходному коду, в рамках ежегодной встречи форума Чжунгуаньцунь в Пекине. В число участников вошли Чжан Пэн, основатель Zhipu; Ся Лисюэ, основатель Wuwenxinqiong; Ло Фули, руководитель подразделения Xiaomi MiMo; и Хуан Чао, доцент Гонконгского университета.
Разговор начался с обсуждения реального пользовательского опыта OpenClaw и продолжился обсуждением логики ценообразования моделей, структурных узких мест в инфраструктуре вывода, инноваций в архитектуре моделей и коллективной оценки отраслевых тенденций на ближайшие двенадцать месяцев.
Что изменил OpenClaw: от общения в чате до реальной работы?
В начале форума Ян Чжилинь поднял распространенную тему: Какой самый впечатляющий опыт использования OpenClaw или аналогичных продуктов в повседневной жизни? С технической точки зрения, как следует понимать эволюцию современных фреймворков для интеллектуальных агентов?
Чжан Пэн сказал, что начал экспериментировать с подобными инструментами очень давно, еще когда они назывались не OpenClaw, а ClawBot. Будучи программистом по образованию, он обладает природным чутьем к этим вещам. По его мнению, главный прорыв OpenClaw заключается в том, что он сделал возможности моделей высшего уровня, особенно в программировании и интеллектуальных агентах, доступными для обычных людей.
«Это больше не исключительная прерогатива программистов или гиков. Благодаря этому была создана прочная, но гибкая основа, позволяющая воплощать в жизнь идеи, которые ранее были невозможны из-за отсутствия навыков программирования, сегодня посредством простого диалога». Он предпочитает называть такие инструменты, как OpenClaw, «строительными лесами», поскольку они предлагают возможности, а не готовый продукт.
Первой реакцией Ся Лисюэ было чувство дискомфорта. Он привык общаться с большими моделями и поначалу находил OpenClaw медленным и тормозящим. Но позже он понял, что этот тип инструмента принципиально отличается от чат-бота: это скорее человек, способный справляться с большими задачами, а не инструмент для ответов на вопросы.
«От моделей оплаты на основе токенов до интеллектуальных агентов, которые могут помочь вам в выполнении задач, потенциал ИИ совершил огромный скачок. Но в то же время требования к возможностям всей системы также значительно возросли, поэтому я изначально думал, что она тормозит».
Затем он обнародовал поразительную статистику: с конца января этого года использование токенов Wuwenxinqiong удваивалось примерно каждые две недели, а сейчас увеличилось в десять раз. «В последний раз я видел такой темп роста еще в эпоху 3G, когда мобильный интернет только начинал распространяться. Тогда у каждого было по 100 мегабайт данных в месяц, и нынешнее использование токенов создает такое же ощущение».
Он считает, что всех имеющихся ресурсов далеко не достаточно для поддержки этой стремительно развивающейся эпохи, и необходимы более эффективная оптимизация и интеграция.
Ло Фули предложила иной взгляд с точки зрения проектирования фреймворков для разработки продуктов. Она рассматривает OpenClaw как революционное и революционное событие в области фреймворков для агентов. Она отметила, что многие в сообществе разработчиков глубокого кода по-прежнему выбирают Claude Code в качестве основного инструмента, но считает, что только те, кто действительно использовал OpenClaw, могут оценить его уникальные особенности дизайна. Она также указала на то, что многие недавние обновления Claude Code фактически приближаются к направлению дизайна OpenClaw.
Она кратко изложила два основных принципа ценностей OpenClaw.
Во-первых, это открытый исходный код. Открытый исходный код позволяет обеспечить активное участие сообщества и постоянное совершенствование, что является важнейшим условием. Она считает, что ключевая ценность фреймворков с открытым исходным кодом заключается в значительном расширении возможностей отечественных моделей, которые, несмотря на небольшое количество параметров, обладают значительной квалификацией.
«В большинстве сценариев показатель выполнения задач очень близок к уровню последней модели Клода, при этом сохраняется хороший нижний предел благодаря полноценной системе ремней безопасности и системе навыков».
Во-вторых, это пробудило воображение всех относительно слоя, расположенного над большой моделью, а именно слоя интеллектуальных агентов. Она увидела, как все больше и больше людей без исследовательского образования начинают участвовать в трансформации ИИ с помощью более совершенных агентных фреймворков, в некоторой степени заменяя повторяющиеся задачи в своей работе и высвобождая время для более творческих занятий.
Она также упомянула об особенностях пользовательского опыта: в отличие от Claude Code, который позволяет развивать творческий потенциал только на настольных компьютерах, OpenClaw дает пользователям возможность участвовать в творческом процессе в любое время и в любом месте, и расширение воображения не ограничено никакими условиями.
Хуан Чао проанализировал причины широкого распространения OpenClaw, сосредоточив внимание на его интерактивном режиме.
Он считает, что первым ключевым фактором является «ощущение жизни». Предыдущие инструменты для работы с агентами, такие как Cursor и Claude Code, больше напоминали инструменты; OpenClaw, со встроенным программным обеспечением для обмена мгновенными сообщениями, ближе к тому личному Джарвису, которым мы себя представляем. «Это ощущение жизни — первый раз, когда многие люди по-настоящему чувствуют приближение ИИ».
Второй фактор заключается в том, что OpenClaw в очередной раз подтверждает парадигму агентного цикла, которая кажется простой, но при этом чрезвычайно эффективна. Третий вопрос, заслуживающий внимания, заключается в том, нужен ли нам универсальный сверхинтеллектуальный агент или же облегченная операционная система или каркас для использования всех инструментов и возможностей всей экосистемы.
Он склоняется ко второму варианту, полагая, что OpenClaw больше похож на маленького дворецкого на уровне операционной системы. Благодаря этой точке входа всё больше людей в сообществе начинают разрабатывать приложения для таких систем, расширяя возможности различных отраслей за счёт приобретения навыков и инструментов. Это, естественно, тесно интегрировано со всей экосистемой открытого исходного кода.
Для выполнения задания необходимо потратить в 100 раз больше жетонов, чем было изначально.
Затем Ян Чжилинь переадресовал вопрос к недавно выпущенной модели GLM-5-Turbo компании Zhipu и сопутствующей стратегии повышения цен, поинтересовавшись, какие рыночные сигналы она отражает.
Чжан Пэн сказал, что это обновление является поэтапным достижением, выпущенным с опережением графика в рамках общих целей развития. Главная цель одна: перейти от «диалога» к «выполнению работы». OpenClaw показал всем, что большие модели действительно могут помочь людям в решении задач, но требования к возможностям моделей для этого гораздо выше, чем раньше.
«Необходимо осуществлять долгосрочное планирование задач, постоянно сжимать контекст, отлаживать систему в любое время и обрабатывать мультимодальную информацию. Это совершенно отличается от традиционной универсальной диалоговой модели».
В GLM-5-Turbo были внесены существенные улучшения в этих областях, особенно в том, как модель может непрерывно зацикливаться и выполнять задачи. Также были проведены оптимизации эффективности, позволяющие создавать более эффективные пути вывода для обработки сложных задач, предотвращая ситуацию, когда пользователи видят только постоянное уменьшение цифр в своих счетах.
Что касается повышения цены, по его мнению, выполнение сложной задачи теперь включает в себя длинную цепочку вывода, лежащую в основе модели, требующую программирования, взаимодействия с базовой инфраструктурой и постоянной коррекции ошибок. Количество потребляемых токенов может быть в десять или даже сто раз больше, чем при ответе на простой вопрос. По мере увеличения размера модели стоимость вывода соответственно возрастает, и цена, естественно, вернется к своему нормальному коммерческому значению.
«В долгосрочной перспективе опора на конкуренцию по низким ценам вредит развитию всей отрасли. Нам необходим благоприятный цикл развития бизнеса, позволяющий постоянно оптимизировать возможности нашей модели и предоставлять более качественные услуги всем».
Существующие архитектуры облачных вычислений не предназначены для искусственного интеллекта.
В связи со взрывным ростом использования токенов и переходом отрасли от эпохи обучения к эпохе вывода результатов, проблема давления на инфраструктуру вывода результатов стала неизбежной.
Ся Лисюэ заявила, что Wuwenxinqiong — это поставщик инфраструктурных решений, появившийся в эпоху искусственного интеллекта. В настоящее время компания предоставляет услуги Kimi, Zhipu, а также многим университетам и исследовательским институтам, и сотрудничает с memo. Они размышляют над ключевым вопросом: какая инфраструктура необходима в эпоху искусственного интеллекта и как поэтапно её реализовать и разработать.
По его мнению, наиболее актуальной проблемой на данный момент является создание более эффективной фабрики токенов.
Подход компании Wuwen Chip заключается в интеграции программного и аппаратного обеспечения, объединении практически всех типов вычислительных чипов в Китае и связывании десятков чипов и десятков различных кластеров вычислительной мощности. «Когда ресурсов недостаточно, есть два наилучших способа: во-первых, в полной мере использовать все доступные ресурсы; во-вторых, обеспечить эффективное использование каждого бита вычислительной мощности для максимизации эффективности преобразования». Они также изучают возможность создания более глубокой синергии с использованием новейшей модели и аппаратной структуры.
Однако он считает, что простого создания стандартизированной фабрики токенов недостаточно. Он высказывает более фундаментальное мнение: существующая инфраструктура облачных вычислений предназначена для обслуживания инженеров-людей, а не искусственного интеллекта. «Мы создали инфраструктуру с интерфейсами, разработанными для людей, а затем вам нужно добавить еще один слой для подключения к интеллектуальным агентам. Такой подход ограничивает возможности интеллектуальных агентов функционировать, используя человеческие способности».
Он привёл конкретный пример: интеллектуальные агенты могут думать и начинать задачи за секунды или даже миллисекунды, но многие существующие базовые возможности просто не рассчитаны на такую скорость, поскольку люди обычно начинают задачу за минуты. Эта проблема требует разработки более интеллектуальной системы управления, которую они называют частью возможностей агента.
В долгосрочной перспективе он считает, что когда наступит настоящая эра искусственного общего интеллекта, даже сама инфраструктура должна стать интеллектуальным агентом, способным к самоэволюции и самосовершенствованию, образуя автономную организацию. «Это как если бы у инфраструктуры был генеральный директор, и этот генеральный директор — агент, который выдвигает требования, исходя из потребностей клиентов ИИ, и совершенствует свою собственную инфраструктуру. Только таким образом можно создать истинную связь между ИИ и инфраструктурой, а не односторонние отношения, где один получает требования, а другой их выполняет».
Они также изучают способы улучшения связи между агентами и возможности репликации данных между кэшами. По его мнению, развитие инфраструктуры и ИИ должно порождать богатую синергию; это и есть настоящее сотрудничество аппаратного и программного обеспечения, и именно этой миссии всегда стремился достичь Wuwen Chip.
Ограниченность вычислительной мощности неожиданно привела к прорыву.
Вместо того чтобы напрямую говорить об уникальных преимуществах Xiaomi, Ло Фули переключил внимание на более широкую перспективу всей китайской команды разработчиков крупномасштабных моделей, полагая, что эта перспектива более ценна.
Она рассказала, что около двух лет назад стала свидетельницей важного прорыва, предпринятого китайской командой разработчиков крупномасштабных моделей. Этот прорыв стал результатом навязанной им задачи: как преодолеть ограничения вычислительной мощности маломощных систем, особенно ограниченную пропускную способность межсоединений NVLink, и инновационно разработать структуру модели, по-видимому, в ущерб эффективности.
DeepSeek V2, серия V3, а позже и MiniMax M1 — все это продукты подобных исследований.
«Эти инновации положили начало настоящей революции: как максимизировать уровень интеллекта при заданной вычислительной мощности. DeepSeek вселил смелость и уверенность во все отечественные команды разработчиков крупномасштабных моделей». Она подчеркнула, что, хотя ограничения на отечественные чипы сегодня не столь строги, исследование структур моделей с более высокой эффективностью обучения и более низкими затратами на вывод, которое стало возможным в этот период, сформировало действительно ценное технологическое наследие.
Она упомянула несколько конкретных направлений: гибридную разреженную архитектуру, архитектуру KSA от Kimi и новую структуру Xiaomi для следующего поколения. Все они отличаются от нынешнего поколения трансформерной архитектуры и направлены на разработку более эффективных инноваций в структуре моделей для эпохи интеллектуальных агентов.
Она особо подчеркнула важность длительных контекстных навыков и напрямую связала их с OpenClaw.
«OpenClaw становится лучше и умнее по мере использования, при условии, что контекст вывода достаточно длинный. Но многие модели не могут обрабатывать один или даже десять мегабайт контекста не из-за своих возможностей, а из-за стоимости. Это слишком дорого и слишком медленно в реализации. Только когда стоимость будет низкой, а скорость достаточно высокой при работе с длинным контекстом, мы сможем доверить модели действительно продуктивные и сложные задачи».
Она также описала конечную цель этого пути: при поддержке сверхдлинных контекстов модели могут развиваться в сложных средах, включая оптимизацию самой структуры и итеративное изменение параметров модели. Такой подход требует надежной архитектуры с длинным контекстом на этапе предварительного обучения и построения более эффективных алгоритмов обучения на этапе постобучения, собирающих реальные, долгосрочные зависимые текстовые данные и сложные данные о траекториях окружающей среды в контекстах размером в один мегабайт, десять мегабайт или даже сто мегабайт.
Она также поделилась некоторыми данными из команды: благодаря сочетанию кода Клода и высококачественных моделей, члены команды, занимающиеся крупномасштабными исследованиями с использованием моделей, повысили эффективность своих исследований почти в десять раз.
Планирование, память и использование инструментов
Хуан Чао систематически проанализировал основные проблемы и будущие направления развития существующей системы интеллектуальных агентов в ее трех ключевых модулях с технической точки зрения.
С точки зрения планирования, он считает, что способность планировать сложные задачи и чрезвычайно длительные периоды времени по-прежнему недостаточна. Например, многие модели плохо справляются с задачами развертывания, включающими 500 шагов или даже больше, в основном из-за недостатка неявных знаний в данной области. Он предлагает одним из направлений внедрения знаний предметной области для сложных задач в модель. Такие инструменты, как навыки и вспомогательные средства, в некоторой степени смягчают ошибки планирования, предоставляя высококачественные внешние возможности.
На уровне памяти сжатие информации и точность поиска остаются актуальными проблемами. По мере роста сложности задач контекст увеличивается экспоненциально, и в настоящее время большинство интеллектуальных агентских фреймворков по-прежнему полагаются на простейший метод обмена данными: файловые системы. Он считает, что будущие механизмы работы с памятью должны перейти к иерархической структуре, но достижение обобщения затруднено, поскольку модальности данных в сценариях кодирования, глубоких исследований и мультимедиа сильно различаются. Эффективный поиск и индексирование этой памяти остаются компромиссным решением.
Он также указал на новый источник давления: в будущем может существовать не один агент, а группа агентов, которыми будет управлять каждый человек. Механизм роя агентов Кими уже указывает в этом направлении. Всплеск контекста, вызванный группой агентов, значительно превысит всплеск от одного агента, что создаст огромную нагрузку на механизм памяти и всю архитектуру агентов. В настоящее время не существует зрелого механизма для решения этой проблемы.
На уровне использования инструментов он считает, что высококачественные навыки по-прежнему остаются дефицитом, что отражает дефицит высококачественных инструментов в эпоху MCP. Низкокачественные навыки напрямую снижают показатели выполнения задач, а риски безопасности, связанные с вредоносными внедрениями, также вызывают серьезную обеспокоенность. Он утверждает, что это требует совместных усилий всего сообщества, включая изучение способов динамического развития новых навыков в процессе выполнения, вместо того чтобы полагаться на ручную предварительную настройку.
Следующие двенадцать месяцев: Экосистема, саморазвитие, устойчивые токены и вычислительные мощности.
В конце форума Ян Чжилинь попросил каждого гостя описать наиболее важную тенденцию на следующие двенадцать месяцев, используя одно ключевое слово.
Хуан Чао отметил, что двенадцать месяцев — это очень далёкая перспектива в области ИИ, и задался вопросом, как всё будет выглядеть к тому времени. Ключевым словом для него было «экосистема». Он считает, что хотя сейчас люди используют интеллектуальных агентов с чувством новизны, настоящая проблема заключается в их интеграции в повседневные инструменты, превращении из личных помощников в настоящих работников и коллег. Это требует итерации моделей, разработки платформ навыков и совместных усилий различных инструментов, чтобы приблизить всю экосистему к более естественной модели интеллектуального агента.
Он также сделал интересное предсказание: в будущем большая часть программного обеспечения может перестать разрабатываться для людей, а станет разрабатываться для интеллектуальных агентов. Людям нужны графические интерфейсы пользователя (GUI), а интеллектуальным агентам — нет; вся экосистема переходит от модели GUI и MCP (многоклиентское программирование) к модели CLI (клиент-сервисный интерфейс). Это означает, что программные системы, данные и даже различные технологии должны пройти трансформацию в сторону проектирования, ориентированного на агентов.
Ло Фули использовала термин «самоэволюция». Она сказала, что это понятие звучит несколько абстрактно, но недавно она получила более конкретное понимание и практический подход к нему. Ключевой момент: при наличии достаточно мощной модели, если добавить проверяемое ограничение в структуру агента и установить непрерывный цикл, позволяющий модели итеративно оптимизировать цель, вы обнаружите, что она может постоянно находить лучшие решения и работать автономно в течение двух-трех дней.
Она привела конкретный пример: в исследовательских задачах с четкими критериями оценки, таких как поиск лучших структур моделей, модель уже может работать и выполняться автономно в течение двух-трех дней. «Самоитерация — единственный путь к созданию чего-то нового, чего еще не существует в этом мире. Речь идет не о замене человеческой производительности, а об исследовании неизвестного, как это делают ведущие ученые. Год назад я думала, что на это потребуется от трех до пяти лет, но теперь я думаю, что этого действительно можно достичь за один-два года».
Она предполагает, что в сочетании с мощной самоитерирующейся агентной моделью ускорение научных исследований будет экспоненциальным.
Ся Лисюэ выбрал концепцию «устойчивых токенов». Он отметил, что весь процесс разработки все еще продолжается и должен быть устойчивым. Он использовал концепцию «ИИ, сделанный в Китае», чтобы описать свое видение: использовать преимущества Китая в энергетике и вычислительной мощности посредством эффективной фабрики токенов, постоянно преобразуя их в высококачественные возможности ИИ и экспортируя их по всему миру.
«Логика одинакова как для концепции „Сделано в Китае“, так и для „Искусственный интеллект сделан в Китае“. Китай может преобразовать свои возможности по производству недорогих изделий в высококачественную продукцию для глобального экспорта, и точно так же он может перенести эти возможности на производство и экспорт токенов». Он надеется, что это действительно воплотится в жизнь в этом году, превратив Китай в мировую фабрику токенов.
Ключевое слово Чжан Пэна — «вычислительная мощность».
По его мнению, "основа всех технологий заключается в том, что они доступны каждому. Нельзя задать вопрос, долго размышлять над ним и не получить ответа только потому, что вычислительной мощности недостаточно. Это совершенно неприемлемо".
Он упомянул распространенную в отрасли поговорку: «Нет карт — нет чувств; разговоры о картах задевают чувства». Спрос вырос в десять, а то и в сто раз, и значительная часть этого спроса остается неудовлетворенной. Он считает, что вычислительная мощность — это наиболее насущная проблема, требующая коллективных усилий для ее решения в течение следующих двенадцати месяцев. Lobster расширил границы воображения, но вычислительная мощность, архитектура и инфраструктура все еще находятся на пути к совершенствованию.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете в кратчайшие сроки увидеть еще больше интересного контента.