Apple открывает Siri для выбора моделей искусственного интеллекта, но мне кажется, что это имеет смысл лишь в ограниченном объеме.
На конференции WWDC 2024 компания Apple пообещала нам более умную и функциональную Siri . Презентация была убедительной: Siri, которая понимает ваш личный контекст, разбирается в ваших сообщениях и электронных письмах, выполняет действия внутри ваших приложений и превращается в настоящего голосового помощника.
Два года спустя эта мечта так и остаётся мечтой. Но вот что может изменить ход развития голосового помощника Apple. Согласно сообщениям, Siri больше не привязана к одному единственному искусственному интеллекту . Apple создаёт её гибкой, способной перенаправлять запросы к той внешней модели, которая лучше всего справляется с задачей.
Это заставило меня задать вопрос. Если Siri может использовать любой ИИ , то какой именно ей следует использовать? Сейчас по умолчанию используется модель ChatGPT. Но я бы сказал, что Gemini — более логичный выбор, и вот почему.
Siri — это поисковая система.
Подумайте, как вы на самом деле используете Siri ежедневно. Вы спрашиваете о погоде на сегодня. Вы спрашиваете о ближайших к вам ресторанах. Вы просите ее найти что-нибудь в интернете. Значительная часть использования Siri связана с поиском или запросами, похожими на поиск, и ни одна компания в мире не делает поиск лучше, чем Google .
Компания Google десятилетиями создавала самую мощную поисковую систему, и этот опыт теперь напрямую используется в Gemini . Когда вы задаете Gemini какой-либо вопрос , она не просто использует языковую модель. Она извлекает данные из веб-индекса Google в реальном времени, Google Maps, Google Shopping и других источников.
Использование этих технологий для расширения возможностей поиска Siri выведет её на новый уровень, недостижимый для других поставщиков LLM-решений.
Apple обещала персональный интеллект, но Gemini его реализует.
Одним из главных моментов презентации Apple на WWDC 2024 стал персональный интеллект. Apple продемонстрировала, как Siri отображает контекстную информацию из разных приложений, отвечая на вопросы типа «Когда приземляется рейс моей мамы?» или «Покажи мне фотографии Стейси в розовом пальто из Нью-Йорка».
В демоверсии это действительно впечатляло. Однако, если я прошу показать мне фотографию, где я в чёрной футболке, она показывает случайные фотографии людей из интернета в чёрных футболках. Я не преувеличиваю, когда говорю, что функция персонального интеллекта Siri оказалась колоссальным провалом.
Тем временем компания Gemini незаметно внедрила собственную функцию «Персональный интеллект». Она использует ваши данные из Gmail, календаря, Google Фото, Диска и других источников, чтобы анализировать вашу личную информацию и отвечать на сложные вопросы, связанные с жизненным контекстом. Это не идеально, но, по крайней мере, работает.
Это практически слово в слово то, что Apple демонстрировала как будущую функцию Siri, за исключением того, что Gemini делает это уже сегодня . Если Apple хочет ускорить предоставление этих функций пользователям, Gemini может стать тем самым кратчайшим путем, который им нужен.
Gemini уже делает то, что обещала Siri.
Apple Intelligence развертывает компактную и мощную модель искусственного интеллекта в системных приложениях, сочетая обработку на устройстве для обеспечения конфиденциальности с облачными вычислениями для более ресурсоемких задач. Именно обработка на устройстве и обеспечение конфиденциальности отличают Apple от конкурентов. Но теперь она не единственная.
Gemini Nano уже реализована на устройствах Pixel и Samsung Galaxy. Она обеспечивает офлайн-суммирование, интеллектуальные ответы и контекстные функции, и всё это без необходимости подключения к интернету. На Pixel 9 и более новых моделях Gemini Nano поддерживает мультимодальный режим и может обрабатывать изображения, тексты и языки непосредственно на устройстве.
Apple строит свою систему на основе уже реализованных Google функций. Вместо того чтобы изобретать велосипед заново, использование существующей платформы Nano от Gemini в качестве основы для функций Siri на устройстве сэкономило бы Apple много головной боли и денег.
Творческий инструментарий Gemini полон.
А вот тут начинается самое интересное. Gemini — это не просто текстовая модель. Она включает в себя целую творческую экосистему, которую Apple могла бы использовать.
Veo позволяет создавать видео с разрешением до 1080p, в кинематографическом стиле, а также клипы продолжительностью более минуты. Lyria от Google DeepMind отвечает за создание музыки и аудио. Что касается изображений, Nano Banana (сервис генерации изображений от Google) недавно получил крупное обновление, включающее улучшенное отображение текста, согласованность тем и поддержку любого соотношения сторон.
Компания Apple недавно запустила собственную платформу Creator Studio , предоставляющую пользователям доступ к инструментам для творчества за фиксированную ежемесячную подписку. Если компания всерьез намерена конкурировать с такими гигантами, как Adobe, ей необходимо предложить возможности генеративного моделирования. И знаете что? Gemini уже обладает всеми этими возможностями, и было бы вполне логично интегрировать его в творческий пакет Apple.
Партнерство уже существует.
Этот момент обсуждается недостаточно. По имеющимся данным, Google ежегодно платит Apple около 20 миллиардов долларов за то, чтобы оставаться поисковой системой по умолчанию в Safari. Это одна из самых ценных сделок по распространению контента в истории технологий. Отношения между Apple и Google глубокие, давние и финансово огромные для обеих компаний.
Расширение этих отношений от «Google обеспечивает работу поиска в Safari» до «Gemini обеспечивает работу функций искусственного интеллекта Siri» — это не резкий скачок. Это естественное развитие партнерства, которое управляет половиной процессов, происходящих при открытии браузера на вашем iPhone.
Так какой же модели я бы предпочёл остаться?
Claude отлично подходит для чтения длинного контекста и тонкого анализа. ChatGPT обладает обширной экосистемой и мощными инструментами для программирования и работы с агентами. Оба инструмента прекрасно работают в качестве специалистов, выбираемых пользователем. Я сам использую Claude на своем компьютере.
Но в качестве основного механизма Siri? Это не лучший выбор. Gemini работает на уровне операционной системы на мобильных устройствах, понимает поисковые запросы и личный контекст, существует в форм-факторе Nano и находится в центре самых важных коммерческих отношений Apple с любой технологической компанией.
Все составляющие налицо. Вопрос не в том, сможет ли Gemini обеспечить работу более умной Siri. Вопрос в том, смогут ли Google и Apple заключить взаимовыгодную сделку. И если верить слухам, то, возможно, все уже движется в этом направлении.