Секретное приложение Google позволяет увидеть, как лучше всего использовать искусственный интеллект на телефоне
Будущее ИИ для смартфонов — на самом устройстве. Или сделать как можно больше ИИ-процессов локальными. Почему? Что ж, для выполнения этой работы не требуется подключение к интернету. Будь то запрос чат-бота на проверку и исправление грамматических ошибок, проведение краткого исследования, редактирование изображений или объяснение окружающего мира через камеру.
Во-вторых, никакие ваши персональные данные не нужно будет передавать с устройства на удалённый сервер для обработки. И, в-третьих, это будет быстрее. Чем меньше модель, тем быстрее она сможет выдавать результаты. Это своего рода компромисс. Облегчённая модель ИИ подразумевает ограниченные возможности.
Более крупная модель искусственного интеллекта, такая как Gemini или ChatGPT , может распознавать текст, изображения, аудио и даже генерировать видео. Это большие модели, и для них требуется огромная вычислительная мощность на специализированных чипах. Короче говоря, для этого нужно подключение к интернету. Но назревает нечто действительно интересное, и это нечто исходит от Google.
Что представляет собой это приложение на основе искусственного интеллекта?
Несколько месяцев назад компания представила приложение Google AI Edge Gallery. Пробыв некоторое время на GitHub, оно наконец-то появилось в Play Store . В идеале это приложение предназначено для разработчиков, стремящихся реализовать возможности ИИ в своих приложениях, но вы можете попробовать его, не теряя рассудка.
Представьте себе магазин приложений или площадку. Но вместо поиска приложений вы можете выбирать модели ИИ для своего телефона. Если вы сегодня купите Android-смартфон, например, Pixel 10 Pro, все функции ИИ будут реализованы в Gemini. Вы можете отдельно скачать приложения, такие как ChatGPT или Claude, но все они требуют подключения к интернету и отправляют ваши данные на серверы.
Галерея Google AI Edge Gallery специально создана для работы с моделями ИИ в автономном режиме. Поэтому, если вам нужно проанализировать изображение или составить краткое изложение длинного отчёта, вы можете сделать всё это в автономном режиме. И вот что самое приятное: вы можете использовать любую модель ИИ по вашему выбору, не устанавливая для неё отдельное приложение.
Если коротко, это приложение — универсальное решение для запуска ИИ-приложений, совершенно бесплатное и без подключения к интернету. Зачем вам это нужно? Ну, я могу представить несколько ситуаций.
Чем полезно это приложение?
Допустим, вы исчерпали лимит мобильного трафика, оказались в месте с ограниченным или отсутствующим интернет-соединением или просто не хотите передавать конфиденциальные отчёты онлайн-ИИ. Возможно, вам нужен специализированный ИИ, который выполняет только определённую задачу, например, преобразует PDF-файл в одностраничный список с тезисами. Или вы хотите предоставить изображения и поручить ИИ написать на их основе академический материал.
Для всех этих и других сценариев вы можете просто обратиться к Google AI Edge Gallery, запустить выбранную вами ИИ-модель и всё сделать. В настоящее время все необходимые «совместимые» модели можно скачать из библиотеки сообщества HuggingFace LiteRT .
Здесь вы найдёте несколько довольно мощных моделей ИИ, разработанных Google в серии Gemma. Они обладают мультимодальными возможностями, что означает возможность генерации текста, изображений и аудио. Однако вы можете экспериментировать и с другими моделями ИИ, такими как DeepSeek, SmolVLM, Microsoft Phi-4 Mini и Meta Llama.
Теперь позвольте мне дать краткий технический обзор. Все эти модели ИИ, доступные в Google AI Edge Gallery, оптимизированы для высокопроизводительной среды выполнения LiteRT, которая специально разработана для задач ИИ на устройствах. Как и упомянутые выше модели ИИ, LiteRT также является средой выполнения с открытым исходным кодом для больших языковых моделей (LLM).
Если вы хорошо знакомы с такими инструментами, как TensorFlow или PyTorch, вы можете импортировать любую подходящую «компактную» модель ИИ, хранящуюся на вашем ПК. Но сначала необходимо конвертировать файлы в формат .litertlm или .task. После этого достаточно просто поместить пакет в папку «Загрузки» на телефоне и импортировать его в галерею Google AI Edge несколькими нажатиями.
Каковы впечатления?
Я в основном экспериментировал с моделью Gemma 3n, поскольку она самая универсальная из всех. Помимо чатов, она также может обрабатывать изображения и генерировать звук. Можно выбрать, будет ли модель работать на CPU или GPU, настроить частоту дискретизации и температуру.
Последнее, проще говоря, является мерой разнообразия ответов ИИ. Более низкая температура даёт более предсказуемые, определённые и несколько повторяющиеся результаты. Более высокая температура, по сути, даёт точные ответы, но с более творческим подходом и большей вероятностью ошибки.
Вам не обязательно слишком увлекаться этими параметрами. Просто поэкспериментируйте с тем, насколько хорошо модель ИИ работает на центральном или графическом процессоре с точки зрения скорости отклика, и соответственно поддерживайте этот показатель. Я экспериментировал примерно с девятью моделями, и результаты оказались неоднозначными.
Давайте начнём с различий. Я поделился фотографией своего кота и попросил Gemini определить его вид. Он справился за три секунды. Когда тот же запрос был отправлен Gemma 3n, это заняло 11 секунд. Ответ был точным, но немного коротким. Если вы предпочитаете ответы по существу, вам может даже понравиться такой подход. Иногда вы можете столкнуться с ошибками, особенно с многомодальными запросами, поэтому стоит сменить ускоритель (процессор и видеокарту) и посмотреть, ускорит ли это процесс.
Обработка текста тоже может быть немного медленной. Когда я отправил статью объёмом около 900 слов и попросил модель Qwen 2.5 от AliBaba перевести её в виде маркированного списка, ей потребовалось всего около 20 секунд, чтобы начать работу. Microsoft Phi-4 mini справился заметно быстрее, но мне больше понравилось продуманное форматирование Qwen 2.5.
Модель Gemma 3n-E2B справилась с этой задачей быстрее всех, обеспечив высочайшее качество ответа менее чем за восемь секунд. Более производительная модель Gemma-3n-E4B справилась с переформатированием и формализацией тона той же статьи примерно за семь секунд, работая на центральном процессоре.
Аудиотранскрибация, хотя и ограничена 30-секундными фрагментами, просто фантастическая. Модель Gemma 3n-E2B от Google не допустила ни одной ошибки и отлично справилась с пересказом расшифрованного аудиоклипа. Всё это произошло менее чем за 10 секунд.
Не все модели хорошо работают с графическим ускорением, поэтому их приходится запускать без центрального процессора. Gemma3-1B зависла на несколько минут. Попытка изменить формат ускорения приводит к сбою приложения, особенно с Qwen и Phi-4 mini. С другой стороны, Phi-4 mini справлялся с некоторыми задачами форматирования статей почти так же быстро, как Gemma, при работе на центральном процессоре.
Взгляд в будущее
Это приложение работает не на всех телефонах. Как минимум, ему нужен процессор с мощным NPU или чипом ИИ-ускорителя, а также желательно 8 ГБ оперативной памяти. Я проводил тесты на Google Pixel 10 Pro , и он не перегревался. Кроме того, вам потребуются некоторые технические знания, чтобы запускать ИИ-модели, которые сейчас недоступны в галерее LiteRT.
В целом, приложение AI Edge Gallery от Google не вполне заменит Gemini или любой другой интернет-чат-бот на вашем телефоне. По крайней мере, пока. Но это признак того, что нас ждёт нечто светлое. Обратите внимание на приложение HuggingSnap , которое работает по модели с открытым исходным кодом, полностью автономно, но при этом поддерживает функции визуального интеллекта на iPhone.
По мере того, как мобильные процессоры становятся более дружественными к ИИ на аппаратном уровне, и появляется всё больше моделей ИИ, оптимизированных для задач на устройствах, приложения, такие как Google AI Gallery, могут фактически стать центром для полезных задач ИИ. Более приватным центром, работающим полностью онлайн и не взимающим плату за использование.