Если вы разрабатываете Android-приложения с использованием ИИ, новый бенчмарк Google упростит выбор подходящей модели.
Для разработчиков Android -приложений, использующих ИИ в процессе написания кода, выбор подходящей модели может быть непростой задачей. Не все модели одинаковы, и многие из них не обучены специально для рабочих процессов разработки Android. Чтобы решить эту проблему, Google представил новый бенчмарк, который поможет разработчикам понять, насколько хорошо различные модели ИИ справляются с реальными задачами кодирования Android.
Новый бенчмарк, получивший название Android Bench , предназначен для оценки того, насколько хорошо большие языковые модели (LLM) справляются с типичными задачами разработки Android-приложений. Google поясняет , что бенчмарк оценивает модели, используя реальные задачи из общедоступных проектов на GitHub, и просит модели воспроизвести реальные запросы на слияние (pull requests) и решить проблемы, аналогичные тем, с которыми сталкиваются разработчики при создании Android-приложений. Затем результаты проверяются, чтобы убедиться, действительно ли они решают проблему.
Проще говоря, этот бенчмарк проверяет, действительно ли код, сгенерированный моделями ИИ, решает проблему, а не просто выглядит корректным на первый взгляд. Это помогает Google оценить, насколько полезны различные модели при решении реальных задач разработки под Android.
В первой версии Android Bench Google планировала «исключительно измерять производительность моделей, а не фокусироваться на использовании агентов или инструментов». Результаты показывают значительный разрыв: модели успешно выполнили от 16% до 72% тестовых задач. Компания заявляет, что публикация этих результатов должна упростить разработчикам сравнение моделей и выбор тех, которые действительно способны решать реальные задачи программирования для Android.
Помимо того, что этот бенчмарк поможет разработчикам, он также может подтолкнуть компании, занимающиеся искусственным интеллектом, к улучшению понимания моделями разработки Android. В поддержку этих усилий Google опубликовала методологию, набор данных и тестовую среду Android Bench на GitHub. Со временем это может привести к созданию инструментов искусственного интеллекта, которые будут лучше справляться со сложной кодовой базой Android и помогут разработчикам более эффективно создавать и исправлять приложения.
Статья " Если вы разрабатываете Android-приложения с использованием ИИ, новый бенчмарк Google упростит выбор подходящей модели" впервые появилась на сайте Digital Trends .