За десять лет мобильная визуализация достигла «эстума».

Зимой 1975 года Стивен Сассон, инженер из Центра прикладных электронных исследований компании Kodak, в лаборатории кое-как собрал странную машину.
Весящий 8 фунтов и имеющий всего 10 000 пикселей, после нажатия кнопки спуска затвора приходится слушать глухое гудение аппарата и ждать долгие 23 секунды, прежде чем черно-белая фотография будет записана на кассету Philips.
Столкнувшись с крайне низким разрешением и скоростью хранения данных, Стивен Сассон считает, что пройдет еще 15-20 лет, прежде чем это устройство сможет по-настоящему конкурировать с пленочной фотографией.

В течение следующих двух десятилетий индустрия обработки изображений претерпела кардинальные изменения. Носители информации быстро перешли на цифровые технологии, и в первом десятилетии XXI века, как и надеялся Стивен Сассон, эра пленочной фотографии наконец подошла к концу. Но в то время фотоаппараты все еще были «тяжелым бытовым имуществом», и люди не могли делать снимки по своему желанию, не говоря уже о создании видео.
До наступления эры мобильной визуализации.
Недавно выпущенный vivo X300 Ultra, оснащенный процессором Snapdragon 8 Ultra пятого поколения, может похвастаться впечатляющими характеристиками: видео 4K 120 кадров в секунду в 10-битном формате Log на всех фокусных расстояниях.
Оглядываясь назад, мы понимаем, что человечество потратило пятьдесят лет на создание цифрового канала, позволяющего каждому путешествовать по нему.
Происходящее расширение, поглощающее свет и тень.
Бурлящий поток воды в этом канале представляет собой, по сути, огромное количество «плотных сигналов изображения».
Этот, казалось бы, академический и несколько отстраненный термин на самом деле тесно связан с каждым, кто поднимает телефон, чтобы нажать кнопку затвора.
Вспомните первые смартфоны, и вам наверняка будут знакомы подобные изображения: пересвеченные участки, пересвеченные тени, цветовые полосы, низкая частота кадров и постоянный шум.

▲ Ночной пейзаж, снятый на iPhone 4s, предоставлен @PhoneArena
Визуальные катастрофы, по сути, вызваны тем, что базовый процессор обработки изображений (ISP, с которым мы более знакомы) не способен «обработать» огромный объем сигналов.
В те времена мобильные телефоны обладали лишь 8-битной точностью квантования. Как только коэффициент окружающего освещения превышал возможности сенсора, уровень в светлых областях необратимо превышал допустимый, превращая изображение в полностью белое; в то время как темные области сигнала грубо сглаживались процессором обработки изображений, превращаясь в шумную черную кашу. Более того, физическая потеря информации была необратимой и не могла быть восстановлена никаким программным обеспечением для постобработки.
Эта проблема оказалась гораздо более актуальной, чем мы предполагали.
Производители пытались решить эту проблему, увеличивая площадь сенсора в обмен на больший динамический диапазон. Однако в современных крайне ограниченных внутренних структурах простое наложение физических размеров достигло своего предела, что делает процессор обработки изображений (ISP) все более важным.

▲ Внутреннее пространство телефона разделено между модулем камеры и батареей. Изображение от @Notebookcheck
Долгое время из-за физических ограничений вычислительная мощность мобильных телефонов оставалась на уровне 14-битного двухпроцессорного процессора обработки изображений (ISP). По мере того, как объем информации, собираемой датчиками, становится все больше, конвейер обработки данных ISP необходимо соответствующим образом расширять.
Начиная с внедрения 14-битного тройного ISP в Snapdragon 888 в 2020 году для обработки одновременной обработки данных, и заканчивая более поздней итерацией Spectra ISP до 18-битного уровня, мобильные платформы увеличили пропускную способность обработки изображений в 4096 раз. Теперь, для обработки более плотных сигналов изображения, процессор Qualcomm Spectra ISP пятого поколения Snapdragon 8 Ultra в vivo X300 Ultra естественным образом перешел в эру 20-битного тройного ISP с поддержкой искусственного интеллекта.

Не стоит недооценивать эти всего лишь 2 бита. На цифровом уровне любое изменение этого параметра вызывает экспоненциальный эффект цунами: уровень квантования одноканального цвета плавно переходит от 260 000 до 1 040 000, обеспечивая четырехкратное увеличение динамического диапазона для исходных данных.
Опираясь на эту надежную физическую основу, компании vivo и Qualcomm совместно провели углубленную оптимизацию базового конвейера обработки изображений.
Результаты впечатляют: X300 Ultra достигла динамического диапазона в 14 EV по всему фокусному расстоянию.
Этот огромный объем данных был обработан в соответствии с двумя чрезвычайно строгими профессиональными требованиями — форматом Log и Dolby Vision.
В логарифмическом режиме 20-битный тройной процессор обработки изображений с искусственным интеллектом отвечает за преобразование линейных сигналов, захваченных датчиком, в логарифмическую кривую в реальном времени. Благодаря улучшенной точности выборки на базовом уровне, телефон сохраняет более полную исходную информацию, эффективно подавляя цветовые полосы при постобработке и расширяя границы постобработки. В соответствии со стандартом Dolby Vision, вычислительная мощность отражается в точности инкапсуляции динамических метаданных. Это позволяет более точно выравнивать информацию о яркости и контрастности каждого кадра, обеспечивая достоверное отображение уровней HDR в светлых и темных областях.

На практике эффект тоже очень очевиден — мы использовали X300 Ultra для съёмки «тропического северного сияния». Благодаря превосходному динамическому диапазону и широте охвата формата Log, мы запечатлели рыбацкие лодки у острова, освещающие небо в полночь.
После постобработки и восстановления градиентные переходы неба плавные и естественные, без цветовых полос, а подавление шума демонстрирует превосходные результаты.

Таким образом, допуски, первоначально характерные для кино- и телеиндустрии, были интегрированы в мобильные чипы, создав цифровой канал на базовом уровне. Теперь обычные люди могут снимать видео более высокого качества с возможностью постобработки в любое время и в любом месте, используя свои мобильные телефоны, что открывает новые творческие возможности.
Одновременная съемка с нескольких камер, плавное масштабирование
Решение задачи определения динамического диапазона отдельной линзы завершает реконструкцию только статических изображений.
Однако суть видео заключается в непрерывности повествования, что поднимает еще одну давнюю проблему мобильного видео: подтормаживание при масштабировании.
При видеосъемке нам часто приходится приближать и отдалять изображение, чтобы изменить ракурс. Однако при перемещении кольца зума изображение часто слегка мерцает, а баланс цвета и белого может резко меняться.
Качество визуального ряда мгновенно ухудшилось из-за медленной работы оборудования.
Проблема заключается в том, что линзы внутри телефона работают независимо друг от друга. Их качество различается, и они управляются независимыми тактовыми генераторами, а традиционная стратегия «холодного старта» процессора обработки изображений может переключаться только в ускоренном режиме во время масштабирования. Как только метки времени смещаются, пропуск кадров и цветовые полосы неизбежны.

▲ В традиционной профессиональной фотографии выравнивание временных меток должно основываться на глобальном времени.
Для обеспечения плавной работы функций масштабирования и сдвига на мобильных устройствах необходимо принудительно интегрировать эти независимые аппаратные компоненты на базовом уровне.
За достижением vivo X300 Ultra высоких показателей видеозаписи на всех фокусных расстояниях стоит процессор Snapdragon 8 Ultra пятого поколения, использующий два взаимосвязанных механизма для бесшовной интеграции аппаратного обеспечения.
20-битный тройной ISP-процессор с искусственным интеллектом обеспечивает огромную пропускную способность данных, позволяя трем объективам одновременно работать в фоновом режиме. Даже когда для записи используется только основная камера, каналы ISP сверхширокоугольного и телеобъектива уже выполняют алгоритм 3A (автофокус, автоматическая экспозиция, автоматический баланс белого) в фоновом режиме, готовые к использованию в любой момент.

В то же время система синхронизации нескольких камер Qualcomm (MSCC) процессора Snapdragon 8 Ultra пятого поколения проникает на самый нижний уровень аппаратной шины, принудительно выдавая единые «глобальные часы» этим объективам, которые изначально работали независимо друг от друга.
Широкоугольный, сверхширокоугольный, телеобъектив.
Независимо от физического расстояния между ними или различий в качестве датчиков, существует лишь одна основная команда:
Экспозиция происходит одновременно, в течение одной и той же микросекунды; данные считываются в один и тот же момент времени.
Хронология событий полностью заблокирована.

Для обеспечения плавной передачи данных между различными датчиками при увеличении и уменьшении масштаба изображения на vivo X300 Ultra с помощью разных объективов одновременно работают два механизма, что позволяет избежать проблем с пропуском кадров и смещением баланса белого.
Профессиональная сфера медицинской визуализации подобна реке с подводными течениями; без прочного, мощного судна в качестве опоры и хорошо скоординированной команды для совместной работы невозможно преодолеть это течение.
Сегодня вычислительная мощность базового чипа заключена в небольшом устройстве, использующем цифровую логику для управления физическим порядком, что позволяет создателям без финансирования или команды ориентироваться в мире.
Кодирование и декодирование, а также вычислительная мощность, передаваемая в обоих направлениях.
В области обработки изображений давно существует парадоксальный «парадокс вычислительной мощности»:
В целом, процессоры камер не считаются монстрами производительности, но они способны обрабатывать огромные объемы видеоданных сверхвысокого разрешения. Наши смартфоны, оснащенные мощными SoC и способные обрабатывать требовательные игры с высокой частотой кадров, испытывают трудности при записи непрерывного видео высокой производительности.
В конечном счете, процессор камеры (ASIC) предназначен исключительно для обработки изображений; в то время как мобильный телефон, как сложный цифровой центр, на самом деле не обладает достаточной вычислительной мощностью для обработки изображений.
Ограниченная вычислительная мощность вынуждала старые мобильные телефоны идти на компромисс в отношении объема памяти — как правило, используя форматы межкадрового сжатия (Long GOP), такие как H.264 или H.265, записывая только ключевые кадры и информацию о разностях. Такой подход значительно сжимал размер файла, но при этом полностью уничтожал физическую пространственную информацию изображения.

▲ Принципы кодирования и декодирования H.264, изображение с сайта @ResearchGate
Без уверенности, которую дает постобработка, все исходные значения выдержки — это всего лишь вопрос удачи.
После импорта этого видеоматериала в программу для редактирования и вторичной цветокоррекции даже небольшая корректировка кривой теней или светлых участков немедленно выявит большие области мозаичных цветовых блоков и сильные цветовые полосы на изображении.
Пространство для цветокоррекции в постпродакшене полностью заблокировано, что делает невозможным реализацию творческих идей или создание готового продукта.
С выходом vivo X300 Ultra устоявшиеся представления устарели, поскольку профессиональные форматы, такие как 4K 120fps Log, теперь доступны прямо у вас в руках.
Помимо постоянных усилий по разработке 20-битного процессора обработки изображений с искусственным интеллектом (AI three-ISP), который предоставил нам формат с широкими возможностями постобработки и творческими перспективами, кодек также сыграл незаменимую роль. В vivo X300 Ultra компании vivo и Qualcomm совместно создали первый в Китае смартфон, в котором реализовано кодирование APV 422.
APV использует «внутрикадровое сжатие», специально разработанное для нелинейного монтажа (NLE), независимо и полностью сохраняя информацию о глубине цвета и яркости каждого кадра. При цветокоррекции видеоматериала формата APV 422 в DaVinci Resolve изображение демонстрирует замечательную устойчивость. Оно эффективно поддерживает детализацию теней и переходы между светлыми участками при работе с узловыми операциями или сложными сопоставлениями LUT, значительно уменьшая неприятные эффекты пикселизации и полосатости цвета, которые часто возникают при настройке кривых в видео с мобильных устройств.

Более того, обеспечивая практически такое же высокое качество изображения, как и эталонный формат ProRes для кино и телевидения, базовый механизм кодирования APV дополнительно уменьшает размер файла примерно на 10%.
В условиях стремительного роста цен на память повышение эффективности кодирования может помочь разработчикам сэкономить деньги за счет увеличения производительности.
Сочетание высоких эксплуатационных характеристик и технологий кодеков позволило создать высокотехнологичный «цифровой контейнер» для этого «Большого канала», обеспечивающий полную и бесперебойную передачу сигналов в постпроизводственный процесс, что дает мобильным телефонам возможность реализовать творческий потенциал, ничем не отличающийся от потенциала профессиональных цифровых кинокамер во всей замкнутой цепочке.
Мобильные снимки поступают в устье реки.
В 2014 году компания vivo выпустила Xshot, флагманский камерофон, который вместе с моделями X Ultra-Thin и Xplay с большим экраном образовал линейку продуктов «три в одном».
Этот телефон оснащен 13-мегапиксельным многослойным сенсором Sony второго поколения, большой диафрагмой F1.8, оптической стабилизацией изображения и двухцветной светодиодной вспышкой. Еще одна, менее привлекательная особенность — процессор Snapdragon 801 в Xshot, который использует архитектуру двойного ISP для устранения задержки срабатывания затвора и обеспечивает вычислительную поддержку для расчета углов компенсации для часто используемой оптической стабилизации изображения OIS.

▲ vivo Xshot, изображение от @vivo
Инженерный прототип, использующий вычислительную мощность для поддержки физической стабилизации изображения, превратился в полнофокусную систему стабилизации изображения на процессоре Snapdragon 8 Ultra пятого поколения, которая использует оптическую и электронную стабилизацию изображения для обмена данными посредством высокочастотного обмена данными.
Очень удачное эхо.
В течение следующего десятилетия возможности мобильных телефонов в области фотосъемки развивались с головокружительной скоростью, генерируя потоки данных, сравнимые с бурным потоком. Каналы передачи этого стремительно растущего объема информации также продолжали расширяться.
Еще со времен X100 Ultra, когда индустрия впервые смогла уместить 200-мегапиксельный телеобъектив в компактный корпус, мгновенная выдержка вызывала огромную нагрузку на систему обработки данных. Компания Qualcomm представила когнитивный процессор обработки изображений (ISP), обеспечивающий семантическую сегментацию в реальном времени на аппаратном уровне и избыточность вычислений на базовом уровне, благодаря чему высокая пропускная способность обработки данных больше не сопровождалась длительными простоями, что привело к чистой и эффективной обработке.

С появлением X200 Ultra, заложившего основу для профессиональной фотосъемки, поле битвы переместилось на еще более требовательную область — запись видео в формате 4K при слабом освещении. В условиях крайне низкого отношения сигнал/шум, опираясь на гетерогенную вычислительную платформу в ядре Snapdragon, архитектура обработки изображений совершила глубокий переход от традиционного ISP к NPU (нейронному процессору). Перенаправив вычислительные мощности ИИ на обработку RAW-файлов для подавления шума на уровне кадров, телефон наконец преодолел ограничения, связанные с освещением в ночных сценах из-за небольшого размера сенсора, обеспечив чистую и пригодную для использования динамическую запись.
Любое радикальное исследование фронтальных модулей и датчиков предъявляет жесткие требования к базовым пропускным возможностям.
Теперь, с появлением X300 Ultra, этот долгосрочный проект, изначально направленный на расширение динамического диапазона, наконец-то достиг границ промышленных стандартов обработки изображений.

Оглядываясь назад, мы видим, как река движущихся изображений, от «запечатления» до «качественного запечатления», извивается и тянется на многие километры; а заглядывая вперед, перед нашими глазами предстает бескрайний океан, от «записи» до «создания».
По мере того, как поток данных нарастает и сходится, русло реки, созданное Snapdragon, расширяется.
В этот момент движущиеся изображения наконец-то достигли устья реки.
#Добро пожаловать на официальный аккаунт iFanr в WeChat: iFanr (идентификатор WeChat: ifanr), где вы сможете быстро найти еще больше интересного контента.