Скрытые дефекты микросхем могут приводить к повреждению данных в современных компьютерах.
Вычислительные технологии часто восхваляются за точность и скорость. Однако исследователи и операторы гипермасштабных центров обработки данных предупреждают о растущей угрозе, которая ставит под сомнение одно из основных обещаний вычислительной техники: корректность. Эта проблема известна как скрытое повреждение данных (SDC) — явление, при котором аппаратные дефекты приводят к тому, что программы выдают некорректные результаты, не вызывая сбоев, ошибок или каких-либо видимых следов.
Невидимая угроза, скрытая внутри современных микросхем.
В основе проблемы лежат дефекты кремния в процессорах, графических процессорах и ускорителях искусственного интеллекта. Эти дефекты могут возникать на этапе проектирования и производства микросхем, а также развиваться позже из-за старения или воздействия окружающей среды. Хотя производители проверяют большинство дефектов, даже самые строгие производственные испытания позволяют выявить лишь примерно 95–99% смоделированных дефектов. Некоторые дефектные микросхемы неизбежно попадают в эксплуатацию.
В некоторых случаях эти дефекты приводят к видимым сбоям, таким как крахи системы. Но гораздо более тревожными являются скрытые ошибки. В этом случае неисправный логический элемент или арифметический блок может выдавать неверное значение во время выполнения. Если это значение распространяется по программе, не активируя механизмы обнаружения, система завершает задачу и возвращает некорректный результат — без каких-либо признаков того, что что-то пошло не так.
На протяжении десятилетий многие считали, что скрытые сбои в работе процессоров — редкое, почти мифическое явление. Однако крупные операторы гипермасштабируемых вычислительных систем, включая Meta, Google и Alibaba, сообщили, что примерно один из 1000 процессоров в их парке может вызывать скрытые сбои при определенных условиях. Аналогичные опасения были высказаны в отношении графических процессоров и ускорителей искусственного интеллекта.
Корректность — это основополагающее свойство вычислительной техники. Будь то обработка финансовых транзакций, выполнение задач искусственного интеллекта или управление инфраструктурой, от систем ожидается предоставление точных результатов в сжатые сроки.
Скрытая коррупция подрывает это доверие. В отличие от сбоев, которые сразу видны и требуют немедленного расследования, скрытые дефекты незаметно изменяют выходные данные. В центрах обработки данных, работающих с миллионами ядер, даже небольшой процент дефектов может привести к сотням некорректных результатов выполнения программ в день.
Масштабы современных вычислительных систем усугубляют эту проблему.
Массовые параллельные архитектуры, такие как графические процессоры и ускорители искусственного интеллекта, содержат тысячи арифметических блоков. Чем больше компонентов включает система, тем выше статистическая вероятность того, что некоторые из них окажутся неисправными.
Прямое измерение SDC практически невозможно — по определению, они бесшумны. Поэтому отрасли необходимо оценить их частоту и взвесить затраты на предотвращение. Существуют механизмы обнаружения и коррекции, но они могут значительно увеличить площадь кремниевой подложки, энергопотребление и накладные расходы на производительность.
Исследователи призывают к многоуровневым решениям, включая улучшенные производственные испытания, мониторинг на уровне всего парка оборудования в центрах обработки данных, более интеллектуальные модели оценки неисправностей и подходы к совместному проектированию аппаратного и программного обеспечения, которые предотвращают распространение ошибок.
По мере роста вычислительных систем и увеличения их скорости становится очевидной задача: поддерживать одновременно скорость и корректность без непомерных затрат. В то, что некоторые называют «золотым веком сложности», обеспечение надежности вычислительных систем может стать одной из определяющих инженерных задач отрасли.
Статья " Скрытые дефекты микросхем могут приводить к повреждению данных в современных компьютерах" впервые появилась на сайте Digital Trends .