Обработка - Группа счетчиков денег Наньтун

Научные отчеты, том 12, Номер статьи: 14396 (2022) Цитировать эту статью

3220 Доступов

4 цитаты

5 Альтметрика

Подробности о метриках

Потребность в обработке огромных объемов данных, полученных с помощью современных камер с высоким разрешением, побудила к созданию новых энергоэффективных решений искусственного интеллекта на устройствах. Визуальные данные в таких камерах обычно захватываются в виде аналогового напряжения с помощью матрицы пикселей датчика, а затем преобразуются в цифровую область для последующей обработки искусственным интеллектом с помощью аналого-цифровых преобразователей (АЦП). В недавних исследованиях была предпринята попытка воспользоваться преимуществами массово-параллельных аналогово-цифровых вычислений с низким энергопотреблением в форме обработки, расположенной рядом с датчиком или внутри датчика, при которой вычисления ИИ выполняются частично на периферии массива пикселей, а частично на отдельном участке. -плата процессора/ускорителя. К сожалению, входные изображения с высоким разрешением по-прежнему необходимо передавать между камерой и процессором искусственного интеллекта, кадр за кадром, что приводит к проблемам с энергопотреблением, пропускной способностью и безопасностью. Чтобы смягчить эту проблему, мы предлагаем новую парадигму «Обработка в пикселях в памяти» (P2M), которая настраивает массив пикселей, добавляя поддержку аналоговой многоканальной, многобитной свертки, пакетной нормализации и выпрямленных линейных единиц ( РеЛУ). Наше решение включает в себя комплексный подход к совместному проектированию алгоритмов и схем, и полученная в результате парадигма P2M может быть использована в качестве замены для встраивания первых нескольких слоев моделей сверточной нейронной сети (CNN) с интенсивным использованием памяти в платформы CMOS-датчиков изображения, производимые литейным производством. . Наши экспериментальные результаты показывают, что P2M уменьшает полосу пропускания передачи данных от датчиков и аналого-цифровые преобразования в \({\sim }\,21\ раз\, а также продукт задержки энергии (EDP), возникающий при обработке модели MobileNetV2 на TinyML. вариант использования набора данных слов визуального пробуждения (VWW) на величину до \(\mathord {\sim }\,11\times\) по сравнению со стандартными реализациями с близкой обработкой или внутрисенсорными реализациями без какого-либо значительного снижения точности теста.

Сегодняшнее широкое применение компьютерного зрения, охватывающее наблюдение1, борьбу со стихийными бедствиями2, фотоловушки для наблюдения за дикой природой3, автономное вождение, смартфоны и т. д., подпитывается замечательными технологическими достижениями в платформах распознавания изображений4 и постоянно совершенствующейся областью алгоритмов глубокого обучения5. Однако аппаратные реализации платформ зрительного восприятия и обработки изображения традиционно физически разделены. Например, современные платформы видеосенсоров, основанные на технологии КМОП, действуют как преобразователи, которые преобразуют интенсивность падающего света в оцифрованные значения пикселей через двумерный массив фотодиодов6. Данные о зрении, генерируемые такими датчиками изображения CMOS (CIS), часто обрабатываются в другом месте в облачной среде, состоящей из центральных и графических процессоров7. Такое физическое разделение приводит к узким местам в пропускной способности, пропускной способности и энергоэффективности для приложений, требующих передачи больших объемов данных от датчика изображения к внутреннему процессору, таких как обнаружение и отслеживание объектов по изображениям/видео высокого разрешения.

Чтобы устранить эти узкие места, многие исследователи пытаются приблизить интеллектуальную обработку данных к источнику данных машинного зрения, то есть ближе к СНГ, используя один из трех широких подходов — околосенсорную обработку8,9, внутрисенсорную обработку10 и внутрипиксельная обработка11,12,13. Целью обработки, близкой к датчику, является встраивание специального чипа-ускорителя машинного обучения на одну и ту же печатную плату8 или даже в трехмерном совмещении с чипом CIS9. Хотя это позволяет обрабатывать данные CIS ближе к датчику, а не в облаке, это по-прежнему связано с затратами на передачу данных между CIS и чипом обработки. С другой стороны, решения для внутрисенсорной обработки10 интегрируют цифровые или аналоговые схемы на периферии сенсорного чипа CIS, сокращая передачу данных между сенсором CIS и чипами обработки. Тем не менее, эти подходы по-прежнему часто требуют потоковой передачи данных (или параллельного чтения) через шину от фотодиодных матриц CIS в периферийные схемы обработки10. Напротив, решения для внутрипиксельной обработки, такие как 11,12,13,14,15, направлены на встраивание возможностей обработки в отдельные пиксели CIS. Первоначальные усилия были сосредоточены на операции аналоговой внутрипиксельной свертки14,15, но многие из них11,14,15,16 требуют использования новых энергонезависимых запоминающих устройств или 2D-материалов. К сожалению, эти технологии еще не развиты и поэтому не поддаются существующему литейному производству СНГ. Более того, эти работы не поддерживают многобитные, многоканальные операции свертки, пакетную нормализацию (BN) и выпрямленные линейные единицы (ReLU), необходимые для большинства практических приложений глубокого обучения. Более того, работы, ориентированные на цифровое пиксельное оборудование на базе КМОП, организованное в виде процессорных массивов SIMD с пиксельно-параллельной обработкой одной инструкции и множественных данных (SIMD)12, не поддерживают операцию свертки и, таким образом, ограничиваются игрушечными рабочими нагрузками, такими как распознавание цифр. Многие из этих работ основаны на цифровой обработке, которая обычно обеспечивает более низкий уровень параллелизма по сравнению с их аналоговыми пиксельными альтернативами. Напротив, в работе13 используются внутрипиксельные параллельные аналоговые вычисления, в которых веса нейронной сети представлены как время экспозиции отдельных пикселей. Их подход требует наличия весов для управления временем экспозиции пикселей с помощью управляющих импульсов, что приводит к узким местам при передаче данных между памятью весов и массивом датчиков. Таким образом, решение для обработки CIS на месте, в котором как веса, так и входные активации доступны в отдельных пикселях, которое эффективно реализует критически важные операции глубокого обучения, такие как многобитовая, многоканальная свертка, операции BN и ReLU, остается неуловимым. Более того, все существующие решения для пиксельных вычислений имеют целевые наборы данных, которые не представляют собой реалистичные применения машинного интеллекта, отображенные на современной CIS. В частности, большинство существующих работ сосредоточены на упрощенных наборах данных, таких как MNIST12, в то время как лишь немногие13 используют набор данных CIFAR-10, который имеет входные изображения со значительно низким разрешением (\(32\times 32\)), который не представляет изображения, захваченные современное СНГ высокого разрешения.