Обзор методов классификации гиперспектральных изображений с использованием глубокого обучения для дальнейшего развития

Anish Sarkar1, Utpal Nandi*1, Nayan Kumar Sarkar2, Chiranjit Changdar3 and Bachchu Paul1 1Department of Computer Science, Vidyasagar University, Rangamati, Midnapore, West Bengal, INDIA 2Faculty of Engineering, Assam Down Town University, Guwahati, Assam, INDIA
3Department of Computer Science, Belda College, Belda, West Bengal, INDIA

Received 16 Jan. 2024, Revised 2 Apr. 2024, Accepted 19 Apr. 2024, Published 1 Jul. 2024
Аннотация:

Использование гиперспектральных изображений (HSI) стало широко распространенным во многих отраслях благодаря их способности выявлять подробную спектральную информацию (т. е. взаимосвязи между собранными спектральными данными и объектом в данных HSI), которую невозможно получить с помощью обычной визуализации. Традиционные подходы к классификации RGB-изображений недостаточны для классификации гиперспектральных изображений (HSI), поскольку им сложно уловить тонкую спектральную информацию, содержащуюся в гиперспектральных данных. За последние несколько лет модель, основанная на глубоком обучении (DL), стала очень мощным и эффективным средством нелинейного извлечения признаков для решения широкого спектра задач компьютерного зрения.

Кроме того, модели, основанные на DL, не требуют ручного извлечения признаков. Использование этого стимула побудило исследователей использовать модель, основанную на DL, для классификации гиперспектральных изображений, которая дала впечатляющие результаты. Эта мотивация вдохновила исследователей на разработку модели, основанной на DL, для классификации гиперспектральных изображений, которая показала хорошие результаты. Глубже сети могут столкнуться с проблемами, связанными с исчезающим градиентом, что затрудняет оптимизацию. Для решения этой проблемы внедряются регуляризация и архитектурные улучшения. Одна из ключевых проблем заключается в том, что модель HSIC, основанная на DL, требует большого количества обучающих выборок для обучения, что является важной проблемой при работе с гиперспектральными данными из-за нехватки общедоступных наборов данных HSI.

В этой статье представлен обзор глубокого обучения для классификации гиперспектральных изображений и дана оценка самым последним методам. Среди всех изученных методов SpectralNET обеспечивает значительно лучшую производительность благодаря использованию вейвлет-преобразования.

1. Введение

 Единственной целью обработки гиперспектральных изображений (HSI) является получение значимых данных из спектральных диапазонов, получаемых датчиком на определенных расстояниях, без необходимости вступать в контакт с интересующим объектом [1].  Технология обработки данных HSI позволяет получать данные в сотнях дискретных, последовательных спектральных диапазонах в широком диапазоне электромагнитного спектра, включая видимый свет (0,4 0,7 м) и коротковолновое инфракрасное излучение (0,7-2,4 м). Это обеспечивает полное изучение спектра, позволяя извлекать подробные спектральная информация. Кроме того, HSI является единственным методом оценки светимости объектов в среднем и дальнем инфракрасном диапазоне [2]. Поскольку HSI предоставляет исчерпывающие данные о каждом пикселе, популярные методы получения мультиспектральных и RGB-изображений столкнулись с многочисленными трудностями и не могут быть использованы напрямую.

HSI имеет множество полезных применений, включая муниципальное планирование, разведку природных ресурсов, лесное хозяйство и экологическую устойчивость [3], [4], [5], [6],[7], [8]. HSI недавно использовалась в оборонном секторе для различных целей: от поиска мин до картографирования прибрежных районов. HSI также использовалась на космических аппаратах, самолетах и ​​водных судах для сбора точных спектральных данных для различных целей [9], [10], [11], [12].

В данной статье рассматривается гиперспектральная классификация изображений (HSIC), которая привлекла внимание учёных, что привело к улучшению возможностей определения землепользования и растительного покрова, распознавания экологических угроз и городского планирования. Изначально для HSIC использовались алгоритмы, основанные на машинном обучении. Постоянное развитие методов, основанных на машинном обучении, со временем повысило точность классификации.

Прорыв в области глубокого обучения оказал значительное влияние на точность HSIC, сделав её одним из самых значительных достижений в этой области. Цель данной статьи –дать обзор некоторых стратегий HSIC на основе глубокого обучения, разработанных в последние годы. Сравнивается и анализируется эффективность различных методов, чтобы выяснить, какой метод лучше других для определённого набора данных. Мотивационная подоплека данного исследования обсуждалась в разделе 2. В разделе 3 объясняется HSI и его классификация. Затем, в разделе 4, обсуждается применение глубокого обучения в HSIC. После этого, в разделе 5, объясняются современные методы глубокого обучения в HSIC. Сравнительные оценки объясняются в разделе 6. И наконец, в разделе 7 мы завершаем наше исследование.

2. Мотивация данного исследования

Глубокое обучение стало мощным методом решения сложных задач в мире технологических разработок. Среди многочисленных применений HSIC вызвал большой интерес. Сравнительное исследование систем классификации HSI, основанных на глубоком обучении, — это интригующее и сложное начинание с огромным потенциалом для революции во многих секторах.

Цель данного сравнительного исследования систем HSIC, основанных на глубоком обучении, — раскрыть истинные возможности этих алгоритмов в этой области. Мы надеемся определить наиболее эффективные и действенные способы классификации HSI путем сравнения и сопоставления различных процедур. Этот тип исследований открывает потенциал для разработки и совершенствования существующих методологий, открывая двери для широкого спектра применений.
Исследователи стремятся найти уникальные идеи, найти креативные решения и вдохновить на будущие прорывы в этой интересной теме, проводя данное сравнительное исследование систем HSIC, основанных на глубоком обучении.

Результаты данного исследования могут повлиять на будущее анализа гиперспектральных изображений и открыть новую эру интеллектуального извлечения информации. Области применения разнообразны и трансформируют, начиная от повышения эффективности методов точного земледелия до помощи в операциях по ликвидации последствий стихийных бедствий. Стремление использовать весь потенциал глубокого обучения и гиперспектральной визуализации является движущей силой этих усилий, создавая синергетический эффект, способный революционизировать отрасли и принести пользу обществу в целом.

3. Гиперспектральное изображение и его классификация

Гиперспектральное изображение (HSI) можно представить в виде трёхмерного гиперкуба HC ∈ RBD(ROW×COL), как показано на рисунке 1, который содержит одномерную спектральную информацию и двумерную пространственную информацию для каждого образца. Количество спектральных каналов BD и пространственная размерность ROW ×COL куба включены в изображение.

A. Спектральное представление

Каждый пиксель гиперкуба отличается от своих соседей в спектральном представлении, и каждый пиксель обрабатывается отдельно на основе своей уникальной одномерной спектральной сигнатуры. Спектральное представление можно математически записать как HC ∈ RBD, где BD обозначает либо общее количество присутствующих спектральных полос, либо только соответствующие спектральные полосы, выбранные с использованием различных методов выбора полос. Как правило, для обработки выбираются пиксели только с необходимыми спектральными полосами, а не со всеми спектральными полосами. Такая процедура выбора значительно уменьшает общую размерность гиперкуба, минимизируя избыточность и достигая большей разделимости классов без заметной потери информации.
Рисунок 1. Обзор Гиперкуба
Диапазоны для конкретного набора данных могут быть выбраны как контролируемые, так и неконтролируемые. Без каких-либо предварительных знаний о метках классов, связанных с данными, неконтролируемые алгоритмы выбирают соответствующие спектральные диапазоны. Это говорит о том, что решение принимается только на основе спектральных характеристик данных, без каких-либо предвзятых обозначений классов. Двумя хорошо известными подходами к выбору диапазона без контроля являются анализ основных компонентов (PCA) и локально-линейное встраивание [13].  В методах контролируемого отбора полос используются маркированные выборки для получения представления о распределении данных. Их цель состоит в том, чтобы гарантировать, что точки данных из одного класса расположены близко друг к другу. Методы выбора диапазона включают линейный дискриминантный анализ (LDA), локальный Дискриминантный анализ Фишера (LFDA) [14]. локальное дискриминантное встраивание [15] и непараметрический взвешенный FE [16]. [14].

B. Представление HSI в пространственной области

 Чтобы избежать ограничений, связанных с представлением HSI в спектральной области, другой стратегией является использование пространственных данных пикселей, которые структурированы в виде матрицы hci×R(СТРОКА× столбец). Эта матрица состоит из строк и столбцов с числами, что обеспечивает полное представление изображения. Каждая полоса содержит свои собственные отдельные пиксели, которые представлены в этой матрице. Из-за сильной корреляции между соседними пикселями, расположенные рядом друг с другом пиксели, как правило, идентичны по характеру. В результате, при работе с пространственным изображением крайне важно учитывать информацию из соседних пикселей. Это можно сделать, используя окно, ориентированное на ядро или пиксель [17]. Извлекая пространственную информацию из кубов HSI. Кроме того, глубокие нейронные сети (DNN) также используются для этой цели.

Текстура изображения обеспечивает важный пространственный контекст для HSI. Метод проверки текстуры, такой как фильтр Габора, может успешно захватывать текстурную информацию в различных масштабах и ориентациях. Аналогично, локальный двоичный шаблон (LBP) может выражать пространственные текстуры инвариантным к вращению образом. Более того, DNN могут извлекать пространственную информацию из HSI, обрабатывая их как фрагменты изображения, в отличие от традиционного метода обработки отдельного пикселя как спектрального вектора.

C. Спектрально-пространственное представление

В этом представлении объединены как спектральная, так и пространственная информация. Математически это представление HSI можно выразить как HC ∈ RBD(ROW×COL). Это означает, что вектор каждого пикселя анализируется с использованием спектральных характеристик, а также с учётом соответствующих пространственных данных. В гиперспектральной визуализации (HSI) методы спектрально-пространственного представления, использующие как пространственные, так и спектральные модели, часто связывают пространственные данные со спектральным вектором [18]. В данной литературе большинство методов основаны на этом спектрально-пространственном представлении HSI.

D. Классификация HSI (HSIC)

Основная задача HSIC — дать уникальную метку каждому отдельному пиксельному вектору в кубе изображения на основе его спектральных и пространственных характеристик. Куб HSI математически описывается как HC = [hc1, hc2, hc3,..., hcBD]T ∈ RBD(ROW×BD), где BD — количество спектральных каналов, каждый из которых содержит ROW×COL выборок, которые могут быть отнесены к различным классам CLS. Идентификатор класса clsi присваивается i образцу в кубе HSI, hci = (hc1, i, hc2, i, hc3, i,..., hcBD, i)T.Один из способов рассмотреть задачу классификации — это задача оптимизации. Это означает, что функция отображения fc(.) используется для преобразования входных данных HC таким образом, чтобы получить соответствующий уровень CLS. Благодаря этому функция уменьшает расхождение между ожидаемым и реальным объёмом производства.
Параметр θ необходимо скорректировать, чтобы преобразование входных данных HC выполнялось в виде fc: HC → CLS.

4. Применение глубокого обучения для HSIC

Традиционные подходы к RGB, монохромной и мультиспектральной визуализации не могут быть напрямую использованы для HSI из-за их уникальных инженерных и статистических качеств с использованием многомерных спектрально-пространственных данных. В результате были созданы методы классификации HSI, основанные на машинном обучении. Эти методы обычно требуют использования инженерных навыков и знаний предметной области для создания коллекции важных признаков, созданных человеком. Созданные вручную признаки могут представлять многочисленные атрибуты изображения; следовательно, их можно использовать с анализируемыми данными, но они могут не работать с реальными данными. Поскольку оптимальные признаки значительно различаются в разных наборах данных, сложно найти баланс между надежностью и дискриминируемостью. Подходы, основанные на DL, были созданы для устранения недостатков стандартных моделей путем изучения поведения любых данных без понимания их статистического распределения [19] и извлечения линейных и нелинейных признаков без каких-либо заранее заданных знаний.

Учитывая описанные возможности DL, существует несколько дополнительных препятствий, которые следует учитывать при применении DL к данным HSI. Наличие множества непрерывных и узких спектральных полос с более высоким спектральным разрешением и более низким
пространственным разрешением по всему электромагнитному спектру, в сочетании с нехваткой обучающих данных, является причиной большинства этих проблем. Хотя пиксели, содержащие большой объем данных о своих спектральных характеристиках, выгодны для классификации, сложность необходимых вычислений становится серьезной проблемой.

Более того, с увеличением числа факторов возрастает сложность обработки таких многомерных данных. «Проклятие размерности» относится к возникновению проблем с классификацией по мере увеличения числа измерений, что значительно снижает эффективность обучения с учителем [20]. Модель может быть склонна к переобучению из-за недостатка адекватных данных для обучения и/или проблем с надежностью (например, обучающие примеры могут не вносить никаких дополнительных признаков в модель или иметь схожую структуру). Когда количество частотных диапазонов в информации значительно меньше количества размеченных обучающих данных, наблюдается эффект Хьюза, описанный в [21].

Различные переменные, такие как экстремальная дисперсия внутри одного класса из-за неконтролируемых значений отражательной способности, вызванных внешними эффектами, и наличие шума прибора во время процесса записи, могут оказывать негативное влияние на HSIC [22]. Спектральное смешивание — это проблема, вызванная слишком низким или средним пространственным разрешением HSI. При уменьшении разрешения пикселей HSI они охватывают большую площадь земли, что приводит к проблеме смешанных спектральных сигнатур. Это затрудняет различение разнородных материалов с использованием их спектральных значений отражения, особенно в пограничных областях, где межклассовое сходство велико [23]. Ниже перечислены некоторые из основных проблем, возникающих при применении DL к HSIC.

А. Сложности процедуры обучения

Недетерминированные задачи полиномиального времени (NP) в области DL для HSIC предсказать результаты обучения и оптимизации DNN путем изменения параметров чрезвычайно сложно [24], [25], [26]. Это приводит к общему предположению, что обучение DNN может быть довольно сложным [19], особенно в случае HSI, где необходимо настроить значительное количество параметров. Тем не менее, недавняя разработка многочисленных методов оптимизации для глубоких сверточных нейронных сетей (CNN) упростила процесс сходимости. Среди успешных методов оптимизации CNN, часто используемых для любой задачи классификации, — стохастический градиентный спуск [27] и его импульсный вариант [28], RMSProp [29], Adam [30], diff Grad [31], RAdam [32], централизация градиента (GC) [33], и AngularGrad [34].

B. Нехватка обучающих данных

Контролируемые DNN требуют большого объема обучающих данных для предотвращения существенного переобучения [35]. Однако гиперспектральные изображения (HSI) имеют высокую размерность, что затрудняет их обработку, что усугубляется нехваткой аннотированных обучающих данных. Это создает проблему для эффективности DNN для HSIC, поскольку требует значительных корректировок и настроек на этапе обучения [36].

C. Огромные вычислительные затраты

Глубокие нейронные сети сталкиваются с многочисленными проблемами, особенно при работе со значительными объемами данных. Это требует большей пропускной способности памяти, более высоких затрат на обработку и использования большего объема памяти [37]. Тем не менее, использование современных методов обработки данных, таких как распределенные и параллельные системы [38], [39] и высокопроизводительные вычисления (HPC) [23], может помочь преодолеть эту проблему. Глубокие нейронные сети теперь могут обрабатывать огромные объемы данных более эффективно и производительно благодаря этим стратегиям. Кроме того, использование распределенных и параллельных архитектур способствует снижению стоимости обработки, связанной с большими объемами данных. Кроме того, при работе с большими объемами данных высокопроизводительные вычисления могут помочь повысить производительность глубоких нейронных сетей. Глубокие нейронные сети могут обрабатывать большие объемы данных, используя эти сложные методы обработки, что приводит к лучшим результатам.

D. Снижение точности обучения

Часто считается, что глубокие нейронные сети (DNN) приводят к более сложным характеристикам, извлекаемым из данных [40]; однако, это может быть не так. По мере роста глубины сети, градиенты могут увеличиваться или уменьшаться [41], что может оказать значительное негативное влияние на общую производительность модели [40]. Это связано с тем, что добавление большего количества слоёв в сеть может привести к слишком большому или слишком малому градиенту, что может помешать модели изучить
оптимальные параметры. Следовательно, простое добавление большего количества слоёв в сеть не приводит к повышению точности для всех систем.

5. Недавно разработанные модели глубокого обучения для гиперспектральной классификации изображений

В последние годы было разработано множество методов глубокого обучения (HSIC) на основе глубокого обучения с целью повышения точности. В этом разделе мы обсудим некоторые из самых последних разработанных моделей классификации для гиперспектральной классификации изображений.
A. Модели HSIC на основе двумерной сверточной нейронной сети (SP-CNN)

1) SP-CNN

Свёрточные нейронные сети (CNN) на основе попиксельной Классификации HSI уже являются проверенными методами извлечения спектральных признаков, но с увеличением глубины сети пространственная информация куба HSI постепенно теряется, что приводит к снижению точности результата классификации. Период обучения сети увеличится, если мы углубим её из-за необходимости настройки большого количества внутренних параметров. Для решения этой проблемы Ф. Се и др. предложили модель HSIC, называемую Super Pixel CNN (SP-CNN) [42], в которой они использовали архитектуру CNN для извлечения спектральных признаков куба HSI, а также карты Super Pixel для извлечения пространственной информации, которая позже объединяется со спектральными признаками для дальнейшей классификации.

Как правило, в их предложенной SP-CNN есть два модуля обработки: первый — понижение частоты дискретизации, а второй — повышение частоты дискретизации. Процедуры свертки и объединения используются в методологии понижения частоты дискретизации для получения спектральных характеристик из куба HSI. В модуле повышения частоты дискретизации пространственная информация восстанавливается на основе спектральной информации. Вместо пикселей они использовали суперпиксель, что значительно сокращает количество классификационных выборок. Общая структура предложенного ими метода SP-CNN показана на рисунке 2.
Рисунок 2. Архитектура суперпиксельной сверточной нейронной сети (SP-CNN) [42]
2) FCSN

Подобно обычным задачам сегментации, нам приходится сосредоточиваться на определении меток каждого пикселя для HSI. Недавние исследователи в основном сосредоточились на разработке различных DNN для повышения производительности классификации HSI для различных общедоступных наборов данных HSI. Х. Сан и др. обнаружили две основные проблемы, связанные с возможностями обобщения, с помощью этих методов: первая заключается в том, устойчивы ли разработанные глубокие сверточные сети к изменениям пространственного распределения земного покрова, а вторая – в том, насколько точны результаты классификации на границах областей земного покрова.

Они поставили эти две проблемы, поскольку в реальных условиях пространственное распределение земного покрова для HSI изменчиво и сложно из-за изменений точки обзора или перестройки городской среды. Чтобы преодолеть эти проблемы, они предложили модель классификации HSI, названную «Полностью сверточная сегментационная сеть (FCSN)» [43]. Фундаментальная архитектура FCSN для классификации HSI и традиционной сети на основе CNN похожа, но ключевое отличие заключается в том, что FCSN не использует полносвязный (FC) слой, слой выравнивания или слой глобального объединения в качестве основных операций. Использование FC или слоев глобального объединения в методах на основе CNN может привести к потере пространственной информации в кубе HSI. Это связано с тем, что эти слои отвечают за преобразование карт признаков в векторы, и существует риск потери пространственных связей между различными спектральными диапазонами в ходе этого преобразования.

Методы на основе CNN обычно сосредоточены на классификации центрального пикселя куба HSI, тогда как предлагаемая ими FCSN сосредоточена на классификации всех пикселей куба HSI. Для реализации FCSN они сначала используют остаточное соединение для построения остаточного блока, а затем накладывают остаточные блоки для реализации предлагаемой модели. Структура FCSN и предлагаемого ими остаточного блока показана на рисунке 3.

3) LS2CM

Сверточные нейронные сети (CNN) стали одним из наиболее распространённых методов классификации HSI. Однако одним из основных недостатков систем на основе CNN является их высокая вычислительная требовательность, несмотря на большое количество внутренних параметров, которые они содержат. Для повышения точности классификации используются более сложные модели на основе CNN, что увеличивает вычислительную нагрузку на систему в целом. Для решения этой проблемы З. Мэн и др. предложили легковесный модуль пространственной свертки спектров LS2CM [44] для замены традиционного сверточного слоя модели классификации HSI, что значительно сокращает количество параметров. В своей предложенной модели они использовали два остаточных блока на основе LS2CM, которые были аналогичны остаточному блоку ResNET. В своей предложенной модели они использовали свёртку 1×1 для извлечения спектральных признаков и свёртку 3×3 для извлечения пространственных признаков. Затем они объединили вход первого блока LS2CM и выход второго блока LS 2CM, используя операцию аддитивного сокращения. После каждого слоя первого блока LS2CM они реализовали слой активации BN и ReLU. Они также не использовали компонент ReLU во втором блоке LS2CM. Схема LS2CM показана на рисунке 4.
Рисунок 3. Архитектура FCSN [43]: (a) Остаточный блок, (b) FCSN
4) SPRN

X. Zhanag и др. предложили метод HSIC, называемый **Spectral Partitioning Residual Network (SPRN)** [45], объединив подход спектрального разделения (**Spectral Partitioning**, SP) с методами двумерных свёрточных нейронных сетей (CNN). Это позволило снизить вычислительную сложность общего метода.

Во входных патчах было выполнено разделение на группы одинаковой ширины и спектральной размерности, каждая группа была передана в параллельные сети свёртки для извлечения признаков, причём одна группа обрабатывалась одной сетью. Фактически авторы использовали группу свёрток вместо отдельной параллельной свёрточной сети, что дало схожий результат.

Для улучшения взаимодействия между внутренними слоями свёртки были применены блоки остаточных связей (residual blocks). Эти блоки имеют две ветви: локальную и глобальную. Локальная ветвь реализована с использованием S параллельных свёрточных нейронных сетей (CNN), состоящих из двух пар свёрточных слоёв, предназначенных для извлечения локальных спектральных характеристик в определённом диапазоне каналов. Глобальная ветвь состоит из двух стандартных свёрточных слоев, извлекающих глобальные спектральные признаки по всему диапазону входных каналов.

Для объединения пространственных и спектральных признаков использовался слой Global Average Pooling (gap), который также позволяет объединить локальные спектральные характеристики с глобальными.

Авторы дополнительно применили модуль обнаружения однородных пикселей (**Homogeneous Pixel Detection Module**, HPDM), повышающий эффективность предложенной ими глубокой архитектуры SPRN. Этот модуль создаёт весовую маску, позволяющую определить значимость каждого пикселя сегмента куба HSI. Весовая маска формируется путём измерения сходства центрального пикселя с соседними пикселями. Пиксели, обладающие близкими спектральными характеристиками центральному пикселю, получают больший вес, нежели менее похожие пиксели.

Архитектура модуля HPDM и сети Spectral Partitioning Residual Network представлена на рисунке 5.
Рисунок 4. Диаграмма предлагаемого авторами модуля LS2CM [44].
5) SpectralNET

В целом, в HSIC используются два типа сверточных нейронных сетей (СНС).
Первый — это трёхмерная СНС, которая хороша для извлечения спектральных признаков, но требует больших вычислительных затрат. Второй — это двумерная СНС, которая проста в вычислительных затратах и ​​хороша для извлечения пространственных признаков, но не подходит для обработки изображений с различным разрешением. Некоторые исследователи также исследовали композитную модель, состоящую из трёхмерной и двумерной СНС, хотя их производительность оказалась ограниченной для многих баз данных. Чтобы преодолеть эти ограничения, Т. Чакраборти и др. предложили двумерную модель на основе СНС, названную SpectralNET [46], в которой они использовали вейвлет-преобразование вместо трёхмерной СНС для получения спектральных карт признаков. В своей модели они использовали факторный анализ вместо PCA для выбора диапазона. Они использовали вейвлет-преобразование для извлечения спектральных признаков и двумерную СНС для развёртывания пространственных признаков. Затем каналы признаков были объединены и отправлены в плотный слой для классификации. Чтобы предотвратить проблему переобучения, авторы ввели глобальный средний слой объединения после всех свёрточных слоёв перед передачей в плотный слой. Они также использовали два слоя исключения и слой пакетной нормализации, чтобы предотвратить проблему переобучения.
а. Архитектура модуля обнаружения однородных пикселей
б. Архитектура сети спектрального разделения с остаточными связями.
B. LKSSAN

G. Sun и др. предложили модель LKSSAN (Larger Kernel Spectral andSpatial Attention Network) — классификационную сеть гиперспектральных изображений (HSI), основанную на обработке патчей, включающую этапы подготовки данных, модуля спектро-пространственного внимания (SSAM) и компонент классификации. Рассматриваемые проблемы включают трудности извлечения дальнодействующих трехмерных признаков и вычислительные затраты. Пространственное нарезание генерирует большое количество трёхмерных патчей для локального использования признаков. Модуль SSAM применяет внимание с большими ядрами (LKA) и свёрточные слои прямого распространения (CFF), обеспечивая адаптивное выделение значимой долгосрочной информации путем взвешивания. CFF позволяет гибко восстанавливать пространственную информацию в семантических признаках. Классификационный модуль улучшает карты трехмерных признаков с использованием простой многослойной перцептронной сети (SMLP), создавая карту вероятностей классов. Дополнительно введен блок расширения масштаба, способствующий эффективному извлечению спектро-пространственных связей в многоуровневых картах признаков.

C. Остаточный блок

1) HResNETAM

Мы знаем, что гиперспектральное изображение может содержать огромные размерные нелинейные данные. Большинство многомасштабных экстракторов признаков, построенных на сверточных нейронных сетях, не способны извлекать как локальные, так и глобальные характеристики одновременно. Иерархический экстрактор признаков помогает в определённой степени устранить эти недостатки. Однако использование послойного метода может быть причиной исчезновения градиентов, поскольку для обучения требуется большое количество размеченных образцов. Для решения этой проблемы З. Сюэ и др. предложили сеть под названием Иерархическая Остаточная сеть с механизмом внимания (HResNE TAM) [48]. Чтобы повысить способность признаков точно классифицировать HSI, предлагаемый подход включает в себя независимые спектральные и пространственные модули внимания в сочетании с иерархическими спектральными и пространственными экстракторами признаков. В предлагаемом экстракторе признаков они включили три уровня остаточных блоков для создания нескольких подгрупп карт признаков с различными рецептивными полями. Каждый остаточный блок состоит из трёх слоёв: 1. Свёрточный (Conv) слой, 2. Слой пакетной нормализации (BN) и 3. Активационный слой с ректифицированным линейным блоком (ReLU). Они удвоили этот иерархический экстрактор признаков, чтобы отдельно получать пространственные и спектральные характеристики. Чтобы изобразить взаимозависимости между каналами, они использовали спектральный модуль внимания вместе со своим экстрактором спектральных признаков. Сначала они изменили и транспонировали исходный входной сигнал в спектральном модуле внимания, затем умножили его на исходный входной сигнал, и результат умножения был передан в слой активации SoftMax для получения карты внимания. Архитектура предлагаемого ими иерархического остаточного блока показана на рисунке 6.

2) Ghostnet

Получение информации из кубов гиперспектральных данных является сложной и ресурсоемкой задачей. Для решения этой проблемы в последние годы широко используются сверточные нейронные сети (CNN) для обработки гиперспектральных изображений (HSI). Хотя алгоритмы классификации HSI на основе CNN очень эффективны, обработка требует значительных временных затрат и потребления памяти. Поэтому крайне важно разработать легковесную CNN-модель для высокоточностной классификации HSI, пригодную для современных приложений на мобильных и встроенных системах разных платформ.

М. Э. Паолетти и др. [49] предложили подход к классификации HSI, сочетающий фреймворк ghost-модуля с классификатором на основе CNN, что позволило снизить вычислительную нагрузку и повысить производительность и точность модели. Чтобы уменьшить спектральную размерность исходного куба HSI, предложенная ими сеть Ghostnet реализует простую базовую единицу, состоящую из слоя свертки, нормализации и активации. Затем используется стек из трех ghost-блоков, помогающих избежать проблем переобучения, деградации и потери градиентов при прямом и обратном распространении сигнала. Для борьбы с феноменом снижения точности авторы использовали короткие соединения и спроектировали блоки ghost-bottleneck на основе архитектуры остаточных блоков [50],[51].

Каждый блок bottleneck представляет собой комбинацию двух стековых ghost-модулей. Каждый ghost-модуль состоит из основного слоя свёртки, создающего ключевые признаки исходных функций, и группового слоя свёртки (размер группы равен числу каналов ввода), гарантирующего применение каждого линейного ядра лишь к одному каналу ключевых признаков. Выход блока первичного слоя свёртки объединяется с выходным слоем групповой свёртки и передаётся следующему блоку ghost-bottleneck. Для улучшения отклика признаков по каналам разработчики внедрили блок сжатия и возбуждения (SE) между каждым двумя блоками ghost-модулей. Предложенный SE-блок включает слой адаптивного усреднения и два точечных слоя свёртки.

Подобно остаточным блокам [40], кроме первого ghost-bottleneck, число каналов увеличивается в первом ghost-модуле и уменьшается во втором ghost-модуле каждого ghost-bottleneck. Первый модуль расширяет число каналов втрое, затем SE-модуль сначала сжимает и снова увеличивает их, интегрируя пространственную информацию по каналам, а в конце второй ghost-модуль уменьшает число каналов до требуемого значения. Необходимо управлять размером входных признаков, используя несколько сверток в коротком соединении перед выполнением финальной суммы, поскольку второй ghost-bottleneck увеличил число признаков на выходе. Наконец, применяется слой свёртки-пулинга, собирающий все карты признаков и преобразующий их в вектор перед отправкой в классификатор, состоящий из двух полносвязных слоев (Fully Connected, FC) и многослойного персептрона (Multi-Layer Perception, MLP).

D. Трехмерные сверточные нейронные сети (3D CNN)

1) SCNN

Современные методы классификации гиперспектральных изображений (HSIC), основанные на глубоком обучении, сталкиваются с рядом ключевых трудностей: смешанные пиксели снижают надежность исходных спектральных данных, учитывая наличие пространственной информации. Модель Sandwich CNN (SCNN), разработанная группой исследователей под руководством Хао Гао [52], решает данную проблему путём предварительной обработки данных, заменяя пространственные характеристики спектральными данными.

Для повышения качества экстрагирования спектральной информации и сохранения пространственной структуры авторы вводят модуль усиления спектральных характеристик (Spectral Feature Enhancement, SFE). Этот модуль включает две последовательные спектральные секции, каждая из которых состоит из трёх компонентов: слоя свёртки (Conv), слоя пакетной нормализации (Batch Normalization, BN) и активационного слоя ReLU. Помимо этого, используется отдельный пространственный блок для выделения пространственных особенностей посредством точечной свёртки. Авторами также реализован метод многоканального объединения признаков для эффективного анализа данных разного пространственного разрешения.

После пространственного извлечения признаков используется другой блок извлечения спектральных признаков, аналогичный первому, для извлечения абстрактных характеристик из пространственно объединённых спектральных признаков. Это позволяет использовать спектральные характеристики из нескольких позиций. Общий вид SCNN показан на рисунке 7.
Рисунок 7. Блок-схема сети Sandwich Convolution Neural Network (SCNN) [52]
2) SSAD

Мы все знаем, что у каждого метода, основанного на глубоком обучении, есть общая проблема: для достижения более высокой точности требуется огромное количество размеченных образцов. Как правило, эти размеченные образцы можно собрать двумя способами: 1. Полевое исследование, 2. Визуальное распознавание на изображениях с высоким разрешением. Размеченные образцы, собранные в ходе полевых исследований, могут обеспечить более высокую точность, но это очень дорогой процесс, и получение достаточного количества размеченных образцов для процесса обучения может быть иногда сложной задачей. Для решения этой проблемы они предлагают метод, называемый подходом самообучения с самоконтролем и адаптивной дистилляцией (SSAD) [53] для обучения DNN с использованием множества неразмеченных образцов.

Предлагаемые ими методы делятся на два модуля:

1. Адаптивное извлечение знаний с самоконтролем и обучением с самоконтролем (SSL).

2. SSL с трехмерным преобразованием.

Стратегия извлечения знаний в модуле адаптивной извлечения знаний, по сути, представляет собой стратегию передачи обучения, при которой знания из одной высокоточной более крупной сети передаются в небольшую сеть, где большая сеть используется для генерации
мягких меток, а обучение меньшей сети руководствуется этими сгенерированными мягкими метками. Мягкие метки подготавливаются путем сравнения сходства немаркированных образцов с указанными классами объектов. Предлагаемые ими мягкие метки, которые являются адаптивными по своей природе, включают возможность немаркированных образцов для каждого заданного класса объектов. Мы все знаем, что горизонтальное вращение в пространственной области не влияет на прогнозирование пикселей при классификации HSI. В результате в части 3D-преобразования гиперспектральный куб поворачивается и зеркально отражается в пространственной области для повышения устойчивости модели HSIC.

Поворачивая карту истинности по горизонтали аналогично тому, как поворачивается входная HSI, можно определить потерю кросс-энтропии. В своей реализации они установили четыре горизонтальных поворота: 0°, 90°, 180° и 270°. В спектральной области они также вращают гиперспектральный куб, чтобы определить расположение спектральной последовательности. Они определили два типа спектральных последовательностей: первый — это частоты, расположенные в возрастающем порядке, который обозначен как 1, и второй — это частоты, расположенные в убывающем порядке, который обозначен как 0. Прогрессивная сверточная сеть (PCN) — это полноценная сверточная нейронная сеть (CNN), которая может выполнять геометрические преобразования как в пространственной, так и в спектральной областях. HSI вращается в соответствии с результатом прямого распространения в PCN.

E. Гибридные методы

1) Консолидированные сверточные нейронные сети (C-CNN) Всем известно, что методы глубокого обучения имеют общую проблему переобучения при использовании этих методов с данными высокой размерности. Чанг и др. использовали ReLU активацию, L2-регуляризацию и отсев для решения этой проблемы переобучения для глубокого обучения с данными высокой размерности в своей предложенной модели классификации HSI под названием «Консолидированные сверточные нейронные сети (C-CNN)» [54]. Они использовали два блока для построения предлагаемой модели. Один блок использовался для спектрального обучения признакам, а другой — для пространственного. В блоке спектрального обучения признакам они использовали три последовательных 3D-свёрточных слоя с размером свертки и ядра (8, (3×3×7)), (16, (3×3×5)) и (32, (3×3×3)). Они развернули слой Max-pooling для успешного выполнения операций трёх последовательных свёрточных слоёв. Блок обучения спектральных признаков был подан в блок обучения пространственных признаков, используя три двумерных свёрточных слоя с размерами ядра свёртки (128, (1×1)), (256, (3×3)) и (64, (1×1)), за которыми следовал слой Max-pooling. Hyper Spectral Image имеет большое количество каналов, что может быть проблемой для более высокой вычислительной сложности. Чтобы решить эту проблему, они развернули двумерную свёртку 1×1, чтобы сократить как размер ядра свёртки, так и сложность, сохранив все признаки. Этот тип свёртки также обеспечил им лучшую обучаемость и обобщение.

6. Сравнительная оценка

Чтобы продемонстрировать преимущества и недостатки своих рекомендаций, научные исследования часто проводят полную экспериментальную оценку. Однако в этих работах могут использоваться различные экспериментальные условия, такие как различное количество или соотношение обучающих, проверочных и оценочных выборок. Для достижения объективного сравнения литературных произведений крайне важно использовать одинаковые экспериментальные условия.

Экспериментальные параметры состоят из одних и тех же выборок (географическое положение не должно различаться между моделями) и количества выборок, которые будут выбраны для каждого сеанса обучения в процессе перекрёстной проверки. Поскольку эти выборки обычно выбираются случайным образом, вполне возможно, что они будут различаться для разных моделей, если они реализованы в разное время.

В большинстве современных работ рассматривается проблема перекрытия обучающей и тестовой выборок. Хотя обучающая и проверочная выборки выбираются случайным образом, для тестирования используется полный набор данных, что приводит к смещенной модели с высокой точностью. Чтобы избежать этого, выборки в данной работе выбираются случайным образом, но пересечение между ними пустое.

ТАБЛИЦА I. Обзор трех популярных наборов данных HSI
А. Используемые наборы данных

Для проведения сравнительной экспериментальной оценки мы использовали три наиболее широко используемых набора данных: Indian Pines (IP), University of Pavia (PU) и Salinas Scene (SA). Эти наборы данных имеют широкий спектр применения в дистанционном зондировании, что делает их идеальными для сравнительных исследований, позволяющих глубже понять методы, обсуждаемые в предыдущей части. Общая информация об используемых классах была представлена ​​в табличном формате в Таблице I и Таблице II.

Набор данных Indian Pines (IP) [55] был получен с помощью прибора AVIRIS на испытательном участке Indian Pines на северо-востоке Индианы. Образец содержал 224 спектральных канала в диапазоне длин волн от 400 до 2500 нм после удаления 24 пустых и поврежденных каналов. Изображение имело разрешение 20 м на пиксель (MPP) и размер 145x145 пикселей включительно. Оно состояло из 16 различных классов растений, каждый со своим описанием и картами истинности. На рисунке 8 показаны RGB-источник и истинная истина для набора данных Indian Pines (IP).

Набор данных Университета Павии (PU) [56] представляет собой большую коллекцию гиперспектральных изображений, полученных с помощью датчика спектрометра с системой визуализации отражательной оптики (ROSIS) [57] в сельскохозяйственном регионе недалеко от Павии, Италия. Размер набора данных составляет 610x340 пикселей, разрешение — 2,5 м на пиксель (MPP), с 103 спектральными каналами, длина волны которых варьируется от 430 до 860 нм. Асфальт, поля, гравий, деревья, металлические листы, голая почва, битум, кирпичная кладка и тени входят в число девяти типов почвенного покрова. Исходные данные RGB и истинные данные для набора данных Университета Павии (PU) показаны на рисунке 9.

Набор данных "Сцена в Салинасе" [58] представляет собой совокупность данных гиперспектральной визуализации, собранных над Салинасом Вэлли, Калифорния, с помощью датчика AVIRIS. Набор данных состоит из 145x145 пикселей и 224 спектральных полос, причем каждый пиксель представляет собой площадь размером приблизительно 1,3 метра.  1,3 метра от земли. Площадь, охватываемая 217 образцами, составляла 512 линий. Изображение, включающее флору, бесплодные почвы и виноградные поля, было доступно только в виде данных об освещенности, полученных с помощью сенсора. Исходный код Салинаса состоял из 16 различных классов. На рисунке 10 показаны исходный код RGB и исходный код почвы.  Истина для набора данных о сцене в Салинасе (Южная Каролина).
Рисунок 8. Обзор набора данных IP [55]: (a) RGB-источник, (b) наземные контрольные данные, (c) легенда
Рисунок 9. Обзор набора данных PU [56]: (a) источник RGB, (b) наземные контрольные данные, (c) легенда
ТАБЛИЦА II.Категории земельных участков в трех наборах данных
Рис. 10. Обзор набора данных [58]: (а)Исходный код, (б) Основные данные, (в) условные обозначения
B. Сравнительные результаты и анализ

Эксперименты проводились на ноутбуке Dell Inspiron 15Gaming 5577, оснащенном процессором Intel i57300HQ , 8 ГБ оперативной памяти DD 42400 МГц и видеокартой NVIDIA GTX 10504 ГБ. Чтобы гарантировать объективность сравнения, мы ограничили анализ 15 спектральными полосами для всех наборов данных и использовали одинаковый размер фрагментов 25×25. Наборы данных были разделены на обучающий и тестовый наборы в соотношении 70:30, при этом 70% использовалось для обучения и 30% для тестирования. Каждый метод проходил 100-секундные эпохи в течение периода обучения.

Несколько недавних исследований показывают эффективность некоторых методов классификации изображений. SCNN, SpectralNET, SP CNN, C-CNN, HResNETAM, LS2CM, FCSN, Ghostnet, SPRN и SSAD – вот некоторые из этих методов. В этих исследованиях сравнивались экспериментальные результаты этих методов, обсуждавшихся в предыдущих разделах, чтобы определить, какие из них наиболее эффективны. Мы использовали три метрики для анализа эффективности классификации и выбрали наиболее эффективную модель HSIC на основе уравнений 2, 3 и 4: общая точность (OA), средняя точность (AA) и каппа (K).
В уравнении 2 OA представляет общую точность, T представляет общее количество образцов для каждого класса, Nos представляет общее количество классов почвенно-растительного покрова в наборе данных, а Curr(p,p) представляет текущие классифицированные образцы алгоритма.
В уравнении 3 используются следующие обозначения: AA обозначает среднюю точность, а T представляет общее количество классификаций объектов растительного покрова. Curr(p,+) указывает общее количество выборок, в которых объекты растительного покрова классифицированы по определенным классам, а Curr(+, p) указывает общее количество выборок, в которых объекты растительного покрова фактически относятся к определенным классам.
В уравнении 4 термин Kp относится к каппе. Curr(p,+) определяет общее количество выборок, в которых объекты земельного покрова делятся на определённые классы. Curr(+, p) определяет общее количество выборок, в которых объекты земельного покрова действительно принадлежат к определённому классу. В таблицах III, IV и V мы показали классовую точность различных методов HSIC для которых мы изучали на основе общедоступного набора данных HSI, называемых PU, IP и SA соответственно. Таблица VI содержит сравнительную таблицу значений OA, AA и Kp для различных методов. Эта таблица позволяет быстро сравнить производительность рассматриваемых методов.

В Таблице III мы видим, что SpectralNET [46] превосходит по всем классам наборов данных Университета Павии. Для первого и восьмого классов наборов данных Университета Павии, названных «Asphalt» и «Self-Blocking Bricks» соответственно, HResNETAM [48] также обеспечивает такую ​​же производительность, как SpectralNET [46]. В случае седьмого класса наборов данных Университета Павии, названного «Bitumen», SCNN [52], SP CNN [42] обеспечивает такую ​​же производительность, как SpectralNET [52]. Для девятого класса наборов данных Университета Павии, названного «Shadows», FCSN [43] также обеспечивает наивысшую точность, равную 100%, как SpectralNET [46]. HResNETAM [48] обеспечивает точность более 98% для восьми классов из девяти классов набора данных Университета Павии. Для пятого класса набора данных Университета Павии, названного «Painted Metal Sheets», почти все изученные нами методы дают точность более 99%, за исключением SSAD [53]. Из Таблицы III мы видим, что SCNN [52], SpectralNET [46] и HResNETAM [48] обеспечивают согласованную производительность почти для всех классов набора данных Университета Павии, а в случае других методов HSIC мы видим значительное падение производительности для некоторых классов.

Из Таблицы IV видно, что SpectralNET [46] превосходит SpectralNET для большинства классов набора данных Indian Pines. Для девятого класса набора данных Indian Pines, названного «Oats», SCNN [52] и SP-CNN [42] обеспечивают одинаковую точность, а также работают лучше, чем SpectralNET [46]. В случае пятого класса набора данных Indian Pines, названного «Grass-pasture», SP-CNN [42] обеспечивает лучшую точность, чем SpectralNET [46]. В случае седьмого класса набора данных Indian Pines, названного «Grass-pasture-mowed», SCNN [52], SpectralNET [46], SP-CNN [42] и SPRN [45] демонстрируют одинаковую производительность. Для восьмого, тринадцатого и четырнадцатого классов наборов данных Indian Pines, названных «Hay-windrowed», «Wheat» и «Wood», SCNN [52] и SpectralNET [46] демонстрируют схожую производительность. Для первого, четвёртого и шестого классов наборов данных Indian Pines, названных «Alfalfa», «Corn» и «Grass-pasture mowed», SpectralNET [46] и SP-CNN [42] обеспечивают схожую производительность. Из Таблицы IV мы видим, что SCNN [42], HResNETAM [46], LS2CN [47] и SPRN [45] обеспечивают согласованность, в то время как другие методы HSIC демонстрируют снижение производительности для нескольких классов наборов данных Университета Павии.

В Таблице V мы видим, что SpectralNET [46] работает лучше, чем другие методы HSIC для всех классов набора данных Salinas Scene. Для первого класса набора данных Salinas Scene, названного «Brocoli green weeds 1» SCNN [52] и SpectralNET [46] показывают одинаковую производительность, а для второго класса наборов данных Salinas Scene, названного «Brocoli green weeds2», SCNN [52], SpectralNET [46] и SPRN [45] демонстрируют схожую производительность. В случае третьего класса наборов данных Salinas Scene, названного «Fallow» SCNN [52], SpectralNET [46] и SP-CNN [42] обеспечивают схожую производительность. В случае девятого класса набора данных Salinas Scene C-CNN [54] и SPRN [45] показывают схожую производительность, как и SpectralNET [46]. Для двенадцатого, тринадцатого и четырнадцатого классов набора данных Salinas Scene, названных «Lettuce romaine 5wk», «Салат ромэн «Lettuce romaine “Lettuce romaine 6wk» и  7wk», SP-CNN [42] также обеспечивает производительность, аналогичную SpectralNET [46]. Помимо SpectralNET [46], C-CNN [54] также обеспечивает очень хорошую производительность, превышающую 97% для всех классов, представленных в наборах данных Salinas Scene. В Таблице V отчетливо видно, что SCNN [52], SpectralNET [46], C-CNN [54], HResNETAM [48], LS2CN [44], FCSN [43], Ghostnet [49] и SPRN [45] обеспечивают практически согласованную производительность для всех классов в наборе данных Salians Scene, в то время как SP CNN [42] демонстрирует снижение точности для некоторых классов набора данных Salinas Scene. В данном исследовании мы в первую очередь сравниваем методы классификации HSI используя три предопределенных набора данных: 1. Indian Pines (IP), 2. University of Pavia (PU) и 3. Salinas Scene. Некоторые методы, однако, были протестированы только на одном или двух из этих наборов данных. Была оценена эффективность всех ранее заявленных свёрточных экстракторов признаков.

Результаты оценки представлены в Таблице VI. Мы все знаем, что результаты алгоритмов HSIC графически представлены в виде карт классификации. На полученной карте классификации каждый пиксель помечен определенным классом в виде уникального цвета. В целом, карта классификации очень полезна для детального понимания и анализа объектов различных классов на земной поверхности. Классификация, выполненная различными методами HSIC, которую мы изучили для наборов данных Indian Pines и Salinas Scene, показана на рисунках 11 и 12 соответственно.
ТАБЛИЦАIV. Сравнение точности по классам для набора данных IP (лучшие показатели выделены жирным шрифтом)
Рисунок 11. Сравнение результатов различных методов IP: (a) Ground Truth, (b) с использованием SCNN, (c) с использованием Spectralnet, (d) с использованием SPCNN, (e) с использованием SPRN, (f) с использованием SSAD
ТАБЛИЦА V. Сравнение точности по классам для набора данных SA (лучшие показатели выделены жирным шрифтом)
ТАБЛИЦА VI. Сравнение показателей ОА, АА и Каппа описанных методов (жирным шрифтом выделены наилучшие показатели)
На рисунке 11 отчетливо видно, что карты классификации, сгенерированные SCNN [52] и SpectralNET [46], практически эквивалентны исходным истинным данным наборов данных Indian Pines. Но в случае карт классификации, сгенерированных SP-CNN [52], SPRN [45] и SSAD [53], мы можем обнаружить некоторое перекрытие классов. Это означает, что SP-CNN [42], SPRN [45] и SSAD [53] показали более низкую точность классификации по сравнению с SCNN [42] и SpectralNET [43] при классификации классов набора данных Indian Pines. На рисунке 12 отчетливо видно, что карты классификации, сгенерированные SCNN [52] и SpectralNET [46], практически эквивалентны исходным истинным данным наборов данных Salinas Scene. Но в случае карт классификации, сгенерированных SP-CNN [42], C-CNN [54] и SPRN [45], мы можем обнаружить некоторое перекрытие классов. Это означает, что SP-CNN [42], C-CNN [54] и SPRN [45] показали более низкую точность классификации по сравнению с SCNN [52] и SpectralNET [46] при классификации классов набора данных Университета Павии.
Рисунок 12. Сравнение результатов различных методов для SA: (a) Ground Truth, (b) с использованием SCNN, (c) с использованием Spectralnet, (d) с использованием SP-CNN, (e) с использованием C-CNN, (f) с использованием SPRN
Подводя итог, можно сказать, что сравнительные результаты и анализ многочисленных подходов HSIC выявляют ряд сильных и слабых сторон. SCNN значительно улучшает извлечение спектральных данных, сохраняя пространственную информацию, что приводит к высокой точности классификации. Сбалансированный метод SpectralNET, использующий вейвлет-преобразование и двумерные свёрточные нейронные сети, повышает производительность захвата как спектральных, так и пространственных характеристик. SP-CNN преодолевает проблему потери пространственной информации в глубоких свёрточных нейронных сетях, добавляя суперпиксельные карты, что приводит к точной классификации с минимальными вычислительными затратами. Отдельные блоки C-CNN для обучения спектральным и пространственным признакам снижают вычислительную сложность, но могут испытывать трудности со сложными пространственными паттернами. Механизмы внимания HResNETAM улучшают извлечение признаков, повышая точность классификации, но могут потребовать большего количества обучающих данных. Легкие сверточные модули LS2CM обеспечивают эффективность без ущерба для точности, но внимание FCSN к классификации всех пикселей повышает точность в сложных пространственных распределениях.

Ghostnet — это облегчённый подход с более высокой точностью, но SPRN использует спектральное разбиение и остаточные сети для минимизации вычислительной сложности. Наконец, стратегия самостоятельного обучения SSAD использует примеры без маркировки для повышения производительности. Каждый метод имеет свои преимущества и недостатки, что подчеркивает необходимость выбора подходящей стратегии в зависимости от конкретных потребностей приложения.

7. Заключение

Данные HSI являются распространённым вариантом для практического применения благодаря содержащейся в них информации. Потенциал их применения также повышается благодаря методам машинного обучения. В этой статье мы рассмотрели современные достижения в области HSIC, используя передовые глубокие нейронные сети (DNN), включая SCNN, SpectralNET, SP-CNN, C-CNN, HResNETAM, LS2CM, FCSN, Ghostnet, SPRN и SSAD. Мы выбрали несколько из этих исследований для проведения тестов на эталонных наборах данных HSI. Производительность SpectralNET сравнительно выше, чем у аналогов.
Несмотря на достижения в области HSIC, требуется дальнейшая работа для повышения общности. Нехватка размеченных данных является серьёзной проблемой, поскольку данные HSI труднодоступны, а для DNN требуется большой объём размеченных обучающих данных. Для повышения точности классификации следует изучить возможность одновременного использования спектральных и пространственных данных. Необходимо разработать эффективные и параллельные архитектуры HSIC для удовлетворения вычислительных требований критичных ко времени HSIC-приложений.
Ссылки

[1] M. Ahmad, A. Khan, A. M. Khan, M. Mazza, S. Distefano, A. Sohab, and O. Nibouche, "Spatial prior fuzziness pool-based interactive classification of hyperspectral images," Remote Sensing, vol. 11, no. 9, p. 1136, 2019.

[2] D. Hong, W. He, N. Yokoya, J. Yao, L. Gao, L. Zhang, J. Chanussot, and X. Zhu, "Interpretable hyperspectral artificial intelligence: When nonconvex modeling meets hyperspectral remote sensing," IEEE Geoscience and Remote Sensing Magazine, vol. 9, no. 2, pp. 52-87, 2021.

[3] H. Ayaz, M. Ahmad, A. Sohab, M. N. Yasir, M. A. Zaidan, M. Ali, M. H. Khan, and Z. Saleem, "Myoglobal-based classification of minced meat using hyperspectral imaging," Applied Sciences, vol. 10, no. 19, p. 6862, 2020.

[4] M. H. Khan, Z. Saleem, M. Ahmad, A. Sohab, H. Ayaz, and M. Mazza, "Hyperspectral imaging for color adulteration detection in red chili," Applied Sciences, vol. 10, no. 17, p. 5955, 2020.

[5] Z. Saleem, M. H. Khan, M. Ahmad, A. Sohab, H. Ayaz, and M. Mazza, "Prediction of microbial spoilage and shelf-life of bakery products through hyperspectral imaging," IEEE Access, vol. 8, pp. 176986-176996, 2020.

[6] M. Zulfiqar, M. Ahmad, A. Sohab, M. Mazza, and S. Distefano, "Hyperspectral imaging for bloodstain identification," Sensors, vol. 21, no. 9, p. 3045, 2021.

[7] H. Ayaz, M. Ahmad, M. Mazza, and A. Sohab, "Hyperspectral imaging for minced meat classification using nonlinear deep features," Applied Sciences, vol. 10, no. 21, p. 7783, 2020.

[8] M. H. Khan, Z. Saleem, M. Ahmad, A. Sohab, H. Ayaz, M. Mazza, and R. A. Raza, "Hyperspectral imaging-based unsupervised adulterated red chili content transformation for classification: Identification of red chili adulteration," Neural Computing and Applications, vol. 33, no. 21, pp. 14507-14521, 2021.

[9] N. Abdalah, "Food quality monitoring using hyperspectral data," Ph.D. dissertation, Politecnico di Torino, 2020.

[10] F. Xing, H. Yao, Y. Liu, X. Dai, R. L. Brown, and D. Bhattarai, "Recent developments and applications of hyperspectral imaging for rapid detection of mycotoxins and mycotoxigenic fungi in food products," Critical reviews in food science and nutrition, vol. 59, no. 1, pp. 173-180, 2019.

[11] M. Ahmad, "Ground truth labeling and samples selection for hyperspectral image classification," Optik, vol. 230, p. 166267, 2021.

[12] W. Jia, S. van Ruth, N. Scoccolan, and A. Koide, "Hyperspectral imaging (HSI) for meat quality evaluation across the supply chain: Current and future research trends," in Current Research in Food Science, vol. 5, pp. 1017-1027, 2022.

[13] Y. Fang, H. Li, Y. Ma, K. Liang, Y. Hu, S. Zhang, and H. Wang, "Dimensionality reduction of hyperspectral images based on robust spatial information using locally linear embedding," IEEE Geoscience and Remote Sensing Letters, vol. 11, no. 10, pp. 1712-1716, 2014.
[14] M. Sugiyama, "Dimensionality reduction of multimodal labeled data by local fisher discriminant analysis," Journal of machine learning research, vol. 8, no. 5, 2007.

[15] H.-T. Chen, H.-W. Chang, and T.-L. Liu, "Local discriminant embedding and its variants," in 2005 IEEE computer society conference on computer vision and pattern recognition (CVPR'05), vol. 2. IEEE, 2005, pp. 846-853.

[16] B.-C. Kuo and D. A. Landgrebe, "Nonparametric weighted feature extraction for classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 42, no. 5, pp. 1066–1105, 2004.

[17] B. Kumar, O. Dikshit, A. Gupta, and M. K. Singh, "Feature extraction for hyperspectral image classification: A review," International Journal of Remote Sensing, vol. 41, no. 16, pp. 6248–6287, 2020.

[18] Y. Chen, Z. Lin, X. Zhao, G. Wang, and Y. Gu, "Deep learning-based classification of hyperspectral data," IEEE Journal of Selected topics in applied earth observations and remote sensing, vol. 7, no. 6, pp. 2094–2107, 2014.

[19] S. Chen and Y. Wang, "Convolutional neural network and convex optimization," Dept. of Elect. and Comput. Eng., Univ. of California at San Diego, San Diego, CA, USA, Tech. Rep., 2014.
[20] R. Bellman, Adaptive Control Processes: A Guided Tour, 5th ed., ser. Princeton Legacy Library. New Jersey: Princeton University Press, 1961, vol. 245.

[21] G. Hughes, "On the mean accuracy of statistical pattern recognizers," IEEE transactions on information theory, vol. 14, no. 1, pp. 55–63, 1968.

[22] G. Hughes, "On the mean accuracy of statistical pattern recognizers," IEEE transactions on information theory, vol. 14, no. 1, pp. 55–63, 1968.

[23] J. M. Bioccaus-Dias, A. Plaza, G. Camp-Valls, P. Scheunders, N. Nasrabadi, and J. Chanussot, "Hyperspectral remote sensing data analysis and future challenges," IEEE Geoscience and remote sensing magazine, vol. 1, no. 2, pp. 6–36, 2013.

[24] Q. Ngyuen and M. He, "Optimization landscape and expressivity of deep cnns," in International conference on machine learning. PMLR, 2018, pp. 3730–3739.

[25] M. Ahmad, S. Shabbir, R. A. Raza, M. Mazza, S. Distefano, and A. M. Khan, "Artificats of different dimension reduction methods on hybrid cnn feature hierarchy for hyperspectral image classification," Optik, vol. 246, p. 167755, 2021.

[26] M. Ahmad, M. Mazza, and S. Distefano, "Regularized cnn feature hierarchy for hyperspectral image classification," Remote Sensing, vol. 13, no. 12, p. 2275, 2021.

[27] L. Bottou et al., "Stochastic gradient learning in neural networks," Proceedings of Neuro-Nimes, vol. 91, no. 8, p. 12, 1991.

[28] N. Qian, "On the momentum term in gradient descent learning algorithms," Neural networks, vol. 12, no. 1, pp. 145–151, 1999.

[29] G. Hinton, N. Srivastava, and K. Swersky, "Neural networks for machine learning lecture 6a overview of mini-batch gradient descent," Cite on, vol. 14, no. 8, p. 2, 2012.

[30] D. P. Kingma and J. Ba, "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.
[31] "Adam: A method for stochastic optimization," arXiv preprint arXiv:1412.6980, 2014.

[32] L. Liu, H. Jiang, P. He, W. Chen, X. Liu, J. Gao, and J. Han, "On the variance of the adaptive learning rate and beyond," arXiv preprint arXiv:1908.03265, 2019.

[33] H. Yong, J. Huang, X. Hua, and L. Zhang, "Gradient centralization: A new optimization technique for deep neural networks," in Proceedings of the 16th European Conference, Glasgow, UK, August 23-28, 2020, Proceedings, Part I 16. Springer, 2020, pp. 635–652.

[34] S. K. Roy, M. E. Paoletti, J. M. Haut, S. R. Dubey, P. Kar, A. Plaza, S. K. Bhattacharyya, and B. Chaudhuri, "Angular convergence of convolutional neural networks," arXiv preprint arXiv:2105.10190, 2021.

[35] D. Erhan, A. Courville, Y. Bengio, and P. Vincent, "Why does unsupervised pre-training help deep learning?" in Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings, 2010, pp. 201–208.
[36] M. Paoletti, J. Haut, J. Plaza, and A. Plaza, "Deep learning classifiers for hyperspectral imaging: A review," pp. 279–317, 2019.

[37] M. Z. Alom, T. M. Taha, C. Yakopcic, S. Westberg, P. Sidike, M. S. Nasrin, M. Hasan, B. C. Van Essen, A. A. Awad, and V. K. Asari, "A state-of-the-art survey on deep learning theory and architectures," Electronics, vol. 8, no. 3, p. 292, 2019.

[38] A. Plaza, D. Valencia, and J. Plaza, "An experimental comparison of parallel algorithms for hyperspectral analysis using heterogeneous and homogeneous networks of workstations," Parallel Computing, vol. 34, no. 2, pp. 92–114, 2008.

[39] A. Plaza, J. Plaza, A. Paz, and S. Sanchez, "Parallel hyperspectral image and signal processing [applications corner]," IEEE Signal Processing Magazine, vol. 28, no. 3, pp. 119–126, 2011.

[40] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.

[41] Y. Bengio, P. Simard, and P. Frasconi, "Learning long-term dependencies with gradient descent is difficult," IEEE transactions on neural networks, vol. 5, no. 2, pp. 157–166, 1994.

[42] F. Xie, Q. Gao, C. Jin, and F. Zhao, "Hyperspectral image classification based on superpixel pooling convolutional neural network with transfer learning," Remote sensing, vol. 13, no. 5, p. 930, 2021.

[43] H. Sun, X. Zheng, and X. Lu, "A supervised segmentation network for hyperspectral image classification," IEEE Transactions on Image Processing, vol. 30, pp. 2810–2825, 2021.

[44] Z. Meng, L. Jiao, M. Liang, and F. Zhao, "A lightweight spectral-spatial convolution module for hyperspectral image classification," IEEE Geoscience and Remote Sensing Letters, vol. 19, pp. 1–5, 2021.

[45] X. Zhang, S. Shang, X. Tang, J. Feng, and L. Jiao, "Spectral parsimony attention mechanism for hyperspectral image classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1–14, 2021.
[46] T. Chakraborty and U. Trehan, "Spectralnet: Exploring spatial-spectral wavelettenn for hyperspectral image classification," arXiv preprint arXiv:2102.000341, 2021.

[47] G. Sun, Z. Pan, A. Zhang, J. Ren, H. Fu, and K. Yan, "Large kernel spectral and spatial attention networks for hyperspectral image classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 61, pp. 1–15, 2023.

[48] Z. Xue, X. Yu, B. Liu, X. Tan, and E. Wei, "Hresnet: Hierarchical residual network with attention mechanism for hyperspectral image classification," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 14, pp. 3556–3580, 2021.

[49] M. E. Paoletti, J. M. Haut, N. S. Pereira, J. Plaza, and A. Plaza, "Ghostnet for hyperspectral image classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 59, no. 12, pp. 10378–10393, 2021.

[50] M. E. Paoletti, J. M. Haut, R. Fernandez-Beltran, J. Plaza, A. J. Plaza, and F. Plaza, "Deep pyramidal residual networks for spectral-spatial hyperspectral image classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 57, no. 2, pp. 740–754, 2018.
[51] K. He, X. Zhang, S. Ren, and J. Sun, "Deep residual learning for image recognition," in Proceedings of the IEEE conference on computer vision and pattern recognition, 2016, pp. 770–778.

[52] H. Gao, Z. Chen, and C. Li, "Sandwich convolutional neural network for hyperspectral image classification using spectral feature enhancement," IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 14, pp. 3006–3015, 2021.

[53] J. Yue, L. Fang, H. Rahmani, and P. Ghahari, "Self-supervised learning with adaptive distillation for hyperspectral image classification," IEEE Transactions on Geoscience and Remote Sensing, vol. 60, pp. 1–13, 2021.

[54] Y.-L. Chang, T.-H. Tan, W.-H. Lee, L. Chang, Y.-N. Chen, K.-C. Fan, and M. Alkhaleef, "Consolidated convolutional neural network for hyperspectral image classification," Remote Sensing, vol. 14, no. 7, p. 1571, 2022.

[55] D. A. L. Marion F. Baumgardner, Larry L. Biehl, "220 band aviris hyperspectral image data set: June 12, 1992 indian pine test site 3," Sep 2015. [Online]. Available: https://purr.purdue.edu/publications/1947/1

[56] X. Huang and L. Zhang, "A comparative study of spatial approaches for urban mapping using hyperspectral rosis images over pavia city, northern italy," International Journal of Remote Sensing, vol. 30, no. 12, pp. 3205–3321, 2009.

[57] "A comparative study of spatial approaches for urban mapping using hyperspectral rosis images over pavia city, northern italy," International Journal of Remote Sensing, vol. 30, no. 12, pp. 3205–3321, 2009.

[58] A. Plaza, P. Martinez, J. Plaza, and R. Perez, "Dimensionality reduction and classification of hyperspectral image data using sequences of extended morphological transformations," IEEE Transactions on Geoscience and Remote Sensing, vol. 43, no. 3, pp. 466–479, 2005.
31 октября / 2025