Гиперспектральная визуализация и машинное обучение: руководство по созданию и обработке данных для диагностики болезней сельскохозяйственных культур

Авторы:
Ualiyeva Rimma Meyramovna- PhD, Professor of the Department of Biology and Ecology, Toraighyrov University
Kaverina Mariya Mikhailovna- PhD student, Department of Biology and Ecology, Toraighyrov University
Kairbayev Yernar Bolatovich- PhD student, Department of Computer Engineering, Astana IT University
https://textbook.tou.edu.kz/books/313/index.html
Гиперспектральная визуализация является одной из самых передовых технологий дистанционного зондирования, известной своей способностью захватывать свет, отраженный в сотнях узких спектральных полос. Отличительной особенностью гиперспектральных систем является их способность генерировать полный спектр отражения для каждого пикселя изображения. Эта уникальная характеристика делает эти системы чрезвычайно ценными для оценки состояния растений и проведения детального многомерного анализа их физиологических и биохимических свойств - как на уровне целого растения, так и для конкретных органов или локализованных участков.

В последние годы использование гиперспектральной визуализации значительно расширилось во всем мире, особенно в области сельскохозяйственных и экологических исследований. Она стала мощным инструментом в агроэкологии и науке о сельскохозяйственных культурах, с применением от обнаружения дисбаланса питательных веществ и водного стресса до диагностики заболеваний растений, отслеживания развития инвазивных видов и прогнозирования урожайности культур.

Благодаря своей высокой пространственной и спектральной разрешающей способности гиперспектральные камеры способны захватывать подробные спектральные сигнатуры растительных материалов (часто называемые "отпечатками пальцев"). Эти богатые наборы данных идеально подходят для обучения алгоритмов машинного обучения, направленных на оценку состояния растений, и могут также использоваться для проверки результатов дистанционного зондирования, полученных с помощью платформ, таких как БПЛА.

Успешное применение машинного обучения для обнаружения заболеваний растений зависит от качества входных данных. Точность гиперспектральных измерений в значительной степени зависит от правильного обращения с образцами, точной калибровки оборудования и тщательного получения изображений. Факторы, такие как условия освещения, фокусировка и настройки сканирования, должны быть оптимизированы для обеспечения высококачественных и надежных результатов.

Этот учебный гид предлагает практическое введение в использование гиперспектральной визуализации в контролируемой лабораторной среде. Он включает в себя краткие инструкции по подготовке образцов растений и получению гиперспектральных данных с помощью камеры FigSpec FS-13. Кроме того, он предоставляет пошаговое руководство по обработке и анализу собранных данных с использованием программного обеспечения Breeze от Prediktera.
Методы, представленные для диагностики заболеваний, основаны на прямом опыте работы с моделью гиперспектральной камеры FS-13 в лаборатории, а также на анализе полученных мультиспектральных наборов данных с использованием платформы Breeze.

1 Теоретические основы гиперспектрального зондирования в сельском хозяйстве

Гиперспектральное зондирование - это технология дистанционного зондирования, широко используемая для мониторинга различных процессов. Этот подход включает в себя захват отраженного света в сотнях узких спектральных полос [1]. По сравнению с мультиспектральными системами, гиперспектральные камеры обеспечивают высоко детализированную спектральную информацию для каждого пикселя в изображении [2]. Это повышенное спектральное разрешение позволяет более точно различать здоровую и больную растительность, а также различные виды растений [3] (Рисунок 1).
Рисунок 1 – Примеры типов спектральных изображений [4]
Основной механизм гиперспектральной визуализации основан на формировании специализированного трёхмерного набора данных, называемого «гиперкубом» [5]. Этот набор объединяет два стандартных пространственных измерения (координаты X и Y) с третьим — спектральным измерением, соответствующим длинам волн света. В результате каждый пиксель содержит полный спектр отражения, а не просто данные о цвете. Такая детальная спектральная информация позволяет анализировать биохимические и физиологические характеристики растений или их отдельных частей [6] (рис. 2) [4].

Работа гиперспектральных систем определяется ключевыми параметрами собираемых данных, среди которых:

·         спектральное разрешение;
·         пространственное разрешение;
·         диапазон длин волн;
·         скорость сбора данных.

Спектральное разрешение отражает способность системы различать узкие спектральные диапазоны [1], а пространственное разрешение — уровень детализации и чёткости изображения [3].

Обычно такие камеры работают в диапазоне длин волн от 400 до 1000 нанометров, охватывая видимый свет и ближнюю инфракрасную область спектра [5].

Скорость сбора данных показывает, насколько быстро можно фиксировать изображения, — это важно для отслеживания временных изменений [6].
Рисунок 2 – Визуализация куба гиперспектральных данных [4]
При выполнении гиперспектральной визуализации важно понимать, что каждое растение обладает уникальной спектральной сигнатурой. Ключевой характеристикой растительной ткани является сильное поглощение света хлорофиллом в видимом спектре, особенно в диапазоне сине-зеленых длин волн [5]. В ближней инфракрасной области (700-1000 нм) доминирует отражение, которое напрямую связано со структурой листа. Наблюдая за изменениями этих спектральных характеристик, вызванными болезнями, стрессом окружающей среды или нехваткой питательных веществ, гиперспектральный анализ позволяет на ранних стадиях роста выявлять фитопатологические проблемы и другие проблемы со здоровьем растений [7] (Рисунок 3) [4].

Хотя гиперспектральная визуализация когда-то считалась передовой технологией для спутникового дистанционного зондирования, современные спутниковые миссии, такие как PRISMA, EnMAP и предстоящая миссия NASA SBG, теперь оснащены гиперспектральными датчиками [8]. Эти спутники обеспечивают глобальное покрытие и частые обновления данных, поддерживая крупномасштабный мониторинг сельскохозяйственных культур на региональном и национальном уровнях. Однако спутниковые данные по-прежнему сталкиваются с ограничениями в пространственном разрешении [3].
Рисунок 3 – Пространственные и спектральные характеристики гиперспектральных данных
Для точного мониторинга на уровне полей незаменимы наземные и ближние платформы. К ним относятся:

·         портативные спектрометры;
·         мобильные тележки;
·         штативы;
·         дроны, оснащённые гиперспектральными камерами [6].
Портативные устройства и штативы подходят для детальных исследований малого масштаба, тогда как дроны благодаря своей мобильности позволяют оперативно обследовать обширные территории.
Такие платформы:
·         обеспечивают высокую точность;
·         дают возможность анализировать отдельные растения;
·         хорошо адаптируются к конкретным местным условиям.

Они особенно ценны для обучения моделей машинного обучения и разработки диагностических алгоритмов [9].

В настоящее время гиперспектральное зондирование широко применяется в сельском хозяйстве для следующих задач:

1.      Выявление болезней и заражений вредителями [10].
2.      Обнаружение дефицита ключевых питательных веществ (например, азота и фосфора) [7].
3.      Мониторинг уровня водного стресса [11].
4.      Управление ростом сельскохозяйственных культур и сорняков [8].
5.      Оценка урожайности [3].

В результате гиперспектральная технология стала важнейшим компонентом точного земледелия. Её высокое спектральное разрешение позволяет выявлять тонкие биохимические изменения в тканях растений, которые не заметны при традиционном визуальном осмотре или мультиспектральной съёмке.

Вывод: гиперспектральное зондирование открывает новые возможности для мониторинга сельскохозяйственных культур. Оно позволяет отойти от субъективных визуальных оценок и перейти к объективному анализу на основе данных — с опорой на детальную спектральную информацию.

2 Аппаратное обеспечение для гиперспектральной визуализации сельскохозяйственных культур

Гиперспектральные системы обычно классифицируются на три основные категории в зависимости от их платформы:

- спутниковые;
- воздушные (включая БПЛА);
- наземные.

В сельскохозяйственных приложениях чаще всего используются наземные и ближние воздушные системы. Эти системы обеспечивают высокое пространственное и спектральное разрешение, необходимое для диагностики болезней растений, мониторинга стресса сельскохозяйственных культур и оценки воздействия окружающей среды - основные компоненты точного земледелия [9].

Среди наземных гиперспектральных камер, используемых в сельском хозяйстве, выделяются три модели: FS-13, FS-23 и FS-60.

Figspec FS-13 предназначен для детальной спектральной визуализации в диапазоне 400-1000 нм, захватывая как видимые, так и ближние инфракрасные длины волн. С высоким спектральным разрешением 2,5 нм и 1200 узких полос, он обеспечивает исключительно тонкое различение длин волн. Пространственное разрешение камеры - примерно 0,3 мм на пиксель - позволяет проводить визуализацию крупным планом растительных структур. Используя технологию линейного сканирования, FS-13 особенно хорошо адаптирован для лабораторных работ, включая идентификацию болезней растений и создание обучающих наборов данных для приложений машинного обучения [12] (Рисунок 4) [13].

Figspec FS-23 также охватывает диапазон 400-1000 нм, хотя он работает с разрешением 5 нм и примерно 120 спектральными полосами. Его компактная форма делает его идеальным для мобильной диагностики в полевых условиях. Эта модель часто используется для полевых оценок и может быть установлена на подставки для более контролируемой визуализации образцов растений [14] (Рисунок 5) [15].

Figspec FS-60 расширяет свой охват от 400 до 1700 нм, захватывая более широкую часть ближнего инфракрасного спектра. Он предлагает спектральное разрешение 5 нм и поддерживает до 300 полос, что делает его подходящим для продвинутых диагностических задач. FS-60 способен обнаруживать дефицит питательных веществ, симптомы стресса и ранние признаки болезней в сельскохозяйственных культурах. Он часто интегрируется в системы БПЛА для мониторинга обширных территорий [16] (Рисунок 6) [17].
Рисунок 4 – Камера FS-13 [13]
Рисунок 5 – Камера FS-23 [15]
Рисунок 6 – Камера FS-60, установленная на беспилотнике [17]
При выборе гиперспектральной камеры важно согласовать выбор с основными исследовательскими целями:

- FS-13 в основном предназначен для лабораторных исследований;
- FS-23 - это компактный, портативный вариант, идеально подходящий для быстрой диагностики в полевых условиях;
- FS-60 подходит для более продвинутых и комплексных анализов [12, 14, 16].

Захват изображений - это только первый шаг в общем рабочем процессе.
Последующий этап включает обработку гиперспектральных данных, которая охватывает такие задачи, как калибровка, нормализация, извлечение спектральных признаков и разработка классификационных моделей [18, 19]. Эти процессы обычно выполняются с использованием специализированных программных платформ, таких как ENVI, HypPy [20], Specim IQ Studio [21], MATLAB с гиперспектральными инструментами [20] или QGIS с плагинами, предназначенными для анализа гиперспектральных кубов [22].

В целях данного учебного пособия для работы с гиперспектральными изображениями используется платформа Breeze от Prediktera. Breeze предоставляет удобный интерфейс для визуализации гиперспектральных кубов, выполнения спектрального анализа, создания моделей машинного обучения и автоматизации обнаружения болезней растений и стрессовых факторов. Его безупречная совместимость с камерами Figspec способствует эффективному рабочему процессу от сбора сырых данных до практических, действенных результатов.

3 Гиперспектральная визуализация образцов растений

Камера FS-13 использовалась в качестве основного устройства для гиперспектральной визуализации образцов растений. Работа с системой сканирования FS-13 начинается с подготовки как образцов растений, так и платформы для визуализации. Образцы размещаются на плоской, не отражающей поверхности для минимизации бликов, с достаточным расстоянием между ними, чтобы предотвратить перекрытие и упростить последующую сегментацию. Важной частью процесса является размещение калибровочных панелей: белой панели для нормализации яркости изображения и черной панели для коррекции темных областей и удаления фонового шума. Эти калибровочные панели должны быть размещены рядом с образцами и, по возможности, на том же расстоянии от камеры, чтобы обеспечить точную коррекцию освещения.

Равномерное диффузное освещение, обычно обеспечиваемое галогенными или другими источниками света с непрерывным спектром, необходимо для получения надежных спектральных измерений. Снижение бликов достигается за счет размещения камеры под углом примерно 45 градусов относительно поверхности образца. После настройки платформы камера FS-13 подключается к компьютеру через USB-кабель, и запускается специализированное программное обеспечение FigSpec Scan (Рисунок 7). Интерфейс программы используется для установления и проверки соединений между камерой и платформой, подтверждая, что оба устройства правильно распознаются и работают.

Далее устанавливаются параметры сканирования, такие как диапазон длин волн (обычно 400-1000 нм), пространственное разрешение, скорость сканирования и опции автофокусировки при необходимости. Файлы калибровки для темного и белого эталонов (Рисунок 8) могут быть применены для помощи в радиометрической коррекции собранных изображений. Резкость изображения можно просмотреть в реальном времени ("Кнопка предварительного просмотра") и при необходимости вручную отрегулировать фокусировку.
Рисунок 7 – Камера FS-13, подключенная к ПК в процессе съемки
После того, как камера и платформа настроены, образец сканируется последовательно, строка за строкой, создавая многомерное изображение, которое захватывает как пространственные детали, так и спектральную информацию образца (рис. 9).
Рисунок 8 – Белые и темные эталонные калибровочные значения
Рисунок 9 – Многомерное гиперспектральное изображение, полученное с помощью построчного сканирования
Полученные данные сохраняются в распространенных форматах, таких как ".hdr" (который можно использовать с программным обеспечением ENVI или Breeze) и ".spe". После сбора гиперспектральный набор данных импортируется в программное обеспечение Prediktera Breeze для всесторонней обработки и анализа.
Таким образом, выполнение гиперспектральной визуализации с помощью камеры FigSpec включает в себя тщательную подготовку образцов, тщательную настройку оборудования и контролируемые условия освещения. Точная калибровка и правильно настроенные параметры сканирования имеют решающее значение для получения высококачественных спектральных данных, которые служат основой для углубленного анализа, включая выявление болезней растений и других патологических состояний.

4 Построение моделей классификации на основе гиперспектральных данных с использованием алгоритмов машинного обучения

4.1 Загрузка гиперспектральных изображений и обучающих данных

В этом разделе описываются основные шаги для начала предварительной обработки данных гиперспектральных изображений. Убедиться в том, что данные загружены и организованы правильно, является фундаментальным условием для успешного обучения и тестирования модели.

Процесс начинается с создания нового проекта через "Главное меню", где необходимо присвоить проекту имя (Рисунки 10 и 11). Все последующие действия выполняются в режиме "Анализатор". Во время создания проекта можно либо сразу импортировать новые файлы изображений (Рисунок 12), либо открыть ранее сохраненный проект (Рисунок 13).

После того как проекту присвоено имя, автоматически создается папка по умолчанию с названием "Группа", которая служит начальным рабочим пространством. Эту папку можно переименовать, щелкнув на нее правой кнопкой мыши, выбрав "Переименовать" и введя новое имя (Рисунки 14 и 15).
Рисунок 10 – Главное навигационное меню программного обеспечения
Рисунок 11 – Создание нового проекта и присвоение ему имени
Рисунок 12 – Импорт изображений при создании нового проекта
Рисунок 13 – Импорт проекта (из существующего файла)
Рисунок 14 – Переименование папки в проекте
Рисунок 15 – Ввод нового имени папки в проекте
Созданная папка включает в себя несколько разделов, в которых обобщены ключевые результаты, полученные при загрузке гиперспектральных изображений: «Обзор», «Таблица», «Анализ дерева» и «Исследование». Основной рабочий процесс в основном происходит в разделах «Дерево анализа» (рисунок 16) и «Исследование» (рисунок 17), которые предоставляют различные инструменты (подробнее см. ниже) для обработки гиперспектральных данных.

Чтобы добавить гиперспектральные изображения в текущий проект, импортируйте их через раздел "Импорт/Экспорт" (Рисунок 18). После импорта изображения отображаются в области «Предварительный просмотр», где также можно ввести дополнительные образцы для дальнейшего анализа (рис. 19). Как показано на рисунке 20, можно предварительно просмотреть несколько гиперспектральных изображений и указать целевые области внутри каждого из них (рисунок 21). На рисунке 22 показано, как организованы загруженные данные, а также опции настройки имен образцов в гиперспектральном наборе данных (рисунки 23 и 24).
Рисунок 16 – Раздел «Дерево анализа»
Рисунок 17 – Раздел «Исследовать»
Рисунок 18 – Раздел "Импорт/Экспорт": импорт гиперспектральных изображений
Рисунок 19 – Предварительный просмотр импортированного гиперспектрального изображения и добавление дополнительной выборки
Рисунок 20 – Предварительный просмотр нескольких импортированных гиперспектральных изображений
Рисунок 21 – Выбор целевой области на гиперспектральном изображении
Рисунок 22 – Расположение выгружаемых данных
Рисунок 23 – Настройка имен образцов в гиперспектральном наборе данных
Предварительная обработка позволяет генерировать изображение Pseudo RGB (Рисунок 25) вместе с возможностью получения Raw спектра (Рисунок 26).
Рисунок 24 – Подготовленный гиперспектральный набор образцов для дальнейшей обработки
Рисунок 25 – Псевдо RGB изображение
Просто перемещая курсор мыши по изображению, можно просмотреть спектральный профиль, соответствующий пикселю под курсором, или создать полную спектральную кривую. При необходимости для сравнительного анализа также можно выбрать несколько областей интереса.

На правой панели представлены инструменты для взаимодействия с импортированным изображением, в том числе элементы управления масштабированием и параметры выбора определенных областей для детального изучения. На спектральном графике три заметные вертикальные линии указывают на спектральные каналы, использованные при создании изображения Pseudo-RGB.
Чтобы исследовать спектральную изменчивость, можно создать модель PCA, выбрав функцию "Model (PCA)", расположенную в правом меню (рисунок 26).
Рисунок 26 – Псевдо-RGB изображение, доступ к данным Raw Spectrum и построение модели PCA
Модель PCA построена с использованием всех пиксельных данных из анализируемого гиперспектрального изображения. На результирующем графике дисперсионного рассеяния каждая точка представляет собой отдельный пиксель, кластеры которого формируются на основе сходства их спектральных особенностей. Цветовой градиент на графике отражает плотность точек - красными областями обозначены области с наибольшей концентрацией подобных пикселей (рис. 27).

Визуализации максимальной дисперсии обычно отображаются для главных компонент, таких как PC1 и PC2, и сопровождаются точечными диаграммами, где эти компоненты определяют оси X и Y. Проецируя гиперспектральные данные на эти компоненты, можно наблюдать закономерности и направления основных спектральных вариаций (рис. 27, 28). Диаграмма, расположенная над диаграммой дисперсионного рассеяния, обеспечивает доступ к исходным спектральным сигнатурам выбранных областей интереса (ROI), что позволяет проводить детальный анализ конкретных областей изображения (рис. 28, 29).

Программное обеспечение также поддерживает альтернативные режимы визуализации, включая композиты Pseudo-RGB (Рисунок 30) и Однополосные изображения в оттенках серого (Рисунок 31).

Существует интерактивная связь между точечной диаграммой и изображениями дисперсии: при выборе группы пикселей в одном виде автоматически выделяется соответствующий кластер в другом, что обеспечивает интуитивно понятное изучение данных.
Рисунок 27 – Изображение максимальной дисперсии первой главной компоненты (PC1) и график распределения спектральной дисперсии
Рисунок 28 – Изображение максимальной дисперсии первого главного компонента (PC1), график распределения спектральной дисперсии и необработанные спектры выбранных областей интереса (ROI)
Рисунок 29 – Изображение максимальной дисперсии второй главной компоненты (PC2), график распределения спектральной дисперсии и необработанные спектры выбранных областей интереса (ROI)
Рисунок 30 – Изображение Pseudo RGB, график распределения спектральной дисперсии и необработанные спектры выбранных областей интереса (ROI)
Рисунок 31 – Одноканальное изображение, график распределения спектральной дисперсии и необработанные спектры выбранных областей интереса (ROI)
4.2 Разметка гиперспектральных данных и создание обучающего набора данных

Работа с метками входных данныхДанный раздел описывает процесс разметки входных данных — критически важный этап в обучении точных и надёжных моделей. Правильная разметка данных, особенно ключевых признаков классификации, необходима для создания высокоэффективных моделей.

Помимо присвоения основных меток классификации, обучающие данные можно обогатить дополнительными переменными, которые предоставляют вспомогательный контекст.

При доступе к меню проекта все проанализированные образцы отображаются в табличном формате на левой панели. Процесс начинается с добавления вторичной переменной или идентификатора (рис. 32), который содержит описательные данные для каждого образца.

Добавление осуществляется через специальную кнопку в нижней части интерфейса. На этом этапе происходит:

·         выбор типа дополнительной переменной или идентификатора (рис. 33);
·         присвоение конкретных значений каждому образцу (рис. 34, 35).
Рисунок 32 – Добавление дополнительной переменной или идентификатора
Рисунок 33 – Выбор дополнительного типа переменной или идентификатора и наименование
Рисунок 34 – Назначение переменной или идентификатора для каждого образца
Аналогичным образом, включаются основные категории классификации (Рисунки 36 и 37), с присвоенными им предопределенными значениями - а именно, признанные названия болезней сельскохозяйственных культур (Рисунок 38).
Рисунок 35 – Выбор образца с присвоенными дополнительными переменными или идентификаторами.
Рисунок 36 – Добавление классификационной переменной (категории)
Рисунок 37 – Переменные (категории) классификации по умолчанию с неизвестными значениями.
Рисунок 38 – Присвоение известных переменных (категорий) классификации.
4.3 Разработка эталонной (базовой) модели

Этот раздел описывает процедуру создания эталонной (базовой) модели, которая предоставляет начальные показатели качества и обеспечивает правильную подготовку данных, конфигурацию модели и настройку параметров для последующих этапов обучения.

Эталонная модель создается путем исключения пикселей фона из гиперспектральных изображений, что позволяет автоматически сегментировать области, пораженные болезнью, в образцах растений.

Она служит основополагающим шаблоном, применяемым единообразно ко всем изображениям для поддержки задач обучения и классификации.
Процесс начинается с добавления новой сегментации и присвоения ей имени (Рисунки 39, 40).

Мастер создания модели затем проводит через следующие шаги, основанные на функциях:

1) Выбор измерений для сегментации (Рисунок 41);

2) Выбор спектральных полос в пределах определенных диапазонов длин волн - обычно охватывающих весь спектр с применением предварительной обработки SNV по умолчанию - включая:

- исходные спектральные данные для сегментации (Рисунок 42);
- нагрузки модели, соответствующие главным компонентам (Рисунок 43);
- отношение сигнал/шум в диапазоне длин волн (Рисунок 44);

3) Выбор пикселей включает:

- получение мозаики изображений (Рисунок 45);

- идентификация областей интереса (ROI), которые содержат пиксели, представляющие пораженные болезнью области, обычно обозначенные яркими цветами (в основном красным и желтым), сгруппированными на диаграммах рассеяния. Включение или исключение пикселей контролируется с помощью панели инструментов справа, которая также предлагает инструменты для удаления граничных пикселей при необходимости (Рисунки 46, 47, 48);

4) Определение критического порогового значения расстояния для определения ассоциации пикселей с эталонной моделью. Гистограмма этих расстояний охватывает все пиксели, с регулируемой красной пороговой линией, установленной для изоляции только пикселей, связанных с пораженными болезнью областями, исключая фон (Рисунки 49, 50);

5) Эталонная модель завершается установкой минимального размера области (обычно около 300 пикселей) для фильтрации шума. Это значение может быть скорректировано в зависимости от размера областей интереса и предыдущих выборов пикселей. После завершения эталонная модель автоматически применяется к набору данных изображений (Рисунок 51).
Использование этой базовой модели позволяет четко визуализировать сегментированные, уникальные области, пораженные болезнью, на образцах растений (Рисунки 52, 53).
Рисунок 39 – Добавление эталонной модели
Рисунок 40 – Добавление новой сегментации и присвоение имени эталонной модели
Рисунок 41 – Выбор измерений для сегментации
Рисунок 42 – Исходный спектр измерений для сегментации
Рисунок 43 – Нагрузки модели на главные компоненты.
Рисунок 44 – Отношение сигнал/шум во всем диапазоне длин волн
Рисунок 45 – Мозаика изображений и модель PCA на основе пикселей мозаики
Рисунок 46 – Выбор пикселя и соответствующей точки в кластере дисперсионного рассеивания
Рисунок 47 – Промежуточный результат исключения пикселей за пределами областей интереса (ROI).
Рисунок 48 – Выбор подрегионов ROI
Рисунок 49 – Определение порога критического расстояния
Рисунок 50 – Определение метрик порога критического расстояния, соответствующих ROI
Рисунок 51 – Завершение создания эталонной модели: проверка минимального размера области в пикселях и ее применение к проектным изображениям
Рисунок 52 – Идентификация и визуализация участков посевов, пораженных рыхлой головней, с использованием эталонной модели
Рисунок 53 – Идентификация и визуализация участков сельскохозяйственных культур, пораженных бурой ржавчиной, с использованием эталонной модели
4.4 Создание модели классификации

В этом разделе описываются шаги по созданию модели классификации для анализа гиперспектральных данных путем точного определения целевых категорий и настройки параметров обучения. Правильно разработанная модель классификации облегчает надежное распознавание объектов в наборе данных с использованием спектральных характеристик.

В программном обеспечении Breeze модели классификации разрабатываются для автоматизированного распознавания болезней растений на основе выбранных признаков и диагностических параметров. Обычно применяются алгоритмы деревьев решений, и модель обучается сегментировать пораженные болезнью области растений, обеспечивая основу для прогнозирования результатов на новых данных.

Чтобы начать создание модели классификации, перейдите в меню "Модель" на левой панели, где можно получить доступ к существующим моделям или начать создание новой (Рисунок 54).
Рисунок 54 – Доступ к меню "Модель" для добавления новой модели
Далее нажмите кнопку "Добавить", расположенную в нижней левой панели, чтобы открыть мастер создания модели. Затем выберите третий вариант - "Классификация", и выберите метод PLS-DA (Partial Least Squares Discriminant Analysis), специально разработанный для управления категориальными целевыми переменными (классами) (Рисунок 55).
Рисунок 55 – Выбор метода PLS-DA для классификации
Создание модели классификации включает следующие этапы:

- Шаг 1: Выбор переменных (Рисунок 56);

- Шаг 2: Выбор образцов, конкретно пораженных областей сельскохозяйственных культур (Рисунок 57);

- Шаг 3: Определение диапазонов длин волн в исходных спектральных данных пораженных областей - обычно все длины волн включаются по умолчанию (Рисунок 58). Этот шаг также охватывает изучение: нагрузок модели (Рисунок 59) и весовых коэффициентов на основе главных компонентов в выбранном диапазоне длин волн (Рисунок 60). Кроме того, рассматриваются показатели значимости (Рисунок 61) и отношение сигнал/шум для выбранных длин волн (Рисунок 62). Предварительная обработка выполняется с использованием метода SNV (Standard Normal Variate correction), который минимизирует вариабельность, вызванную различиями в плотности образцов, толщине и мультипликативными эффектами рассеяния света в спектральных данных;

- Шаг 4: Вычисление ключевых статистических параметров для модели PLS-DA, сосредоточившись на компонентах PC1 через PC5 (Рисунки 63, 64). График "Score Variance" помогает выявить возможные выбросы в наборе образцов. График "Overview" представляет показатели качества модели, такие как R² и Q², а также количество используемых компонентов. R² измеряет, насколько хорошо модель соответствует обучающим данным (коэффициент детерминации), в то время как Q² оценивает ее прогностическую производительность на невидимых данных (прогностическая способность). Оптимальное количество компонентов обычно выбирается в точке, где R² и Q² выравниваются (например, компонент 3) (Рисунок 64). Графики "Distance to Model" указывают, насколько далеко каждый образец отклоняется от модели в пространстве X-переменных, отмечая потенциальные выбросы, когда они превышают установленный порог (черная линия);

- Шаг 5: Оценка завершенной модели PLS-DA с помощью трех основных визуализаций: "Observed vs. Calculated", "Overview" и "Variable overview". График "Observed vs. Calculated" сравнивает фактические классы образцов с прогнозами модели, иллюстрируя дифференциацию классов. График "Variable overview" отображает R² (способность модели разделять обучающие классы) и Q² (прогностическую точность для обнаружения болезни в областях сельскохозяйственных культур во время перекрестной проверки) для каждого класса. Процесс завершается нажатием "Finish" для завершения создания модели классификации (Рисунок 65).
Рисунок 56 – Создание модели классификации: выбор переменных
Рисунок 57 – Создание модели классификации: выбор образцов
Рисунок 58 – Исходный спектр отдельных инфицированных областей образцов в исследуемом диапазоне длин волн
Рисунок 59 – Нагрузки модели на главные компоненты во время создания модели классификации
Рисунок 60 – Веса на главных компонентах во время создания модели классификации
Рисунок 61 – Показатели значимости во время создания модели классификации
Рисунок 62 – Отношение сигнал/шум в диапазоне длин волн во время создания модели классификации
Рисунок 63 – Вычисление модели PLS-DA: анализ параметров PC1 и PC2
Рисунок 64 – Вычисление модели PLS-DA: анализ параметров PC4 и PC5
Рисунок 65 – Оценка созданной модели PLS-DA
Подробные сведения о разработанной модели классификации PLS-DA, включая ее статистическую производительность, прогностическую точность и основные показатели оценки, можно найти в меню "Модель", исследуя его различные разделы. Раздел "Overview" предоставляет краткий обзор основных параметров, включая общее количество образцов, спектральных полос, количество главных компонентов, интервал длин волн, примененные методы предварительной обработки, конфигурацию перекрестной проверки, используемую модель сегментации и другие соответствующие настройки (Рисунок 66).
Рисунок 66 – Общая информация о созданной модели PLS-DA
Второй раздел в меню "Модель" модели PLS-DA предлагает ряд визуальных статистических представлений. График "Score Variance" подчеркивает долю дисперсии, захваченную каждым компонентом модели. График "Observed vs. Predicted" показывает, насколько хорошо модель различает классы, отображая фактические метки классов против тех, которые предсказаны моделью для отдельных образцов. График "Overview" суммирует ключевые показатели производительности, такие как R² и Q². График "Variable overview" показывает, как каждая входная переменная способствует разделению классов, отражая как дисперсию, так и релевантность по категориям. График "DModX" оценивает, насколько далеко каждый образец отклоняется от модели в пространстве проекции X-переменных. Образцы, которые выходят за пределы критического порога - определенного с использованием 95% уровня доверия - отмечаются как потенциальные выбросы (Рисунок 67). Подробные числовые результаты и полные статистические выходы доступны в третьем разделе, "Table", в меню "Модель" (Рисунок 68).
Рисунок 67 – Статистические графики модели PLS-DA
Рисунок 68 – Числовые статистики модели PLS-DA
Четвертый раздел в меню "Модель", названный "Классификация", отображает матрицу путаницы (Рисунок 69), которая предлагает обзор точности классификации модели. В этой матрице столбцы представляют предсказанные категории болезней, в то время как строки указывают фактические метки на основе заранее определенных характеристик образцов сельскохозяйственных культур. Как показано на Рисунке 69, только один образец (1,89%) был неправильно идентифицирован. Для точной настройки того, насколько уверенно модель классифицирует пораженные области, можно применить порог уверенности. Этот порог позволяет статистически корректировать выходы матрицы путаницы.

Установка более высокого нижнего предела увеличивает строгость модели, требуя более сильной корреляции между признаками образцов и известными паттернами болезней перед классификацией (Рисунок 70).

Матрица путаницы позволяет напрямую сравнивать предсказанные и фактические метки болезней. Производительность модели оценивается с использованием трех основных метрик - Precision, Recall и F-score - каждая из которых рассчитывается отдельно для отдельных типов болезней, чтобы предоставить более четкую и объективную картину эффективности модели в распознавании конкретных инфекций сельскохозяйственных культур.
Рисунок 69 – Матрица путаницы
Рисунок 70 – Статистический анализ значений матрицы путаницы, включая доверительный интервал
Пятый раздел в меню "Модель", обозначенный как "Compare", позволяет пользователям оценивать и сравнивать ключевые показатели классификации по нескольким моделям (Рисунок 71).
Рисунок 71 – Сравнение ключевых статистических метрик моделей классификации
Чтобы покинуть этот раздел, просто закройте меню "Модель", нажав "X" в верхнем правом углу.

Во время большинства шагов конфигурации применяются настройки по умолчанию, но их можно изменить при необходимости. Модель обучается на размеченных данных, которые включают известные характеристики пораженных областей, что позволяет ей автоматически идентифицировать и классифицировать поврежденные области на вновь обработанных изображениях.

4.5 Диагностика болезней сельскохозяйственных культур с использованием гиперспектральных данных

В этом разделе обсуждается применение обученной модели классификации для диагностики болезней сельскохозяйственных культур на основе гиперспектральных данных.

Для полного интегрирования модели классификации в алгоритм рабочего процесса ее необходимо вставить в "Дерево анализа", используя кнопку "Добавить узел" (Рисунок 72). Эта функциональность позволяет интегрировать различные модели, параметры и метрики в текущий алгоритм. Выбор опции "Добавить узел" открывает окно, в котором перечислены доступные инструменты для добавления. Модель классификации может быть добавлена путем выбора опции "Классификация категорий", которая находится в подгруппе инструментов "Модель" (Рисунок 73).
После выбора инструмент добавляется в Дерево анализа и предоставляет опции для идентификации болезней сельскохозяйственных культур, каждая из которых представлена различными цветами. Эти цвета соответствуют выделениям, используемым для маркировки пораженных областей на гиперспектральных изображениях. Правая панель предоставляет информацию о включенной модели, такую как тип модели, признак классификации, техника классификации и дополнительные детали (Рисунок 74).

Чтобы запустить алгоритм для всех образцов, необходимо подтвердить изменения в текущем анализе, нажав кнопку "Применить изменения" на нижней панели (Рисунок 75). После применения изменений обученная модель классификации автоматически присваивает категории болезней инфицированным образцам сельскохозяйственных культур, включая "Пыльную головню" (Рисунок 76) и "Бурую ржавчину" (Рисунок 77).
Рисунок 72 – Моделирование дерева анализа
Рисунок 73 – Добавление узла в дерево для построения визуальной иерархии анализа
Кроме того, программное обеспечение позволяет измерять морфометрические характеристики инфицированных областей, включая площадь, длину, ширину, периметр и коэффициент округлости. Дополнительные метрики могут быть добавлены в Дерево анализа путем нажатия кнопки "Добавить узел", доступной либо в модели классификации, либо на нижней панели (Рисунок 78).
Рисунок 74 – Добавление ранее созданной модели классификации в виде узла дерева
Рисунок 75 – Применение изменений, внесенных на этапах анализа
Рисунок 76– Классификация обученных образцов на "Пыльную головню" после обновления анализа
Рисунок 77 – Классификация обученных образцов на "Бурую ржавчину" после обновления анализа
Рисунок 78 – Добавление дополнительных метрик в Дерево анализа
Далее, в окне опций инструмента выберите группу метрик, обозначенную как "Форма и размер" (Рисунок 79). После выбора эта метрика будет перечислена как "Площадь (мм)" в Анализаторском дереве. Возможно изменить единицы измерения и другие конфигурации в панели "Параметры", расположенной справа (Рисунок 80). Параметр "Выход" позволяет выбрать точную метрику, такую как "Площадь" (Рисунок 81). Чтобы добавить дополнительную метрику из той же категории в Дерево анализа, можно использовать кнопку "Добавить узел" или выбрать опцию "Дублировать", щелкнув правой кнопкой мыши (Рисунок 82). Эти настройки поддерживают различные единицы, включая пиксели, что полезно для измерения степени повреждения.

Для образцов растений также возможно вычисление индексов растительности. Это включает в себя нажатие на "Добавить узел" и выбор индекса (например, NDVI) из категории "Индекс растительности" для включения его в Дерево анализа (Рисунки 83, 84). Индекс NDVI указывает на уровень фотосинтетической активности и помогает в обнаружении стрессовых условий.

После добавления конкретных метрик в алгоритм создаются соответствующие пустые столбцы для отображения рассчитанных значений для соответствующих областей под анализом. Чтобы вычислить и показать эти значения для каждого образца и метрики, необходимо подтвердить изменения в алгоритме, нажав кнопку "Применить изменения" (Рисунок 85).
Рисунок 79 – Выбор категории метрик "Форма и размер" для добавления в Дерево анализа
Рисунок 80 – Добавление метрики "Площадь" в Дерево анализа и выбор единицы измерения
Рисунок 81 – Выбор выходного параметра для добавленной метрики
Рисунок 82 – Добавление новой метрики в Дерево анализа с помощью опции "Дублировать"
Рисунок 83 – Выбор категории метрик "Индекс растительности" для добавления в Дерево анализа
Рисунок 84 – Добавление индекса NDVI в Дерево анализа
Результаты применения обученной модели для классификации инфицированных областей сельскохозяйственных культур на признаки "Пыльной головни" (Рисунок 86) и "Коричневой ржавчины" (Рисунок 87) отображаются в ранее созданных столбцах.
Рисунок 85 – Образцы столбцов на основе метрик, добавленных в Дерево анализа
Рисунок 86 – Результаты классификации инфицированных областей сельскохозяйственных культур на "Пыльную головню" с использованием обученной модели
Рисунок 87 – Результаты классификации инфицированных областей сельскохозяйственных культур на "Бурую ржавчину" с использованием обученной модели
Гиперспектральная визуализация позволяет с высокой точностью обнаруживать инфицированные области для диагностики болезней растений на основе их спектральных характеристик с использованием методов машинного обучения. Этот подход позволяет выявлять индикаторы стресса в сельскохозяйственных культурах на различных стадиях развития, включая ранние, что значительно повышает эффективность мониторинга состояния сельскохозяйственных культур.

5. Спектральная диагностика фитопатологий сельскохозяйственных культур с использованием обученных моделей

Оценка качества обученной модели классификации фитопатологий сельскохозяйственных культур выполняется с использованием новых, ранее невиданных гиперспектральных изображений пораженных участков растительной ткани. Многоканальные спектральные данные позволяют выявлять тонкие спектральные различия между здоровыми и больными тканями растений, охватывая широкий диапазон длин волн.

Во время спектральной диагностики фитопатологий новые гиперспектральные изображения анализируются с использованием базы данных классификации, созданной на основе ранее выявленных зараженных областей, в соответствии с обученной моделью, предназначенной для выявления новых инфекций (рисунок 88). Чтобы добиться этого, изначально необходимо создать отдельную папку для импорта новых изображений, нажав кнопку “Добавить” в левом нижнем углу панели и введя название новой папки как “Тест” (рис. 89).
Рисунок 88 – База данных классификации зараженных сельскохозяйственных культур, созданная с использованием обученной модели для выявления новых случаев заражения
Рисунок 89 – Создание тестовой папки для импорта недавно полученных гиперспектральных изображений
Этап импорта также включает в себя предварительную обработку в мастере импорта изображений, состоящую из калибровки, удаления шумов и сегментации изображения (рисунки 90, 91). Сегментация выполняется на основе ранее созданной эталонной (базовой) модели. Затем применяется алгоритм классификации, основанный на модели PLS-DA. Используя спектральные признаки, ранее связанные с конкретными заболеваниями, алгоритм определяет тип инфекции, если она присутствует. Это позволяет получить результаты применения классификационной модели к новым гиперспектральным изображениям и диагностировать инфекции сельскохозяйственных культур, вызванные возбудителями “ Пыльной головни” и “бурой ржавчины” (рисунки 92, 93). Такие различия часто не обнаруживаются с помощью стандартных визуальных методов или камер видимого спектра.
Рисунок 90 – Импорт новых гиперспектральных изображений для предварительной обработки и калибровки
Рисунок 91 – Предварительная обработка и калибровка новых гиперспектральных изображений с образцами болезней сельскохозяйственных культур
Рисунок 92 – Результаты применения классификационной модели к новым гиперспектральным изображениям для диагностики повреждений, вызванных возбудителями “ Пыльной головни”
Рисунок 93 – Результаты применения классификационной модели к новым гиперспектральным изображениям для диагностики повреждений, вызванных возбудителями “Бурой ржавчины”
Ссылки

1 Camps-Valls G., Tuia D., Bruzzone L., Benediktsson J. A. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods // IEEE Signal Processing Magazine. – 2014. – Vol. 31. – No. 1. – P. 45–54. – https://doi.org/10.1109/msp.2013.2279179.
2 Asner G. P., Martin R. E. Airborne spectranomics: mapping canopy chemical and taxonomic diversity in tropical forests // Frontiers in Ecology and the Environment. – 2009. – Vol. 7. – No. 5. – P. 269–276. – https://doi.org/10.1890/070152.
3 Jung Andrâs, Vohland Michael. Hyperspectral Remote Sensing and Field Spectroscopy: Applications in Agroecology and Organic Farming // Drones and Geographical Information Technologies in Agroecology and Organic Farming. – 2022. – P. 99–121. – https://doi.org/10.1201/9780429052842-7.
4 Гиперспектральная съемка [Electronic resource]. – URL: https://innoter.com/articles/giperspektralnaya-semka/.
5 Ustin S. L., Gamon J. A. Remote sensing of plant functional types // New Phytologist. – 2010. – Vol. 186. – No. 4. – P. 795–816. – https://doi.org/10.1111/j.1469-8137.2010.03284.x.
6 Adão T., Hruška J., Pádua L., Bessa J., Peres E., Morais R., Sousa J. J. Hyperspectral Imaging: A Review on UAV-Based Sensors, Data Processing and Applications for Agriculture and Forestry // Remote Sensing. – 2017. – Vol. 9. – No. 11. – 1110 p. – https://doi.org/10.3390/rs9111110.
7 Terentev A., Dolzhenko V., Fedotov A., Eremenko D. Current State of Hyperspectral Remote Sensing for Early Plant Disease Detection: A Review // Sensors. – 2022. – Vol. 22. – No. 3. – 757 p. – https://doi.org/10.3390/s22030757.
8 Inoue Y. Satellite- and drone-based remote sensing of crops and soils for smart farming – a review // Soil Science and Plant Nutrition. – 2020. – Vol. 66. – No. 6. – P. 798–810. – https://doi.org/10.1080/00380768.2020.1738899.
9 Zhang C., Kovacs J. M. The application of small unmanned aerial systems for precision agriculture: a review // Precision Agriculture. – 2012. – Vol. 13. – P. 693–712. – https://doi.org/10.1007/s11119-012-9274-5.
10 Mahlein A.-K. Plant disease detection by imaging sensors – parallels and specific demands for precision agriculture and plant phenotyping // Plant Disease. – 2016. – Vol. 100. – No. 2. – P. 241–251. – https://doi.org/10.1094/PDIS-03-15-0340-FE.
11 Wong C. Y., Gilbert M. E., Pierce M. A., Parker T. A., Palkovic A., Gepts P., Magney T. S., Buckley T. N. Hyperspectral Remote Sensing for Phenotyping the Physiological Drought Response of Common and Tepary Bean // Plant Phenomics. – 2023. – Vol. 5. – 0021 p. – https://doi.org/10.34133/plantphenomics.0021.
12 Hyperspectral camera FS1X series (line scanning) [Electronic resource]. – URL: https://www.figspec.com/en/h-col-125.html.
13 Гиперспектральная камера Figspec FS-13 [Electronic resource]. – URL: https://gisproxima.ru/fs-13.
14 Imaging hyperspectral camera FS2X series [Electronic resource]. – URL: https://www.figspec.com/en/h-col-141.html.
15 Гиперспектральная камера Figspec FS-23 [Electronic resource]. – URL: https://gisproxima.ru/fs-23.
16 FS60 UAV Hyperspectral Measurement System [Electronic resource]. – URL: https://www.figspec.com/en/h-col-127.html.
17 Гиперспектральная камера Figspec FS-60 [Electronic resource]. – URL: https://gisproxima.ru/fs-60.
18 Lu B., Dao P. D., Liu J., He Y., Shang J. Recent Advances of Hyperspectral Imaging Technology and Applications in Agriculture // Remote Sensing. – 2020. – Vol. 12. – No. 16. – 2659 p. – https://doi.org/10.3390/rs12162659.
19 Ram B., Oduor P., Igathinathane C., Howatt K., Sun X. A systematic review of hyperspectral imaging in precision agriculture: Analysis of its current state and future prospects // Computers and Electronics in Agriculture. – 2024. – Vol. 222. – 109037 p. – https://doi.org/10.1016/j.compag.2024.109037.
20 Bakker W., van Ruitenbeek F., van der Werff H., Hecker C., Dijkstra A., van der Meer F. Hyperspectral Python: HypPy // Algorithms. – 2024. – Vol. 17. – No. 8. – 337 p. – https://doi.org/10.3390/a17080337.
21 Behmann J., Acebron K., Emin D., Bennertz S., Matsubara S., Thomas S., Bohnenkamp D., Kuska M. T., Jussila J., Salo H., Mahlein A.-K., Rascher U. Specim IQ: Evaluation of a New, Miniaturized Handheld Hyperspectral Camera and Its Application for Plant Phenotyping and Disease Detection // Sensors. – 2018. – Vol. 18. – No. 2. – 441 p. – https://doi.org/10.3390/s18020441.
22 Lyngdoh R. B., Anand S. S., Ahmad T., Rathore P. S., Mishra M., Gupta P. K., Misra A. AVHYAS: A Free and Open Source QGIS Plugin for Advanced Hyperspectral Image Analysis. – 2021. [Electronic resource]. – https://doi.org/10.48550/arXiv.2106.12776.

14 ноября / 2025