АННОТАЦИЯ
В этой статье представлена новая методология распознавания видов растений и их разновидностей с использованием гиперспектральных данных. Концепция основана на сочетании алгоритмов предварительной спектральной обработки (SPPA), которые улучшают спектральное распознавание видов и их разновидностей. SPPA использует в качестве входных данных одну спектральную сигнатуру и преобразует ее в соответствии с функцией SPPA. Комбинация SPPA, состоящая из k шагов, последовательно использует k алгоритмов предварительной обработки. Первоначально каждая спектральная сигнатура используется в качестве входных данных для первого SPPA. Результат этого SPPA используется в качестве входных данных для второго SPPA и так далее, пока не будут достигнуты желаемые предварительно обработанные сигнатуры. Затем эти сигнатуры распознаются с помощью алгоритмов спектрального сопоставления. Эффективность комбинации оценивается на основе количества правильно подобранных сигнатур.
В этой работе была разработана комбинация SPPA из k этапов, где k находится в диапазоне от 1 до 3. Были исследованы следующие SPPA: векторная нормализация, преобразование Фурье, логарифмическое преобразование, преобразование Кубелки-Мунка, производные, удаление континуума, глубина полосы, нормализация значений, преобразование квадратного корня n-го порядка и сглаживание.
Существует очень большое количество возможных комбинаций вышеупомянутых SPPA, поэтом для поиска оптимальных комбинаций был использован простой генетический алгоритм.
Входными гиперспектральными данными были спектральные характеристики 9 сортов вики и 9 сортов чечевицы, измеренные спектрорадиометром GER1500. Для всех образцов спектральные характеристики были измерены в два слегка отличающихся друг от друга периода вегетации. Результаты показали, что существует несколько комбинаций, которые могут успешно различать и маркировать спектральные сигнатуры с точки зрения разнообразия, и они не зависят от времени измерения спектральных признаков.
Гиперспектральный анализ, алгоритмы предварительной обработки спектра, распознавание, меры сходства, вика, чечевица.
1.ВВЕДЕНИЕ
Устойчивое управление природными и сельскими экосистемами требует получения исчерпывающей информации о распространении видов и их разновидностей (1). Традиционные процедуры определения и составления карт видов и их разновидностей на обширных сельских территориях предполагают изнурительную и трудоемкую полевую работу (1). Дистанционное зондирование позволяет улучшить и ускорить процедуры распознавания и составления карт видов растений. Хотя широкополосные датчики дистанционного зондирования ранее использовались для картографирования растительного покрова, они недостаточно чувствительны для дифференцировки сортов внутри вида или, в некоторых случаях, даже самих видов [(1)]. Высокая спектральная разрешающая способность гиперспектральных датчиков позволяет значительно улучшить идентификацию и картографирование как отдельных видов растений, так и их разновидностей.
Вика и чечевица являются двумя широко культивируемыми видами растений в Греции. Высокая потребность в этих культурах привела к выращиванию различных сортов каждого из них. Точная классификация этих растений и их сортов является важным аспектом устойчивого управления сельскохозяйственными экосистемами. Гиперспектральные данные предоставляют детальную информацию о спектральных характеристиках растений и позволяют сравнивать неизвестные спектры с эталонными наборами спектральных характеристик. Это улучшает точность классификации и маркировку как видов растений, так и их сортов. Эти спектральные характеристики могут быть получены либо непосредственно путем измерений в поле, либо извлечены из гиперспектрального изображения. Во всех случаях исследование процессов определения сорта растения фокусируется на следующем:
i)Разработка мер оценки спектрального подобия, обеспечивающих точное сопоставление спектров.
ii)Выбор наиболее информативных спектральных диапазонов, улучшающих работу алгоритма сопоставления
iii)Подбор оптимальной предобработки данных, выделяющих ключевые спектральные признаки, повышающие качество анализа классификации.
В международной литературе описаны различные меры спектрального подобия. Манолакис и др. (2003) представили новый метод маркировки конечных элементов, извлеченных из гиперспектральных изображений с использованием спектральных сигнатур, измеренных на земле (2). Алгоритм угла спектра (SA) использовался в качестве меры подобия. Для каждого конечного элемента вычисляются SA с эталонными спектральными сигнатурами. Эталонная спектральная сигнатура с наименьшим значением SA присваивает метку конечному элементу. Салем (2001) использовал SA для маркировки спектральных сигнатур нефтяных разливов (3). Аналогичным образом Хорстранд и др. (2011) маркировали спектральные сигнатуры с использованием мер SA и кросс-корреляции (CC), которые были оценены как более эффективные, чем SA(4). Басенер и др. (2011) представили алгоритм обнаружения-идентификации, который использовал извлеченные конечные элементы и эталонную спектральную библиотеку (5). Процесс присвоения меток аналогичен работам [(3)], [(4)]; однако использовалась мера подобия адаптивного когерентного/косинусного оценщика (ACE), продемонстрировавшая низкие уровни ложных тревог. Бюэ и др. (2009 г.) разработали новую автоматическую технику маркировки [(6)]. Она применяется к сегментам гиперспектральных изображений. Техника сравнивает среднее значение подписи сегмента с эталонной библиотекой спектров, используя меру подобия Continuum Intact - Continuum Removed (CICR) (7).
Кроме того, существует значительное количество работ, направленных на повышение эффективности алгоритмов сопоставления путём отбора лишь определённых спектральных диапазонов. Дудени и др. (2009) (8) например, для того, чтобы различать виды растительности, сравнивали точность сопоставления нескольких мер сходства (SAM, SID, SID(TAN), SID(SIN)) с использованием разных частей электромагнитного спектра. В некоторых случаях они использовали пошаговый дискриминационный анализ для поиска соответствующих полос.
Кешава (2004) разработал математическую технику, называемую Band Add-on (BAO), для выбора полос, которые увеличивают угловое разделение между двумя спектральными сигнатурами (9). BAO последовательно вычисляет значение аргумента косинуса SAM между двумя спектрами для пары полос. Если значение косинуса меньше единицы, то эти полосы добавляются к выбранным полосам. Процедура останавливается, когда значение аргумента косинуса становится больше единицы.
Кроме того, в некоторых исследованиях дискриминационный анализ применяется после соответствующей предварительной обработки спектральных характеристик. Предварительная обработка направлена на извлечение признаков, которые могут быть использованы для распознавания растений. Мане́вски и др. (2011) применяли алгоритм удаления континуума к спектрам пяти распространённых средиземноморских кустарников перед проведением статистического тестирования (параметрические и непараметрические тесты) для расчета их сепарабильности (10). Ксавье Хадо и др., (2012) использовали алгоритм предварительной обработки спектральной стандартизации и частичную линейную дискриминацию методом наименьших квадратов.
Аналитическая модель распознавания (PLS-LDA) для распознавания сортов пшеницы с использованием гиперспектральных изображений (11). Статистические модели распознавания (параметрические, непараметрические, PLS-LDA и т.д.) требуют большого количества образцов для обучения и оценки. С увеличением числа различных видов и разновидностей увеличивается и минимальное количество образцов. Отсутствие большого количества образцов не приведет к созданию точных моделей распознавания. Более того, использование одного алгоритма предварительной спектральной обработки не всегда обеспечивает адекватный уровень распознавания большого количества видов и разновидностей.
В этой работе предлагается методология k-шага для спектральной дискриминации и маркировки неизвестных спектральных сигнатур.
Методология фокусируется на поиске оптимальной комбинации алгоритмов спектральной предварительной обработки (SPPA). Из-за очень большого количества возможных комбинаций для поиска оптимальной комбинации используется простой генетический алгоритм (SGA). Методология k-шага последовательно применяет k алгоритмов предварительной обработки, чтобы максимизировать дискриминацию между спектральными сигнатурами и улучшить точность спектрального сопоставления. Для этой цели были оценены 16 различных SPPA с k в диапазоне от 1 до 3. Методология была применена к набору спектральных сигнатур, который включает 9 сортов вики и 9 сортов чечевицы, измеренных на двух немного разных стадиях роста растений.
2.АЛГОРИТМЫ ПРЕДВАРИТЕЛЬНОЙ СПЕКТРАЛЬНОЙ ОБРАБОТКИ
SPPA - это алгоритмы, которые используют одну спектральную сигнатуру в качестве входных данных и преобразуют ее в соответствии с функцией SPPA (например, производные, нормализация вектора и т.д.). Целью SPPA является усиление или уменьшение спектральных характеристик (полос поглощения, формы сигнатуры и т.д.) входной сигнатуры, чтобы использовать их (12). В этой работе использование SPPA направлено на преобразование входных спектральных сигнатур в другой n-мерный вектор, что увеличивает спектральную дискриминацию и точность сопоставления между эталонным набором сигнатур и набором неизвестных сигнатур. В этом исследовании использовались следующие методы анализа: векторная нормализация (13), дискретное преобразование Фурье (14), логарифмическое преобразование (15)., Преобразование Кубелки-Мунка (15), производные (16), удаление континуума (17), глубина полосы (16), нормализация значений, преобразование квадратного корня n–го порядка и сглаживание [(15)], включая скользящее усреднение, медианный фильтр, гауссовское сглаживание и фильтры Савицкого-Голея, и они описаны ниже.
2.1. Алгоритмы сглаживания
Алгоритмы сглаживания реализованы для снижения случайного шума из спектральных сигнатур. В научной литературе предложено большое количество таких алгоритмов, однако в рамках настоящего исследования будут представлены только те, которые используются в данной работе: скользящее среднее, фильтрация Савицкого-Голея [(18)], медианный фильтр и гауссовский фильтр.
Каждый алгоритм сглаживания имеет окно определенной ширины, которое определяет количество соседних спектральных полос, используемых для сглаживания. Ширина окна должна быть выбрана аккуратно, чтобы избежать чрезмерного сглаживания спектров. Чрезмерно сглаженная спектральная сигнатура может привести к потере важных спектральных особенностей.
Алгоритм Савицкого-Голея (Sav-Gol) представляет собой особый вид фильтра сглаживания, который фактически выполняет локальную полиномиальную регрессию заданной степени (n-й порядок) над значениями, находящимися в пределах выбранного окна. Когда степень полиномиальной регрессии больше единицы, результатом является сглаженное производное спектра порядка n.
2.2. Нормализация вектора
Нормализация вектора — это процедура предварительной обработки, при которой спектральная сигнатура рассматривается как L-мерный вектор, где L соответствует числу используемых спектральных полос. Сигнал нормализуется таким образом, чтобы длина результирующего вектора равнялась единице [(13)]. Нормализованный вектор рассчитывается делением отражательной способности каждой полосы на длину всего вектора. Этот алгоритм часто используют для сравнения спектров, поскольку сохраняется начальная форма спектральной кривой.
2.3. Нормализация значений
Алгоритм нормализации значений похож на процедуру нормализации вектора, рассмотренную ранее. Однако в данном случае каждое значение отражательной способности делится не на общую длину вектора, а на определенное фиксированное значение, такое как минимальное или максимальное значение отражательной способности самой спектральной сигнатуры. Длина полученного вектора после такой операции не равна единице. Подобный подход также применяется для сравнительного анализа спектров.
2.4. Дискретное преобразование Фурье (ДПФ)
В качестве алгоритма предварительной обработки используется хорошо известный одномерный метод ДПФ (14). Каждая из спектральных сигнатур рассматривается как дискретная функция. Спектральные полосы отложены на оси x, а значения коэффициента отражения - на оси y. Результатом вычисления DFT являются коэффициенты (комплексные числа) конечной комбинации сложных синусоид, упорядоченных по их частотам.
Эти частоты не следует путать с длинами волн спектральных диапазонов. Они относятся только к частоте синусоида. Амплитуда или фаза синусоид является результатом работы алгоритма.
2.5. Логарифмическое преобразование
Другим алгоритмом предварительной обработки является преобразование исходной спектральной сигнатуры в логарифмическую форму: log(1/Rλ) (15),(16), где Rλ - значение коэффициента отражения для каждого диапазона. Цель этого алгоритма - рассчитать величину поглощения для каждого диапазона на основе закона Бира. Недостатком логарифмического преобразования является то, что оно не учитывает эффекты многократного рассеяния.
2.6. Преобразование Кубелки-Мунка
Преобразование Кубелки–Мунка: (1–Rλ2)/2Rλ аналогично логарифмическому преобразованию, но оно учитывает эффекты многократного рассеяния (19).
2.7. Преобразование с квадратным корнем N-го порядка
Преобразование с квадратным корнем n-го порядка вычисляется путем применения квадратного корня n-го порядка к каждому диапазону спектральной сигнатуры. Обычно используется для улучшения спектральных характеристик.
2.8. Производные
Производные используются для вычисления наклонов входной спектральной сигнатуры в зависимости от длины волны. Первая производная обычно используется для устранения сдвигов спектральных значений двух сигнатур, т.е. сдвигов базовой линии. Вторая производная может корректировать как аддитивные, так и мультипликативные эффекты на сигнатуру. Входными параметрами алгоритма являются: ширина окна и порядок производных. Параметры должны быть тщательно подобраны, чтобы избежать усиления спектрального шума и/или охвата узких спектральных характеристик (16).
2.9. Удаление континуума
Удаление континуума нормализует спектры отражения, чтобы можно было сравнивать отдельные характеристики поглощения с общей базовой линией (17). Континуум - это линия, соединяющая локальные максимумы сигнатуры. Коэффициент отражения без учета континуума (Rc) получается путем деления значения коэффициента отражения Rλ сигнатуры для каждого диапазона волн на значение коэффициента отражения линии континуума на соответствующей длине волны. Выходные кривые имеют значения от 0 до 1, при которых характеристики поглощения улучшены (значения, близкие к нулю, указывают на высокую степень поглощения). В зависимости от алгоритма, который используется для определения локальных максимумов, спектр, удаленный из континуума, может варьироваться. Наличие шума также влияет на результат.
2.10. Глубина полосы
Глубина полосы на самом деле является расширением алгоритма удаления сплошного слоя. Цель текущего алгоритма -представить характеристики поглощения в виде диаграммы поглощения. Она рассчитывается путем вычитания значений удаления сплошного слоя из одного для каждой полосы пропускания.
3.МЕТОДОЛОГИЯ k-ШАГА
Предлагаемая методология направлена на различение видов растений и их разновидностей с использованием гиперспектральных данных.
Концепция заключается в сочетании алгоритмов спектральной предварительной обработки (SPPA), которые улучшают спектральную дискриминацию между видами и/или их разновидностями. Комбинация k-шага SPPA представляет собой процедуру, которая последовательно использует k SPPA. Первоначально каждая спектральная сигнатура используется в качестве входных данных для первого SPPA. Результат этого SPPA используется в качестве входных данных для второго SPPA, и так далее, пока не будут получены разделимые преобразованные сигнатуры. Затем эти сигнатуры дискриминируются и маркируются с помощью применения алгоритма спектрального сопоставления. Описанная методология применяется либо ко всему спектральному пространству, либо к подпространству. k варьируется от 1 до 3, что означает, что от 1 до 3 алгоритмов предварительной обработки будут последовательно применяться к спектральным сигнатурам.
Комбинации SPPA оценивались с использованием простого генетического алгоритма (20) (SGA). Исследование 16 SPPA, каждый из которых имеет различные входные параметры (например, окно сглаживания ширины, порядок производной и т. д.), и их последовательное объединение до 3 раз приводит к очень большому количеству возможных комбинаций. Таким образом, алгоритмы предварительной обработки и их входные параметры кодируются как гены. Каждый ген на самом деле представляет собой определенную методологию k-шага. Функция пригодности, которая используется SGA для оценки генов, основана на точности алгоритма спектрального сопоставления. SGA ищет оптимальный ген, т. е. комбинацию алгоритмов предварительной обработки, на основе значения функции пригодности. Цель состоит в том, чтобы найти максимально возможное значение пригодности. Эта функция пригодности варьируется от нуля до единицы, причем единица относится к лучшему гену.
Алгоритм спектрального сопоставления, позволяющий оценивать каждую комбинацию, подробно описан в Sykas &Karathanassi (2012) (21). Он основан на двух хорошо известных мерах спектрального сходства: Spectral Angle Mapper (SAM) и Cross Correlation (CC). При наличии эталонного набора спектральных сигнатур и набора неизвестных спектральных сигнатур сопоставление неизвестных сигнатур с одной сигнатурой эталонного набора выполняется, если минимальное значение SAM и максимальное значение CC соответствуют одной и той же спектральной сигнатуре эталонного набора.
SAM обеспечивает сходство спектральных сигнатур при различных условиях освещения, тогда как CC обеспечивает спектральную корреляцию между спектральными сигнатурами. Этот алгоритм сопоставления не использует никаких пороговых значений и автоматизирует процесс. Сопоставление всех спектральных сигнатур не является обязательным.
4. ДАННЫЕ И ЭКСПЕРИМЕНТЫ
Предложенная методология была применена к двум видам растительности, вике и чечевице. Каждый из них включает 9 разновидностей.
Для вики это следующие сорта: Alexandros, Kalliroi, Apollonia, Azotos, Zefyros, Tempi, Leonidas, Evinos, Mix (Alexandros, Kalliroi и Tempi, а для чечевицы: Thessalia, LC 3-8, LC 13-11, LC 19-17, LC 14-15, LC 5-38, Ikaria, Bo, и Al. Для проверки предлагаемой методологии спектральные измерения проводились на опытном поле с использованием спектрорадиометра GER-1500 (512 спектральных полос от 280 нм до 1100 нм). Для каждого сорта были проведены два набора спектральных измерений: эталонный и оценочный. Первый набор измерений использовался для сбора эталонного набора данных, а второй — для сбора набора сигнатур для оценки, предлагаемой методология. Для каждого набора данных использовались разные образцы (растения). В реальных приложениях культуры высаживаются в немного разное время вегетационного периода, что приводит к тому, что один полог оказывается менее развитым, чем другой. Поскольку все растения были почти одновременно высажены на экспериментальном поле, вышеупомянутые измерения выполнялись дважды, в марте и апреле, для высокоточного моделирования реальной ситуации. Следовательно, каждый набор данных, т. е. эталонный и оценочный, включает все сорта для обоих видов в две даты.