Меню

Использование машинного обучения в дистанционном зондировании Земли

Разработка методологии машинного обучения для дистанционного зондирования стала значительным шагом в развитии ДЗЗ сферы. Но с применением алгоритмов машинного обучения на данных ДЗЗ появились и новые нерешенные задачи.

Во время работы модели машинного обучения (ML), одновременно запускаются два процесса. Во-первых, тонны данных собираются со спутников ДЗЗ, которые обрабатываются, чтобы сделать их готовыми к применению. Эти данные называются готовыми к применению данными (ARD), помещаются в облако и организуются в различные наборы данных, называемые кубами данных. Во-вторых, данные обучения собираются для обучения моделей. Как только оба набора данных организованы, выбирается подходящая модель машинного обучения для классификации, сглаживания и обработки данных, чтобы получить ценную информацию.

Использование нескольких ML алгоритмов на больших объемах данных ДЗЗ обеспечивает надежные и более точные результаты, тем самым облегчая процесс доказательства или опровержения заданной гипотезы. Преимущества использования машинного обучения многочисленны, но общая доступность спутниковых данных ДЗЗ затрудняет эффективное использование моделей и алгоритмов ML. В настоящее время мы получаем тонну наборов данных с таких спутников как Sentinel 2, Sentinel 3, Landsat 8 и SkySat, которые предоставляют более 2 петабайт (PB) данных каждый день. Таким образом, хотя многие ML модели эффективно работают на тестовых моделях, они не отражают реальную действительность.

Одной из наиболее важных проблем, с которыми приходится сталкиваться при надлежащем развертывании ML моделей, является огромный объем собранных данных. Профессор д-р Жильберто Камара, директор Секретариата компании ГЕО, в ходе обсуждения отметил, что данных, полученных со спутников ДЗЗ, должно быть достаточно, чтобы охватить все категории и предусмотренные проектом детали. Однако здесь имеет решающее значение маркировка данных по количеству категорий. Это определяет поведение классификатора, моделирующего данные.

Маркировка данных

ML необходимо маркировать данные, чтобы лучше их понимать, но разнородность данных ограничивает применение алгоритмов ML. Существующая в настоящее время классификация часто оказывается недостаточной для обозначения данных. Чтобы глубже понять проблему, давайте рассмотрим пример использования ML-алгоритмов для данных ДЗЗ лесов.

Способ определения ярлыка леса различен для разных мест. Лес – это один ярлык, но у леса бывает несколько вариаций, начиная от арктического леса и заканчивая тропическим лесом. Можно эту проблему попробовать решить, разбив ярлык на суб-ярлыки. Предположим, если разбить термин лес на восемь различных суб-ярлыков, то задача поиска хороших тестовых образцов для обучения ML алгоритма умножается на восемь. Следовательно, если бы нам потребовалось 1000 образцов для леса, в приведенном выше сценарии нам потребовалось бы 8000 образцов для того же самого, что усложняет дело. Таким образом, чтобы описать природу надлежащим образом, необходимо убедиться, что ярлыки, используемые для определения природы, согласуются с ML моделями.

Время как элемент

В случае лесов данные ДЗЗ используются для мониторинга состояния лесов, в частности для обнаружения обезлесения. Мониторинг вырубки лесов – это не разовый процесс, а результат ряда шагов, происходящих с течением времени. В контексте машинного обучения этот процесс включает в себя работу как с пространством, так и со временем. Чтобы лучше понять это, мы можем посмотреть на диаграмму ниже, которая объясняет, как развивается лес. Лес может расти любым из перечисленных ниже способов; например, он может сохраняться в течение всего времени, как показано на рис. Со временем может произойти вырубка лесов или облесение обезлесенных земель, как показано на рис. А (3).

Чтобы подвести итог, нужно измерить то, что существует в определенном месте в определенный момент времени, и определить события, которые произошли в этом конкретном месте с течением времени. Следовательно, для работы с пространством и временем нам нужны пространственно-временные модели. Моделирование событий и времени имеет ключевое значение для анализа больших данных ДЗЗ, но машинному обучению трудно справиться с этими изменениями.

Решение вышеприведенной проблемы заключается в использовании геопространственной семантики для анализа данных ДЗЗ. Здесь данные ДЗЗ организованы с использованием логического представления, включая индексацию и/или поглощения, а не упорядочены в трех измерениях: времени, долготы и широты. Значение приема данных заключается в том, что они могут быть собраны оптимизированным для запросов способом. Некоторые шаблоны доступа могут быть собраны более эффективно, например, пространственный анализ или анализ временных рядов.

Другие технические проблемы

Другие технические проблемы, с которыми сталкиваются аналитики данных и процессоры при подаче изображений в модели ML, такие как:

Разрешение – Различные спутники обеспечивают различное разрешение изображений в диапазоне от 500 м MODIS, до 0,3 м WorldView. Кроме того, различные наборы данных имеют различные форматы, такие как JPEG2000 и GeoTIFF. Таким образом, процессор должен научиться работать с различными разрешениями и форматами. Эта проблема может быть частично решена сторонним программным обеспечением, таким как Sentinel Hub, которое гармонизирует данные наблюдения Земли в одном единственном формате.

Проблема облачности – Несмотря на то, что облака имеют 5-дневный цикл повторного посещения, спутниковые снимки часто частично или полностью покрыты облаками. Облака затрудняют любому алгоритму и процессору получение полезной информации из спутниковых изображений. Поэтому процессор должен маскировать эти облака так, чтобы эти белые пятна или тени не искажали сигналы.

Геометрическая точность – Спутниковые снимки часто дергаются, потому что географические точки, используемые для привязки изображения, неидеальны. Хотя это стало лучше за последние несколько лет, но все же нельзя ожидать, что один пиксель будет представлять одну точку мира.

Вывод

Специалисты по искусственному интеллекту сталкиваются со многими проблемами при применении ML алгоритмов к данным ДЗЗ, затрагивая каждый этап обработки и анализа данных (от сбора обучающих данных и заканчивая получением из них ценной информации). Недавно Технический форум MKAI провел вебинар по использованию ИИ на данных ДЗЗ. На вебинаре обсуждалось, как ML модели используются для классификации, сглаживания и последующей обработки огромных объемов данных ДЗЗ. Специалисты предложили несколько способов решения этих проблем, в числе которых было создание надежных и географически разнообразных наборов учебных данных, включение в процесс геопространственной семантики и гармонизация данных с использованием различных сторонних программных средств, доступных на рынке.


12 АПРЕЛЯ/ 2021