Разработка методологии машинного обучения для дистанционного зондирования стала значительным шагом в развитии ДЗЗ сферы. Но с применением алгоритмов машинного обучения на данных ДЗЗ появились и новые нерешенные задачи.
Во время работы модели машинного обучения (ML), одновременно запускаются два процесса. Во-первых, тонны данных собираются со спутников ДЗЗ, которые обрабатываются, чтобы сделать их готовыми к применению. Эти данные называются готовыми к применению данными (ARD), помещаются в облако и организуются в различные наборы данных, называемые кубами данных. Во-вторых, данные обучения собираются для обучения моделей. Как только оба набора данных организованы, выбирается подходящая модель машинного обучения для классификации, сглаживания и обработки данных, чтобы получить ценную информацию.
Использование нескольких ML алгоритмов на больших объемах данных ДЗЗ обеспечивает надежные и более точные результаты, тем самым облегчая процесс доказательства или опровержения заданной гипотезы. Преимущества использования машинного обучения многочисленны, но общая доступность спутниковых данных ДЗЗ затрудняет эффективное использование моделей и алгоритмов ML. В настоящее время мы получаем тонну наборов данных с таких спутников как Sentinel 2, Sentinel 3, Landsat 8 и SkySat, которые предоставляют более 2 петабайт (PB) данных каждый день. Таким образом, хотя многие ML модели эффективно работают на тестовых моделях, они не отражают реальную действительность.
Одной из наиболее важных проблем, с которыми приходится сталкиваться при надлежащем развертывании ML моделей, является огромный объем собранных данных. Профессор д-р Жильберто Камара, директор Секретариата компании ГЕО, в ходе обсуждения отметил, что данных, полученных со спутников ДЗЗ, должно быть достаточно, чтобы охватить все категории и предусмотренные проектом детали. Однако здесь имеет решающее значение маркировка данных по количеству категорий. Это определяет поведение классификатора, моделирующего данные.
Маркировка данных
ML необходимо маркировать данные, чтобы лучше их понимать, но разнородность данных ограничивает применение алгоритмов ML. Существующая в настоящее время классификация часто оказывается недостаточной для обозначения данных. Чтобы глубже понять проблему, давайте рассмотрим пример использования ML-алгоритмов для данных ДЗЗ лесов.
Способ определения ярлыка леса различен для разных мест. Лес – это один ярлык, но у леса бывает несколько вариаций, начиная от арктического леса и заканчивая тропическим лесом. Можно эту проблему попробовать решить, разбив ярлык на суб-ярлыки. Предположим, если разбить термин лес на восемь различных суб-ярлыков, то задача поиска хороших тестовых образцов для обучения ML алгоритма умножается на восемь. Следовательно, если бы нам потребовалось 1000 образцов для леса, в приведенном выше сценарии нам потребовалось бы 8000 образцов для того же самого, что усложняет дело. Таким образом, чтобы описать природу надлежащим образом, необходимо убедиться, что ярлыки, используемые для определения природы, согласуются с ML моделями.
Время как элемент
В случае лесов данные ДЗЗ используются для мониторинга состояния лесов, в частности для обнаружения обезлесения. Мониторинг вырубки лесов – это не разовый процесс, а результат ряда шагов, происходящих с течением времени. В контексте машинного обучения этот процесс включает в себя работу как с пространством, так и со временем. Чтобы лучше понять это, мы можем посмотреть на диаграмму ниже, которая объясняет, как развивается лес. Лес может расти любым из перечисленных ниже способов; например, он может сохраняться в течение всего времени, как показано на рис. Со временем может произойти вырубка лесов или облесение обезлесенных земель, как показано на рис. А (3).