Результатом стал MMEarth — разнообразный мультимодальный набор данных для предварительной подготовки в глобальном масштабе. Он охватывает 1,2 миллиона локаций по всему миру, каждая из которых содержит данные 12 различных модальностей (от мультиспектральных изображений до климатической статистики). Это делает коллекцию изображений MMEarth сопоставимой по размеру со знаменитым набором данных ImageNet (содержащим около 1 миллиона изображений) — значительная веха для геопространственной области. Важно отметить, что выборка локаций проводилась в 14 различных биомах (тундра, леса, пустыни, мангровые заросли и т. д.), чтобы обеспечить богатое разнообразие условий, а также за несколько лет для учета временных изменений. Другими словами, MMEarth был разработан таким образом, чтобы избежать смещения в сторону какого-либо одного региона или ландшафта, стремясь к по-настоящему глобальной репрезентативности. Для бизнеса такой широкий охват означает, что модели ИИ, обученные на MMEarth, с большей вероятностью будут хорошо обобщать данные — будь то анализ ферм в Бразилии, лесов в Индонезии или городов в Африке, модель «видела» нечто похожее во время обучения.
Используя этот корпус, исследователи обучили многопретекстовый маскированный автоэнкодер (MP-MAE) – по сути, модель ИИ, которая обучается предсказывать пропущенные биты данных в различных модальностях (форма самообучения). Результат оказался впечатляющим: модель, созданная на основе MMEarth, превзошла модели, предварительно обученные на общих изображениях (ImageNet), а также модели, обученные на спутниковых снимках из одного источника, в ряде задач, таких как классификация и сегментация земного покрова. В частности, использование мультимодальных данных дало модели значительное ускорение в ситуациях с очень малым количеством размеченных примеров, достигая более высокой точности при ограниченном объеме обучающих данных. Это означает, что ИИ, созданный на основе MMEarth, можно точно настроить для конкретной задачи, значительно сократив объем ручной разметки, что существенно экономит время и деньги. Как отмечают авторы, предобучение на мультимодальных данных Земли привело к «повышенной эффективности разметки и параметров, что критически важно для глобальных приложений».
Все наборы данных и код MMEarth имеют открытый исходный код. Это означает, что любая организация может воспользоваться результатами работы: если стартап хочет создать новый ИИ для обнаружения болезней сельскохозяйственных культур, он может взять за основу предобученную модель MMEarth, а не начинать с нуля. Крупные технологические компании располагают ресурсами для обучения таких моделей, как AlphaEarth, но MMEarth делает часть этих возможностей доступной более широкому сообществу. Мы уже видим результаты: геопространственные библиотеки с открытым исходным кодом (например, TorchGeo от Facebook) интегрировали данные MMEarth, что позволяет разработчикам экспериментировать с этими многомодальными моделями. Исследовательское сообщество GeoAI также использует MMEarth для изучения объективности и предвзятости (чтобы гарантировать, что ИИ будет работать эффективно в регионах с недостаточным охватом).
Сила открытого сотрудничества в области GeoAI
Открытые инициативы, такие как MMEarth, иллюстрируют, как сотрудничество может ускорить инновации в области GeoAI. Объединяя данные из таких источников, как спутники Sentinel ESA, климатические наборы данных NASA и т. д., и делясь результатами, исследователи создали ресурс, которым могут воспользоваться многие другие. Этот коллективный подход особенно ценен в геопространственных областях: данные разнообразны, и ни одна организация не обладает всеми ими. Благодаря участию академических, государственных и частных секторов, получаемые модели становятся более надёжными и широко применимыми.
Для предприятий и лиц, принимающих решения, влияние таких проектов, как MMEarth, может быть косвенным, но важным. Они расширяют границы возможностей ИИ с геопространственными данными, часто публикуя результаты открыто. Например, если MMEarth покажет, что использование данных радаров и высот улучшает обнаружение зданий в густонаселённых городских районах, компания, разрабатывающая собственный ИИ для умного городского планирования, может взять это на вооружение и внедрить. По сути, открытые исследования являются своего рода НИОКР для всей отрасли.
Ещё одно преимущество — развитие талантов. Экспериментируя с открытыми данными и моделями, такими как MMEarth, специалисты по геопространственной информации приобретают навыки, которые найдут применение в отрасли. Следующее поколение специалистов по геоИИ вполне может набраться опыта в открытых проектах, а затем применить этот опыт в компаниях или стартапах. Это расширяет кадровый резерв для геоориентированного ИИ, решая распространённую проблему компаний, пытающихся нанять специалистов в этой нише.
Инвесторы также обращают на это внимание. На недавних форумах, посвящённых космическим технологиям и ИИ, эксперты подчеркнули, что объединение различных модальностей данных (изображения, датчики, Интернет вещей) является ключом к открытию новых возможностей аналитики наблюдения за Землёй. Инвестиционный директор может взглянуть на компанию, использующую MMEarth, и увидеть снижение технического риска: поскольку основная технология прошла экспертную оценку, а данные для обучения доступны, компания может сосредоточиться на применении с добавленной стоимостью (будь то точное земледелие, разведка полезных ископаемых или оценка климатических рисков). Наличие сильной открытой экосистемы вокруг GeoAI может снизить риски инноваций и привлечь больше финансирования в эту сферу.