Улучшение диагностики состояния полости рта с помощью гиперспектральной визуализации и компьютерного зрения: исследование клинического набора данных

Аннотация

Предыстория

Заболевания полости рта, включая плоскоклеточный рак слизистой оболочки рта, представляют серьёзную проблему для здравоохранения во всём мире из‑за поздней диагностики и сложностей с дифференциацией тканей полости рта.

Сочетание эндоскопической гиперспектральной визуализации (HSI) и моделей глубокого обучения (DL) открывает перспективный путь к удовлетворению потребности в современной неинвазивной диагностике тканей. В данном исследовании представлен крупномасштабный набор in vivo данных, предназначенный для поддержки сегментации и классификации здоровых тканей полости рта на основе DL.

Цель

Цель исследования — создать всеобъемлющий аннотированный эндоскопический набор данных HSI полости рта и продемонстрировать автоматизированную, надёжную дифференциацию внутриротовых тканевых структур путём интеграции эндоскопической HSI с передовыми методами машинного обучения.

Методы

Всего было обследовано 226 участников (166 женщин [73,5 %], 60 мужчин [26,5 %], возраст 24–87 лет) с использованием эндоскопической системы HSI, регистрирующей спектральные данные в диапазоне от 500 до 1000 нм. Изображения структур полости рта в каналах красного, зелёного и синего цветов, а также сканы HSI были аннотированы с помощью программы RectLabel Pro (автор — Рё Кавамура). Для сегментации эндоскопических данных ГСВ была адаптирована модель DeepLabv3 (Google Research) с базовой сетью ResNet‑50. Модель обучалась в течение 50 эпох на 70 % набора данных, оставшиеся 30 % использовались для оценки. Показатели эффективности (точность, полнота и F1‑оценка) подтвердили её работоспособность в разграничении типов тканей полости рта.

Результаты

Модели DeepLabv3 (ResNet‑101) и U‑Net (EfficientNet‑B0/ResNet‑50) показали наивысшие общие значения F1‑оценки — 0,857 и 0,84 соответственно. Особенно высокие результаты были достигнуты при сегментации:

  • слизистой оболочки (0,915);
  • ретрактора (0,94);
  • зуба (0,90);
  • нёба (0,90).
Анализ вариабельности подтвердил высокое спектральное разнообразие между классами тканей, что свидетельствует о сложности и достоверности набора данных для реалистичных клинических условий.

Выводы

Представленный набор данных восполняет ключевой пробел в визуализации состояния полости рта путём разработки и валидации надёжных алгоритмов DL для эндоскопических данных HSI. Он позволяет точно классифицировать ткани полости рта и открывает перспективы для будущих приложений в индивидуальной неинвазивной патологической анализе тканей, ранней диагностике рака и интраоперационной диагностике заболеваний полости рта.
JMIR Med Inform 2025;13:e76148
doi:10.2196/76148

Введение

Заболевания полости рта, включая злокачественные и предраковые поражения, часто возникают на фоне ранее существовавших хронических изменений тканей, которые трудно выявить при обычном визуальном осмотре. Этот процесс сильно зависит от опыта врача и субъективной интерпретации, часто требует дополнительных диагностических мер. Доступные методы включают инцизионную и эксцизионную биопсию, щеточную биопсию, цитологические техники и оптические подходы. Среди них наиболее надежным методом диагностики потенциально злокачественных поражений остается скальпельная биопсия, обеспечивающая точность диагноза до 88,9 % [1]. Однако этот метод предполагает частичное удаление ткани подозрительного участка для гистопатологического анализа, что делает его инвазивным, дорогостоящим и недостаточно эффективным при многоочаговых поражениях. Эксцизионная биопсия, хотя и обеспечивает большую надежность благодаря большему объему образцов, несет риск неполного удаления опухолей и избыточного лечения в случаях доброкачественных образований [2].

В последние годы появились менее инвазивные методы, такие как щеточная биопсия, аутофлуоресценция тканей и хемилюминесцентные методы (например, окрашивание толуидиновым синим), предложенные в качестве экономически эффективных альтернатив. Согласно метаанализам, чувствительность этих методов высока и варьируется от 30% до 100% для аутофлуоресценции тканей, 77% для окрашивания толуидиновым синим и 91%-100% для щеточной биопсии [3-5]. Тем не менее, эти методы существенно не улучшили раннюю диагностику плоскоклеточного рака слизистой оболочки полости рта. Зависящая от квалификации специалиста изменчивость менее инвазивных методов в худшем случае может привести к задержке точной диагностики плоскоклеточного рака слизистой оболочки полости рта, одной из наиболее распространенных форм злокачественных новообразований во всем мире, составляющей 90%-95% всех случаев злокачественного поражения полости рта [6-8].

Таким образом, хирургическая биопсия скальпелем продолжает оставаться золотым стандартом диагностики [9]. Доказано, что пациенты, проходящие регулярное клиническое обследование, включающее визуальное исследование и пальпацию, достигают значительно более высоких показателей пятилетней выживаемости [10,11].

Интеграция передовых технологий визуализации в клиническую диагностику революционизирует уход за здоровьем полости рта. Среди этих инноваций выделяется гиперспектральная визуализация (HSI), представляющая собой неинвазивный высоко чувствительный метод, позволяющий получать детальные спектральные данные в сотнях диапазонов длин волн вне видимого спектра света. Обнаруживая специфичные для тканей спектральные сигнатуры, HSI объединяет рефлекторную спектроскопию изображений с традиционными методами визуализации [12]. Гиперспектральный метод захватывает пространственную и спектральную информацию в виде трехмерного гиперспектрального куба бесконтактным, неинвазивным и радиационно безопасным способом. Такой подход создает обширные наборы данных, охватывающие широкий спектр длин волн, обеспечивая немедленное извлечение значимой диагностической информации [13-18]. Эффективность HSI основана на уникальных спектральных сигнатурах тканей, возникающих вследствие их свойств поглощения, отражения и преломления света при воздействии освещения. Каждый тип ткани генерирует уникальный световой спектр, который может фиксироваться системами HSI, открывая потенциал точного выявления патологических изменений с высокой точностью и чувствительностью [19].

Эндоскопическое использование HSI улучшает доступ к полости рта и повышает качество освещения, делая его особо ценным инструментом для удовлетворения растущего спроса на неинвазивные диагностические методики в стоматологии [20-23]. В данном контексте сочетание эндоскопического HSI с компьютерным зрением, основанным на глубоком обучении (DL), способно значительно повысить точность диагностики, позволяя создавать более полное отображение полости рта и точно отличать здоровую слизистую оболочку от патологически измененной. Это открывает возможности избежать ненужных биопсий и оптимизировать лечение пациентов путем определения индивидуальных границ резекции. Передовые возможности эндоскопического HSI, несмотря на свою привлекательность, создают трудности в обработке больших объемов сложных данных. Спектральные данные, полученные с помощью эндоскопического HSI, характеризующиеся уникальными признаками тканей, превышают возможности человеческого восприятия и традиционных инструментов анализа. Эта сложность требует продвинутого анализа данных, где глубокое обучение играет ключевую роль. Специализированное на интерпретации многомерных наборов данных, DL эффективно обрабатывает объемные массивы данных эндоскопического HSI, обнаруживая тонкие закономерности и отклонения, свидетельствующие о патологии, которые могли бы остаться незамеченными при человеческом анализе или стандартных алгоритмах [24]. Применение DL в эндоскопическом HSI увеличивает точность, согласованность и скорость интерпретации данных, значительно ускоряя диагностический процесс. Это особенно важно в клинической практике, где своевременный точный анализ в режиме реального времени оказывает значительное влияние на исходы пациентов [25-28]. Однако внедрение DL в анализ эндоскопического HSI сталкивается с проблемами, главной из которых является ограниченная доступность аннотированных наборов данных эндоскопического HSI, отражающих сложность и разнообразие реальных клинических ситуаций.

Современные базы данных, зачастую созданные в контролируемых лабораторных условиях, недостаточны для подготовки моделей DL к изменчивости реальной клинической среды, ограничивая их практическую ценность. Как отмечается в обзоре Чуя и др. [24], дефицит специализированных наборов данных является основным препятствием для эффективного анализа DL в медицинской визуализации, подчеркивая необходимость создания соответствующих баз данных. За последние годы глубокое обучение показало большие перспективы в различных областях медицинской визуализации, включая классификацию опухолей по данным магнитно-резонансной томографии [29] и снижение шума в медицинских изображениях [30-33]. Эти исследования демонстрируют универсальность и эффективность нейронных сетей в обработке сложных медицинских изображений. Основываясь на достигнутых успехах, данная работа применяет технологии DL и эндоскопического HSI к полости рта — области, где интеграция этих подходов остается недостаточно изученной, несмотря на значительный клинический потенциал повышения точности и эффективности современной диагностики полости рта.

Методы

Когортное исследование

Общее число участников составило 226 человек, включая 166 женщин (73,5%) и 60 мужчин (26,5%), в возрасте от 24 до 87 лет. Эндоскопические гиперспектральные данные (HSI) были получены в отделении челюстно-лицевой хирургии и пластической хирургии лица университетского медицинского центра. Исследуемые участники представляли разнородную группу пациентов из амбулаторного отделения челюстно-лицевой хирургии. Пациенты с макроскопическими аномалиями слизистой оболочки полости рта, предопухолевыми образованиями или опухолями были исключены из исследования. Все участники дали информированное согласие до начала процедуры и сбора данных. Лицо, представленное на рисунке 1, дало разрешение на публикацию своего изображения. Данное исследование получило одобрение местного этического комитета Рейнланд-Пфальц (регистрационный номер 2021-16158) и проводилось в соответствии с кодексом этики Всемирной Медицинской Ассоциации («Хельсинкская декларация»).
Рисунок 1. Экспериментальная установка для эндоскопической гиперспектральной съемки полости рта.
Получение данных HSI и пациента

Наборы данных гиперспектральной визуализации (HSI) были собраны с использованием современного эндоскопического датчика HSI (камера TIVITA Mini®, компания Diaspective Vision GmbH). Данная система способна регистрировать 100 длин волн в диапазоне от 500 до 1000 нм, обеспечивая полосу пропускания 5 нм [34]. Устройство работает по принципу "pushbroom", позволяющему определять химические компоненты на основании поведения поглощения и отражения света.

Во время работы свет попадает в оптическую систему спектрометра через объектив, где коллимируется и разделяется на отдельные длины волн с помощью дифракционной решетки. Разделенный свет проходит через вторую оптическую систему перед попаданием на датчик подключённой камеры с комплементарной структурой металл-оксид-полупроводника (CMOS-камеры). Спектрометр непосредственно определяет пространственное направление и ширину исследуемого объекта (ось Y), тогда как второе пространственное направление и длина объекта (ось X) определяются путём непрерывного механического перемещения входного отверстия света внутри блока сканирования. Данный процесс формирует трёхмерный куб данных, содержащий спектральную размерность (λ), которая включает полный спектр ткани для каждого пикселя в пределах диапазона длин волн от 500 до 1000 нм [35].

При получении изображений соблюдались стандартные протоколы измерений, поддерживалось постоянное расстояние 7-10 см для обеспечения высокого качества и четкости полученных данных (см. рисунок 1). Измерения проводились в процедурной комнате при приглушенном освещении для обеспечения однородности и сопоставимости результатов. Всего было привлечено 226 участников в возрасте от 24 до 87 лет, включая 166 женщин (73,5%) и 60 мужчин (26,5%). Участники были набраны проспективно в амбулаторном отделении клиники челюстно-лицевой хирургии университета, где каждый пациент прошел рутинное клиническое обследование и осмотр. Критерии включения предусматривали отсутствие визуально определяемых повреждений слизистой оболочки, предопухолевых состояний или онкологических заболеваний, что обеспечило репрезентативную выборку непатологических тканей полости рта.

Информированное согласие было получено от всех участников до начала сбора данных. Стратегия рекрутинга была разработана таким образом, чтобы охватить широкий диапазон представлений здоровой ткани полости рта, что позволило обеспечить обобщаемость данных HSI для разных анатомических участков и демографических групп пациентов. У каждого пациента выполнялось по пять снимков, включая виды правой и левой щеки, неба, задней части языка и закрытого ряда зубов. Данные были анонимизированы и архивировались с использованием программного обеспечения, специально разработанного для камер.

Файлы RGB-изображений и эндоскопических HSI-данных

Компактный гиперсектральный набор данных здоровья полости рта (COHHSD) включает главным образом компоненты RGB (красный-зелёный-синий) и эндоскопические HSI-данные вместе с соответствующими аннотациями. Каждый из этих компонентов в представленном наборе данных имеет важное значение для преодоления основных трудностей, возникающих при глубоком обучении для семантической сегментации [36], обеспечивая надежную и эффективную тренировку моделей. Компонент RGB предоставляет традиционные изображения полости рта в видимом спектре, служащие базовым ориентиром для сравнения с более сложными способами визуализации, такими как сырые и обработанные эндоскопические HSI-данные.

Процесс аннотации и её верификация

Индивидуальная разметка анатомических областей полости рта выполнялась вручную с помощью инструмента для аннотации изображений (RectLabel Pro, версия 2024.06.07, автор — Рё Кавамура; Токио, Япония).

Для обеспечения высокого качества аннотации изображений был реализован ряд ключевых мер:

1.      Разработаны подробные инструкции по аннотации для обеспечения воспроизводимости результатов.

2.      Проведены комплексные обучающие сессии и практические упражнения для аннотаторов с последующими раундами обратной связи для совершенствования их навыков.

3.      Каждое изображение размещалось не менее чем двумя независимыми специалистами для минимизации субъективных ошибок.

4.      Регулярно проводились проверки качества посредством выборочного контроля старшими специалистами для выявления несоответствий.

5.      Аннотаторам предоставлялась постоянная обратная связь, а инструкции регулярно обновлялись на основе полученных данных.

Дополнительно для внутреннего контроля качества был проведён анализ согласованности между аннотаторами на двух наборах сегментированных аннотаций («исходная» vs «новая»). В каждом наборе каждому пикселю присваивался класс из 20 возможных объектов плюс фон.

Согласованность оценивалась с помощью метрик, отражающих как общую, так и класс‑специфическую консистентность:

1.      Точность по пикселям (Pixel Accuracy);
2.      Каппа Коэна (Cohen Kappa), включая и исключая фон;
3.      Коэффициенты Дайса (Dice Coefficients), математически эквивалентные F1‑оценке в бинарном случае.

Чтобы обеспечить реалистичное отражение повседневной клинической практики, размеченные структуры для последующего анализа соответствовали индивидуальным внутриротовым участкам и ситуациям. Были выделены следующие классы объектов (с указанием количества экземпляров):

·         «помеха» (clutter, n=752);
·         «кровь» (blood, n=3);
·         «брекеты» (brackets, n=15);
·         «дно полости рта» (floor of mouth, n=43);
·         «десна» (gingiva, n=511);
·         «имплант» (implant, n=10);
·         «губа» (lip, n=603);
·         «слизистая оболочка» (mucosa, n=745);
·         «нёбо» (palate, n=539);
·         «протез» (prosthesis, n=65);
·         «отражение» (reflection, n=106);
·         «керамическая брекет-система,» (retractor, n=702);
·         «шов» (suture, n=2);
·         «телескопическая коронка» (telescopic crown, n=28);
·         «язык» (tongue, n=587);
·         «зуб» (tooth, n=681).

Количество различных классов варьировалось от минимального значения 2 (для «шва») до значительного показателя 752 (для «помехи»).

Минимизация диагностических ошибок и обработка данных

Для минимизации диагностических ошибок избегалось недосегментирование анатомических структур. Каждая аннотация проверялась опытными клиническими экспертами, чтобы гарантировать полную маркировку всех клинически значимых особенностей.
Такой консервативный подход иногда приводил к появлению небольших неразмеченных промежутков между классами — это позволяло избежать слияния различных анатомических областей.

Цифровые аннотации в формате XML обеспечивали семантическое понимание данных изображений. Это критически важно для применения и обучения моделей машинного обучения и компьютерного зрения, которые дифференцируют различные состояния участков полости рта на основе:

·         RGB‑компонент;
·         эндоскопических HSI‑данных (рис. 2).

Предварительная обработка данных

Предварительная обработка включала конвертацию исходных гиперспектральных данных из формата .DAT в формат NumPy (.npy). Это было необходимо для:

·         обеспечения совместимости;
·         воспроизводимости результатов;
·         упрощения использования данных в моделях глубокого обучения.
Аугментация данныхПри аугментации данных использовались пространственные преобразования, в частности:
·         повороты изображений — для повышения устойчивости модели.
При этом намеренно исключались:
·         добавление шума;
·         размытие.

Эти операции могли внести спектральные искажения, не имеющие физического обоснования в контексте ГСВ.

Отбор классов для анализаУчитывая конкретную цель — дифференциацию структур полости рта — классы с низкой частотой встречаемости были признаны менее значимыми и исключены из дальнейшего анализа.

Это позволило:

·         избежать перекоса в процессе обучения;
·         улучшить способность модели обобщать данные для более распространённых и клинически значимых структур.
К исключённым классам относятся:

·         шов (suture);
·         кровь (blood);
·         имплант (implant);
·         брекеты (brackets);
·         телескопическая коронка (telescopic crown);
·         протез (prosthesis);
·         керамическая брекет-система, (reflection);
·         дно полости рта (floor of mouth).

Основной фокус был смещён на классы с высокой частотой встречаемости, такие как:

·         нёбо (palate);
·         ретрактор (retractor);
·         слизистая оболочка (mucosa);
·         язык (tongue);
·         зуб (tooth);
·         губа (lip);
·         десна (gingiva).

Такой подход оптимизировал процесс обучения, повысив эффективность и результативность модели при работе с разнообразными структурами полости рта.
Валидация аннотацийДля получения репрезентативных результатов был проведён дополнительный анализ согласованности между аннотаторами и валидация данных. Это позволило выявить возможные отклонения, обусловленные субъективностью отдельных исполнителей.
Рисунок 2. Примеры, иллюстрирующие подробное выделение элементов, RGB-изображение и характеристики в девятом канале эндоскопической гиперспектральной визуализации (длина волны 545 нм), которые особенно хорошо воспринимаются человеческим глазом.
Структура набора данных

Для обеспечения удобного анализа гиперспектрального набора данных и надежной совместной работы в научном сообществе, набор данных был специально оптимизирован для экосистемы Python (Python Software Foundation 2023, Python Language Reference, версия 3.10) вместо проприетарного ПО, необходимого для загрузки эндоскопических HSI-данных. В области научных вычислений Python становится доминирующим языком программирования благодаря своим многочисленным библиотекам и мощной поддержке сообщества.

После признания преобладающего предпочтения и выбора формата файлов NPY как самого простого способа загрузки данных в NumPy — важнейшую библиотеку численных расчетов в Python [37], — все элементы комплексного аннотированного эндоскопического HSI-набора данных полости рта («RGB», «Аннотации», «HSI_Data_Files») были сохранены в формате «.npy». Формат NPY обладает рядом преимуществ: компактностью, эффективностью загрузки и сохранения, поддержкой широкого спектра типов данных. Стандартизация устраняет сложность и потенциальную несовместимость, присущую проприетарным форматам. Для предоставления высококачественных детализированных аннотаций сложных структур полости рта цифровые аннотации были созданы в формате XML. Для повышения полезности и упрощения интеграции в рабочие процессы исследователей на основе XML-датасетов была автоматически создана семантическая карта полости рта для каждого изображения.

По сути, карты состояли из двоичных или многоклассовых масок, выделяющих категоризацию каждого пикселя согласно подробной информации, указанной в файле XML. Создание этих карт является автоматическим процессом, который преобразует сложную структуру информации из XML-аннотаций в простой, но исчерпывающий формат, легко интегрируемый в модели машинного обучения для распознавания типов тканей на основе значений пикселей, соответствующих определенной аннотированной категории. Рабочий процесс выглядит следующим образом: сначала загружаются эндоскопические HSI-данные (eHSI), затем извлекается семантическая информация из файла XML. Затем эта информация используется для формирования семантической карты полости рта, где каждое значение пикселя соответствует конкретной аннотированной категории, такой как разные типы тканей или анатомические участки. Итоговая семантическая карта предоставляет подробную покомпиксельную аннотацию кадра, готовую к применению в алгоритмах сегментации.

Статистический анализ набора данныхДля первичной оценки спектральных данных в качестве статистической меры использовался коэффициент вариации (CV).

Коэффициент вариации — это стандартизированная мера рассеивания вероятностного распределения или частотного распределения. Он определяет отношение стандартного отклонения (SD) к среднему значению, выраженное в процентах.

В контексте ГСВ (гиперспектральной визуализации) этот показатель особенно полезен, поскольку позволяет:

·         сравнивать вариабельность между различными классами;
·         сопоставлять вариабельность между разными спектральными диапазонами — даже при различающихся средних значениях интенсивности.
Формула для расчёта коэффициента вариации:

CV=(μσ​)×100%,

где:

·         CV — коэффициент вариации;
·         σ — стандартное отклонение (SD);
·         μ — среднее значение.
Методы машинного обучения и глубокого обучения### Машинное Обучение и Глубокое Обучение

В рамках настоящего исследования были применены несколько новейших моделей, оценивающих выполнение семантической сегментации в контексте диагностики состояния здоровья полости рта. Использовались такие модели, как DeepLabv3 [38-40], полностью свёрточная сеть (Fully Convolutional Network, FCN [41]) и пирамидальная сцена парсинга сети (Pyramid Scene Parsing Network, PSPNet [42]). Каждая из моделей тестировалась с сетевыми структурами (backbone) ResNet-50 и ResNet-101 [43]. Помимо этого, рассматривался PSPNet с использованием архитектуры VGG16 [44] и U-Net [45] с моделями как EfficientNet-B0 [46], так и ResNet-50. Каждая модель была настроена на обработку нашего набора данных, содержащего сложные анатомические структуры, что позволило провести всесторонний анализ пригодности каждой модели для обработки разнообразия, характерного для эндоскопических HSI-данных, используемых в диагностике болезней полости рта. Модели проходили обучение в течение 50 эпох на 70% комплексной аннотированной эндоскопической HSI-структуры полости рта, предназначенного для тестирования, оставшаяся же 30% использовалась исключительно для оценки. Такое разделение позволило детально оценить способности моделей обобщать данные, которые ранее не встречались.

Производительность каждой модели на эндоскопических HSI-данных оценивалась с использованием метрик точности (Precision), полноты (Recall) и показателя F1, что обеспечило комплексное представление об их эффективности в сегментировании и классификации различных анатомических структур, представленных в наборе данных.

Этические соображения

Исследование было одобрено местным этическим комитетом земли Рейнланд-Пфальц (регистрационный номер: 2021-16158) и проведено в строгом соответствии с протоколом и принципами морали, этики и науки, регулирующими проведение клинических исследований, изложенных в Хельсинкской декларации 1975 года с поправками 1983 года. От всех участников было получено информированное согласие на участие в исследовании. Данное исследование также прошло утверждение Этическим Комитетом Медицинской ассоциации Рейнланд-Пфальца (номер регистрации 2021-15858). Все процедуры соответствовали институциональным и национальным стандартам этики и были проведены в полном соответствии с положениями Хельсинкской декларации. Участникам была предоставлена полная информация о природе исследования, его целях, процедурах, порядке использования данных и возможном опубликовании обезличенных изображений или сведений, относящихся к их участию.

Конфиденциальность и приватность всех участников неукоснительно защищались. Никакая идентификационная информация, такая как имена или больничные номера, не включена в рукопись. Изображения, содержащие идентифицируемые признаки, были исключены, кроме рисунка 1, на котором изображён соответствующий автор (PR), предоставивший письменное согласие на использование своего изображения в публикации. Ни финансовое, ни материальное вознаграждение участникам данного исследования не предлагалось и не выплачивалось.

Результаты

Вариабельность набора данных

Проведен статистический анализ гиперспектрального набора данных для описания распределения и вариабельности данных. Средние значения и стандартные отклонения по спектральным полосам были проанализированы для каждого класса, выделенного на гиперспектральных изображениях. Целью статистического анализа данных было точное представление центральных тенденций и вариаций спектральных признаков, являющихся индикаторами различных анатомических и патологических состояний в здоровье полости рта. Средние значения и стандартные отклонения для всех классов по всем спектральным полосам представлены в сводной диаграмме (рисунок 3).

Полученные результаты показали, что коэффициент вариации (CV) для большинства классов по большинству спектральных полос значительно превышает общепризнанный порог в 15%, который обычно считается высоким уровнем вариабельности. Напротив, значение коэффициента ниже 5% свидетельствует о гомогенности данных, а значения от 5% до 15% указывают на умеренную равномерность. Следовательно, стабильно высокие значения CV по всем классам подчёркивают значительную спектральную вариацию внутри каждого класса (рисунок 4).
Рисунок 3. Сводная диаграмма средних значений и стандартных отклонений для каждого класса по всем измеренным спектральным диапазонам.
Рисунок 4. Коэффициент вариации в соответствующем диапазоне волн для различных классов обследований. CV — коэффициент вариации.
### Производительность моделей глубокого обучения

Модель DeepLabv3 с каркасом ResNet-50 показала устойчивую общую производительность с показателем F1 равным 0,855, особенно успешна в сегментации слизистой оболочки, ретрактора и зубов. Однако её производительность была средней для дёсен и губ, с показателями F1 равными 0,753 и 0,709 соответственно. Переход на более глубокий каркас ResNet-101 немного повысил общую производительность до уровня F1 = 0,857, особенно улучшая способность модели сегментировать хаотичные объекты и десны (таблица 1).

Модели FCN-ResNet-50 и FCN-ResNet-101 продемонстрировали надёжную производительность сегментации, достигнув общих показателей F1 равных 0,862 и 0,861 соответственно (таблица 2). Они отлично проявились в сегментации ретрактора (F1 = 0,942 для обеих моделей), зубов (F1 = 0,910), нёба (F1 = 0,890) и слизистой оболочки (F1 ≥ 0,912). Однако губы и десны оказались трудными объектами для обоих каркасов, демонстрируя низкие показатели F1 около 0,72 и 0,77 соответственно. Хотя переход на более глубокий каркас ResNet-101 привёл к незначительным улучшениям некоторых классов, общая производительность осталась схожей между обеими архитектурами.

Модели PSPNet показали чуть меньшую производительность, с каркасом ResNet-50 достигая показателя F1 равного 0,837, а моделью VGG16 – 0,808. Несмотря на то, что эти модели достаточно уверенно справляются с классами вроде ретрактора и зубов, они столкнулись с затруднениями при сегментации десен и губ, особенно при использовании каркаса VGG16. Более низкая общая производительность PSPNet-VGG16 по сравнению с ResNet-50 отражает влияние выбранного каркаса на итоговую сегментацию (таблица 3).

Модели U-Net (EfficientNet-B0) и U-Net (ResNet-50) также продемонстрировали хорошие результаты сегментации, достигнув общего показателя F1 равного 0,867 и 0,840 соответственно (таблица 4). Они особенно хорошо зарекомендовали себя в сегментации ретрактора (F1 = 0,941 против 0,927), нёба (F1 = 0,909 против 0,881) и слизистой оболочки (F1 = 0,920 против 0,901). Язык и зубы также сегментировались успешно, с показателями F1 превышающими 0,85 для обеих моделей. Однако обе сети испытывали проблемы с сегментированием губ (F1 = 0,755 против 0,695) и десен (F1 = 0,751 против 0,721), что указывает на возможные направления дальнейшей оптимизации именно для этих классов.

Рисунок 5 показывает, что модели DeepLabv3 (ResNet-101) и U-Net (EfficientNet-B0) превосходят остальные модели по большинству классов тканей, однако неизменно наблюдается более низкий показатель F1 для сегментов губ и десен.

Таблица 1. Результаты, показывающие точность, полноту и показатель F1 для различных классов при сравнении моделей DeepLabv3 ResNet-50 и DeepLabv3 ResNet-101.
Таблица 2. Результаты, демонстрирующие точность (precision), полноту (recall) и оценку F1 для различных классов при сравнении моделей FCN-ResNet-50 и FCN-ResNet-101.
Примечание:

FCN (Fully Convolutional Network) — полностью свёрточная нейронная сеть.

Таблица 3. Результаты, демонстрирующие точность (precision), полноту (recall) и оценку F1 для различных классов при сравнении моделей PSPNet-ResNet-50 и PSPNet-VGG16.
Примечание:

PSPNet (pyramid scene parsing network) — нейронная сеть для парсинга сцен с использованием пирамидальной структуры.

Таблица 4. Результаты, демонстрирующие точность (precision), полноту (recall) и оценку F1 для различных классов при сравнении моделей U-Net-EfficientNet-B0 и U-Net-ResNet-50.
Рисунок 5. Радарная диаграмма (spider plot), иллюстрирующая показатели оценки F1 для разных классов при использовании различных моделей глубокого обучения для сегментации тканей полости рта.
Согласованность между аннотаторами (Interannotator Agreement)

Анализ аннотаций сегментации выявил общую точность пикселей на уровне 80,84%, что указывает на высокий уровень согласованности между аннотаторами.

Коэффициент Кохена, более надежный показатель согласованности между аннотаторами, составил 77,56% при включении класса фона, что свидетельствует о существенном согласии. При исключении фона коэффициент Кохена увеличился до 82,91%, что подчеркивает еще более сильное согласие при сегментации переднего плана. Коэффициенты Dice по классам варьировались от почти нулевых значений (в классах с минимальным или непоследовательным маркировкой) до 93% в хорошо определенных классах, где совпадение между аннотациями было почти идеальным. Поскольку коэффициент Dice измеряет пространственное совпадение между масками сегментации, высокие значения коэффициента Dice (выше 90%) указывают на отличное согласие, в то время как более низкие значения предполагают потенциальную неоднозначность или недооценку определенных структур.

Обсуждение

Основные результаты и сравнение с предыдущими работами

Целью данного исследования было создание цифровой карты полости рта с использованием эндоскопической гиперспектральной визуализации (HSI) в сочетании с передовыми методами машинного обучения и, таким образом, разработка комплексного эндоскопического HSI-набора данных. Этот подход был направлен на обеспечение надежной и автоматизированной дифференциации различных типов тканей и объектов на основе спектральных данных, полученных с помощью эндоскопической HSI-системы. Несмотря на постоянный интерес к более быстрым и минимально инвазивным диагностическим методам, такие методы, как щеточная биопсия и in vivo-флуоресцентные процедуры, столкнулись с трудностями в установлении себя в качестве надежных альтернатив из-за их сравнительно более низкой чувствительности и специфичности [2,4,5,9].

Современные методы, такие как эндоскопическая HSI, представляют собой передовой и инновационный подход в области автоматизированной классификации изображений и тканей. В наших предварительных ex vivo исследованиях мы уже продемонстрировали, что HSI способна различать различные типы тканей и их состояния на основе специфических паттернов длин волн [20,47]. Однако для эффективной дифференциации между патологическими и здоровыми тканями in vivo необходим значительный набор гиперспектральных сигнатур здоровых тканей [47].

Исследование представляет собой обширную коллекцию из 1 130 751
эндоскопических гиперспектральных кубов здоровой слизистой оболочки полости рта, полученных in vivo с различных углов, что создает репрезентативную цифровую карту, включающую соответствующие ткани и объекты полости рта. Этот набор данных формирует репрезентативную цифровую эндоскопическую HSI-карту, охватывающую соответствующие ткани и структуры полости рта. Установив надежную основу для здоровых тканей, этот набор данных закладывает основу для развития диагностики на основе HSI, особенно в области выявления предопухолевых и злокачественных поражений слизистой оболочки и точного определения границ резекции опухолей.

Результаты показали повышенные значения коэффициента вариации (CV) для большинства классов, что указывает на значительную спектральную вариабельность в эндоскопических HSI-данных. Эта высокая вариабельность создает трудности для методов классификации на основе пороговых значений, так как внутриклассовая вариация может привести к перекрытию классов. Однако эта вариабельность также содержит ценную информацию, которая, при использовании передовыми вычислительными моделями, может повысить точность классификации тканей и обнаружения патологических аномалий.

Для решения этой сложности в исследовании были оценены несколько передовых моделей сегментации, включая DeepLabv3, FCN, PSPNet и U-Net, с различными каркасами, такими как ResNet-50, ResNet-101, VGG16 и EfficientNet-B0. Эти архитектуры были выбраны за их эффективность в семантической сегментации, балансируя способность к извлечению признаков, вычислительную эффективность и распознавание глобального контекста. DeepLabv3 был выбран за его способность обрабатывать вариабельность масштаба и захватывать мелкие детали, в то время как FCN служил сильным базовым вариантом благодаря своей основополагающей роли в сегментации изображений. PSPNet был включен за его сильные возможности в захвате глобального контекста, что критически важно для распознавания сложных структур в медицинской визуализации. U-Net, широко используемый в медицинской визуализации, был выбран за его способность достигать точной сегментации даже при ограниченных данных.

Выбор базовых архитектур (backbones) определялся их ключевыми преимуществами. ResNet-50 и ResNet-101 были выбраны за их надежную способность к извлечению признаков, VGG16 — за простоту и высокое разрешение деталей, а EfficientNet-B0 — за оптимизированную архитектуру, которая балансирует производительность и вычислительную эффективность. Включив модели с различной глубиной и сложностью параметров, это исследование обеспечивает всестороннюю оценку производительности сегментации, сохраняя при этом акцент на эффективном времени обучения и вывода. Интеграция модели DeepLabv3 с каркасом ResNet-50, а также с ResNet-101, предлагает надежный подход к семантической сегментации для интерпретации эндоскопических HSI-данных. Основное изменение, внесенное во все модели, включая DeepLabv3, FCN, PSPNet и U-Net (с каркасами, такими как ResNet-50, ResNet-101, EfficientNet-B0 и VGG16), заключалось в адаптации первого свёрточного слоя для обработки переменного числа каналов в наборе данных. Это изменение было необходимо для учета многомерных спектральных данных HSI-наборов данных, в отличие от стандартного изображения с тремя каналами RGB. Это изменение позволяет моделям использовать уникальную спектральную информацию в кубах данных HSI за пределами видимого спектра. Несмотря на эти изменения, архитектуры глубокого остаточного обучения ResNet-50 и ResNet-101 сохраняют свою способность извлекать высокоуровневые признаки — важный аспект анализа данных HSI [43]. Эти базовые архитектуры особенно эффективны в выявлении тонких спектральных закономерностей, критически важных для точного обнаружения и классификации заболеваний. Используя свёрточные операции с расширением и пространственное пирамидальное объединение с расширением, модель DeepLabv3 эффективно захватывает информацию на разных масштабах [48]. Эта способность способствует точной сегментации изображений, что является ключевой особенностью для диагностики заболеваний полости рта с тонкими и перекрывающимися визуальными признаками. Аналогичным образом, FCN и PSPNet, с их надежными архитектурами, и U-Net, признанный за свою эффективность в медицинской визуализации, также извлекли выгоду из способности обрабатывать и интерпретировать многомерные спектральные данные.

Процедура эндоскопической HSI, реализованная в данном исследовании, достигает результатов, сопоставимых с теми, которые были получены в предварительных ex vivo испытаниях HSI, проведенных нашей исследовательской группой в 2021 году [47]. В этом исследовании, используя аналогичный подход с легкой нейронной сетью с шестью слоями, содержащей 10 445 параметров и обученной в течение 4000 эпох, образцы тканей жира, мышц и слизистой оболочки полости рта могли быть дифференцированы с общей точностью классов более 80%. Аналогичным образом, в исследовании Ма и др. ткани различных органов, включая почки, печень, легкие, мышцы, слюнные железы и селезенку, были идентифицированы с использованием автоматизированной поляризованной HSI с точностью до 87% [49]. Кроме того, глубокая свёрточная нейронная сеть, разработанная Пункузхали и др. [50], могла точно идентифицировать ткани мозга с точностью F1-показателя 97,3% с использованием HSI в недавнем исследовании, проведенном в 2023 году. В отличие от предыдущих исследований, которые были сосредоточены на ex vivo образцах тканей и специфических для органов данных HSI [47], настоящая работа представляет первый крупномасштабный in vivo аннотированный эндоскопический HSI-набор данных полости рта, полученный в реальных клинических условиях. В то время как предыдущие исследования продемонстрировали техническую возможность дифференциации тканей на основе HSI, эти подходы часто не учитывали анатомическую сложность, семантические аннотации и клиническую вариабельность. Настоящее исследование устраняет эти недостатки, предоставляя большой аннотированный in vivo HSI-набор данных и оценивая несколько моделей глубокого обучения, специально адаптированных для анализа данных HSI. Это создает основу для клинически применимой сегментации тканей полости рта и открывает путь для будущих исследований, связанных с патологическими поражениями.

Эти результаты подтверждают, что HSI, при интеграции с соответствующими методами, может служить надежным инструментом для дифференциации различных тканей как в in vivo, так и в ex vivo условиях. В онкологической хирургии быстрая, надежная и минимально инвазивная диагностика патологических состояний тканей имеет первостепенное значение. Многочисленные исследования в этой области показали, что HSI может надежно различать опухолевую и здоровую ткани путем анализа гистопатологических срезов и их пространственно-спектральных характеристик. Кроме того, сочетание HSI и глубокого обучения показало превосходные результаты по сравнению с использованием изображений RGB и традиционных методов машин опорных векторов   (SVM) [51-56].

В данном исследовании установленный подход на основе глубокого обучения и нейронных сетей позволил точно идентифицировать различные типы слизистой оболочки полости рта с общей точностью около 91%. Модели DeepLabv3 (ResNet-101) и U-Net (EfficientNet-B0) показали наилучшие результаты, демонстрируя надежную сегментацию ключевых анатомических классов. Хотя все модели могли бы выиграть от дальнейшего улучшения в сегментации десен и губ, их последовательная точность в идентификации ретракторов и зубов подчеркивает силу набора данных. Хотя не существует универсально признанного порога для клинической применимости, показатели F1 выше 0,85 обычно считаются многообещающими в аналогичных задачах биомедицинской визуализации.

Показатели в этом диапазоне предполагают, что метод может уже достигать уровня точности, релевантного для принятия клинических решений, хотя для этого потребуется дополнительная проверка в реальных условиях. Стоит отметить, что U-Net (EfficientNet-B0) продемонстрировал исключительную сегментацию ретракторов, слизистой оболочки и зубов, что указывает на его сильный потенциал для применения в сегментации медицинских изображений. Результаты показывают пригодность набора данных для обучения передовых нейронных сетей, особенно в сложных задачах медицинской сегментации.

Ограничения нашего исследования включают сбор большего объема данных, который сильно зависел от количества пациентов в клинике, проводившей исследование. Это представляет собой серьезную проблему, особенно при стремлении задокументировать различные поражения слизистой оболочки полости рта и предопухолевые состояния. Для решения проблемы нехватки данных сырые данные, полученные в ходе этого исследования, будут сделаны общедоступными. Эта инициатива направлена на предоставление другим исследовательским группам возможности использовать и развивать набор данных для дальнейших исследований. Кроме того, хотя состав участников исследования был намеренно разработан для включения широкого спектра пациентов из университетской амбулаторной клиники, полностью исключить селекционную предвзятость невозможно. Поскольку набор участников был ограничен одной университетской клиникой, он может не полностью отражать демографическую и клиническую вариабельность, наблюдаемую в первичной медицинской помощи или в общей популяции. Другие ограничения включают изменяющиеся условия освещения, артефакты движения и спектральные перекрытия, а также переэкспонирование и недоэкспонирование. Переэкспонирование может возникать по различным причинам, таким как вариабельность анатомии пациента, движение во время захвата изображения или колебания условий освещения в операционной.

Хотя переэкспонированные изображения обычно считаются артефактами и исключаются из наборов данных, наш подход включает их, признавая, что такие случаи являются неотъемлемой частью клинической практики. Понимая, что эти случаи представляют как вызовы, так и возможности для передовых методов обработки изображений, мы тщательно индексировали переэкспонированные изображения для дальнейшего анализа. Этот подход повышает устойчивость и адаптивность моделей, обученных на этом наборе данных, обеспечивая их эффективную работу в реальных клинических условиях. Включая переэкспонированные изображения, модели лучше подготовлены к обработке полного спектра вариабельности данных, включая распространенные факторы окружающей среды. Это сочетание подчеркивает значительный потенциал данных эндоскопической HSI для значительного повышения точности и надежности в обнаружении и категоризации здоровых и патологических состояний полости рта. Это объединение не только открывает путь к значительным достижениям в методах диагностики, но и обладает потенциалом для существенного улучшения ухода за пациентами.

В настоящее время планируется внешняя валидация как часть будущих работ, особенно для сегментации слизистой оболочки. Мы намерены проверить нашу модель на ex vivo наборе данных, который включает образцы слизистой оболочки, полученные в различных условиях захвата. На данном этапе фокус этого исследования был сосредоточен на первоначальной валидации на внутреннем наборе данных.

Соответствующие последующие исследования в настоящее время находятся в стадии подготовки и будут включать HSI патологических состояний тканей, таких как поражения слизистой оболочки полости рта и неопластические изменения, для оценки переносимости и диагностической надежности предложенных моделей в клинически значимых сценариях. Обеспечивая раннее обнаружение и более точную характеристику состояний здоровья полости рта, этот подход способствует разработке более эффективных стратегий лечения, что в конечном итоге приводит к улучшению результатов лечения пациентов и повышению стандартов ухода.

Заключение

В данном исследовании представлен первый крупномасштабный in vivo аннотированный набор данных полости рта, полученный с использованием эндоскопической гиперспектральной визуализации (HSI) в реальных клинических условиях. Путем объединения гиперспектральных наборов данных и сегментации на основе глубокого обучения (DL) удалось продемонстрировать возможность автоматизированной неинвазивной классификации тканей по важным
анатомическим структурам полости рта. Сравнительный анализ выявил DeepLabv3 и U-Net как надежные архитектуры для классификации тканей полости рта. Комплексный набор данных, таким образом, предоставляет достаточную основу для будущих исследований в области обнаружения патологических тканей, оценки границ резекции в онкологии и ранней индивидуальной диагностики в стоматологии.

БлагодарностиРезультаты настоящего исследования являются частью докторской диссертации соавтора и аспирантки Университета Майнца Катарины Клостер (Katharina Kloster) и в связи с этим будут обнародованы в рамках защиты диссертации.

Исследование финансировалось Немецким исследовательским фондом (Deutsche Forschungsgemeinschaft, DFG — German Research Foundation) в рамках проекта № 516210826.

Доступность данныхВсе исходные данные, на которых основано это исследование, будут предоставлены соответствующим автором по запросу. Наборы данных, использованные и/или проанализированные в ходе настоящего исследования, доступны от соответствующего автора при обоснованном запросе.

Вклад авторов
·         Концептуализация исследования: DT, JJP, PR.
·         Разработка методологии: DT, JJP, BP, PR, KK, TK.
·         Валидация: DT, JJP, BP, PR.
·         Формальный анализ: DT, PWK, JJP, BP, PR, TK.
·         Проведение исследования: DT, BP, KK, JJP.
·         Предоставление ресурсов: DT, JJP, TK, BAN.
·         Курирование данных: DT, KK, PR, JJP.
·         Подготовка первоначального варианта текста: DT, JJP, PR, SV.
·         Рецензирование и редактирование рукописи: DT, JJP, BP, SV, PWK, TK, BAN.
·         Визуализация: DT, JJP, PR.
·         Научное руководство: DT, JJP, PR, TK.
·         Управление проектом: DT, JJP, PR, TK.

Конфликт интересовНе заявлен.
Ссылки

  1. Chen S, Forman M, Sadow PM, August M. The diagnostic accuracy of incisional biopsy in the oral cavity. J Oral Maxillofac Surg. May 2016;74(5):959-964. [CrossRef] [Medline]
  2. Pentenero M, Carrozzo M, Pagano M, et al. Oral mucosal dysplastic lesions and early squamous cell carcinomas: underdiagnosis from incisional biopsy. Oral Dis. Mar 2003;9(2):68-72. [CrossRef] [Medline]
  3. Macey R, Walsh T, Brocklehurst P, et al. Diagnostic tests for oral cancer and potentially malignant disorders in patients presenting with clinically evident lesions. Cochrane Database Syst Rev. May 29, 2015;2015(5):CD010276. [CrossRef] [Medline]
  4. Rashid A, Warnakulasuriya S. The use of light-based (optical) detection systems as adjuncts in the detection of oral cancer and oral potentially malignant disorders: a systematic review. J Oral Pathol Med. May 2015;44(5):307-328. [CrossRef] [Medline]
  5. Kämmerer PW, Rahimi-Nedjat RK, Ziebart T, et al. A chemiluminescent light system in combination with toluidine blue to assess suspicious oral lesions-clinical evaluation and review of the literature. Clin Oral Investig. Mar 2015;19(2):459-466. [CrossRef] [Medline]
  6. Bray F, Ferlay J, Soerjomataram I, Siegel RL, Torre LA, Jemal A. Global cancer statistics 2018: GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries. CA Cancer J Clin. Nov 2018;68(6):394-424. [CrossRef] [Medline]
  7. Panarese I, Aquino G, Ronchi A, et al. Oral and Oropharyngeal squamous cell carcinoma: prognostic and predictive parameters in the etiopathogenetic route. Expert Rev Anticancer Ther. Feb 2019;19(2):105-119. [CrossRef] [Medline]
  8. Barsouk A, Aluru JS, Rawla P, Saginala K, Barsouk A. Epidemiology, risk factors, and prevention of head and neck squamous cell carcinoma. Med Sci (Basel). Jun 13, 2023;11(2):42. [CrossRef] [Medline]
  9. Brocklehurst P, Kujan O, O’Malley LA, Ogden G, Shepherd S, Glenny AM. Screening programmes for the early detection and prevention of oral cancer. Cochrane Database Syst Rev. Nov 19, 2013;2013(11):CD004150. [CrossRef] [Medline]
  10. Sankaranarayanan R, Ramadas K, Thomas G, et al. Effect of screening on oral cancer mortality in Kerala, India: a cluster-randomised controlled trial. Lancet. 2005;365(9475):1927-1933. [CrossRef] [Medline]
  11. Sankaranarayanan R, Ramadas K, Thara S, et al. Long term effect of visual screening on oral cancer incidence and mortality in a randomized trial in Kerala, India. Oral Oncol. Apr 2013;49(4):314-321. [CrossRef] [Medline]
  12. Halicek M, Fabelo H, Ortega S, Callico GM, Fei B. In-vivo and ex-vivo tissue analysis through hyperspectral imaging techniques: revealing the invisible features of cancer. Cancers (Basel). May 30, 2019;11(6):31151223. [CrossRef] [Medline]
  13. Ishida T, Kurihara J, Viray FA, et al. A novel approach for vegetation classification using UAV-based hyperspectral imaging. Comput Electron Agric. Jan 2018;144:80-85. [CrossRef]
  14. Miljković V, Gajski D. Adaptation of industrial hyperspectral line scanner for archaeological applications. Int Arch Photogramm Remote Sens Spatial Inf Sci. XLI-B5:343-345. [CrossRef]
  15. Pavurala N, Xu X, Krishnaiah YSR. Hyperspectral imaging using near infrared spectroscopy to monitor coat thickness uniformity in the manufacture of a transdermal drug delivery system. Int J Pharm. May 15, 2017;523(1):281-290. [CrossRef] [Medline]
  16. Fernández de la Ossa MÁ, Amigo JM, García-Ruiz C. Detection of residues from explosive manipulation by near infrared hyperspectral imaging: a promising forensic tool. Forensic Sci Int. Sep 2014;242:228-235. [CrossRef] [Medline]
  17. Sakarya U, Teke M, Demirkesen C, et al. A short survey of hyperspectral remote sensing and hyperspectral remote sensing research at tübıtak uzay. Presented at: 2015 7th International Conference on Recent Advances in Space Technologies (RAST); Jun 16-19, 2015:187-192; Istanbul, Turkey. [CrossRef]
  18. Qin J, Kim M, Chao K, Chan D, Delwiche S, Cho BK. Line-scan hyperspectral imaging techniques for food safety and quality applications. Appl Sci (Basel). 2017;7(2):125. [CrossRef]
  19. Lu G, Fei B. Medical hyperspectral imaging: a review. J Biomed Opt. Jan 2014;19(1):10901. [CrossRef] [Medline]
  20. Römer P, Blatt S, Siegberg F, et al. Intraoral perfusion assessment using endoscopic hyperspectral imaging (EHSI)- first description of a novel approach. Clin Oral Investig. Feb 5, 2025;29(2):115. [CrossRef] [Medline]
  21. Lu G, Wang D, Qin X, et al. Histopathology feature mining and association with hyperspectral imaging for the detection of squamous neoplasia. Sci Rep. Nov 28, 2019;9(1):17863. [CrossRef] [Medline]
  22. Ortega S, Halicek M, Fabelo H, Callico GM, Fei B. Hyperspectral and multispectral imaging in digital and computational pathology: a systematic review [Invited]. Biomed Opt Express. Jun 1, 2020;11(6):3195-3233. [CrossRef] [Medline]
  23. Bhargava R, Falahkheirkhah K. Enhancing hyperspectral imaging. Nat Mach Intell. 2021;3(4):279-280. [CrossRef]
  24. Cui R, Yu H, Xu T, et al. Deep learning in medical hyperspectral images: a review. Sensors (Basel). Dec 13, 2022;22(24):9790. [CrossRef] [Medline]
  25. Madooei A, Abdlaty RM, Doerwald-Munoz L, et al. Hyperspectral image processing for detection and grading of skin erythema. 2017. Presented at: SPIE Medical Imaging; Feb 11-16, 2017:1013322; Orlando, Florida, United States. [CrossRef]
  26. Krizhevsky A, Sutskever I, Hinton GE. ImageNet classification with deep convolutional neural networks. Commun ACM. May 24, 2017;60(6):84-90. [CrossRef]
  27. Li W. Cell classification using convolutional neural networks in medical hyperspectral imagery. Presented at: 2017 2nd International Conference on Image, Vision and Computing (ICIVC); Jun 2-4, 2017:501-504; Chengdu, China. [CrossRef]
  28. Jeyaraj PR, Samuel Nadar ER. Computer-assisted medical image classification for early diagnosis of oral cancer employing deep learning algorithm. J Cancer Res Clin Oncol. Apr 2019;145(4):829-837. [CrossRef] [Medline]
  29. Gangadharan SMP, Dharani M, Thapliyal N, Yamsani N, Singh J, Singh P. Comparative analysis of deep learning-based brain tumor prediction models using MRI scan. In: Singh P, editor. Presented at: 2023 3rd International Conference on Innovative Sustainable Computational Technologies (CISCT); Sep 8-9, 2023:1-6; Dehradun, India. [CrossRef]
  30. Diwakar M, Singh P, Garg D. Edge-guided filtering based CT image denoising using fractional order total variation. Biomed Signal Process Control. Jun 2024;92:106072. [CrossRef]
  31. Diwakar M, Kumar P, Singh P, Tripathi A, Singh L. An efficient reversible data hiding using SVD over a novel weighted iterative anisotropic total variation based denoised medical images. Biomed Signal Process Control. Apr 2023;82:104563. [CrossRef]
  32. Diwakar M, Pandey NK, Singh R, et al. Low-dose COVID-19 CT Image Denoising Using CNN and its Method Noise Thresholding. Curr Med Imaging. 2023;19(2):182-193. [CrossRef] [Medline]
  33. Agrawal T, Choudhary P, Shankar A, Singh P, Diwakar M. MultiFeNet: multi-scale feature scaling in deep neural network for the brain tumour classification in MRI images. Int J Imaging Syst Technol. 2024;34(1):e22956. [CrossRef]
  34. Sicher C, Rutkowski R, Lutze S, et al. Hyperspectral imaging as a possible tool for visualization of changes in hemoglobin oxygenation in patients with deficient hemodynamics - proof of concept. Biomed Tech (Berl). Oct 25, 2018;63(5):609-616. [CrossRef] [Medline]
  35. Yudovsky D, Nouvong A, Pilon L. Hyperspectral imaging in diabetic foot wound care. J Diabetes Sci Technol. Sep 1, 2010;4(5):1099-1113. [CrossRef] [Medline]
  36. Ponciano C, Schaffert M, Ponciano JJ. Deep learning datasets challenges for semantic segmentation-a survey. Presented at: P337 - INFORMATIK 2023 - Designing Futures: Shaping the Future; Sep 26-29, 2023:57-70; Berlin, Germany. [CrossRef]
  37. Gupta P, Bagchi A. Essentials of Python for Artificial Intelligence and Machine Learning. 2024. ISBN: 3031437241
  38. Lu H, Cai J. Artificial intelligence and robotics. In: 8th International Symposium, ISAIR 2023. Vol 15. Springer; 2024:535. URL: https://link.springer.com/10.1007/978-981-99-9109-9 [CrossRef]
  39. Chen LC. Rethinking atrous convolution for semantic image segmentation. arXiv. Preprint posted online on Sep 5, 2017. [CrossRef]
  40. Chen LC, Zhu Y, Papandreou G, Schroff F, editors. Encoder-decoder with atrous separable convolution for semantic image segmentation. In: Proceedings of the European Conference on Computer Vision (ECCV. Vol 1121. Springer; 2018:833-851. [CrossRef]
  41. Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation. In: Long J, Shelhamer E, Darrell T, editors. Presented at: Proceedings of the IEEE conference on computer vision and pattern recognition; Jun 7-12, 2015:3431-3440; Boston, MA, USA. [CrossRef]
  42. Zhao H, Shi J, Qi X, Wang X, Jia J. Pyramid scene parsing network. In: Jia J, editor. Presented at: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR); Jul 21-26, 2017:6230-6239; Honolulu, HI. [CrossRef]
  43. He K, Zhang X, Ren S, Sun J. Deep residual learning for image recognition. In: Sun J, editor. Presented at: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR); Jun 27-30, 2016:770-778; Las Vegas, NV, USA. [CrossRef]
  44. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition. arXiv. Preprint posted online on Apr 10, 2015. [CrossRef]
  45. Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation. medical image computing and computer-assisted intervention–MICCAI 2015. In: Navab N, Hornegger J, Wells W, Frangi A, editors. Medical Image Computing and Computer-Assisted Intervention – MICCAI 2015. Vol 9351. Springer; 2015:234-241. [CrossRef]
  46. Tan M, Le Q. Efficientnet: rethinking model scaling for convolutional neural networks. Presented at: Proceedings of the 36th International Conference on Machine Learning; Jun 9-15, 2019:6105-6114; Long Beach, CA. URL: https://proceedings.mlr.press/v97/tan19a.html [Accessed 2025-09-03]
  47. Thiem DGE, Römer P, Gielisch M, et al. Hyperspectral imaging and artificial intelligence to detect oral malignancy - part 1 - automated tissue classification of oral muscle, fat and mucosa using a light-weight 6-layer deep neural network. Head Face Med. Sep 3, 2021;17(1):38. [CrossRef] [Medline]
  48. Chen LC, Papandreou G, Kokkinos I, Murphy K, Yuille AL. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRF. IEEE Trans Pattern Anal Mach Intell. Apr 2018;40(4):834-848. [CrossRef] [Medline]
  49. Ma L, Srinivas A, Krishnamurthy A, et al. Automated polarized hyperspectral imaging (PHSI) for ex-vivo and in-vivo tissue assessment. Jan 2023:123910F. [CrossRef] [Medline]
  50. Poonkuzhali P, Helen Prabha K. Deep convolutional neural network based hyperspectral brain tissue classification. J Xray Sci Technol. 2023;31(4):777-796. [CrossRef] [Medline]
  51. Hu B, Du J, Zhang Z, Wang Q. Tumor tissue classification based on micro-hyperspectral technology and deep learning. Biomed Opt Express. Dec 1, 2019;10(12):6370-6389. [CrossRef] [Medline]
  52. Ma L, Zhou X, Little JV, et al. Hyperspectral microscopic imaging for the detection of head and neck squamous cell carcinoma in histologic images. Proc SPIE Int Soc Opt Eng. Feb 2021;11603:35783088. [CrossRef] [Medline]
  53. Ma L, Lu G, Wang D, Qin X, Chen ZG, Fei B. Adaptive deep learning for head and neck cancer detection using hyperspectral imaging. Vis Comput Ind Biomed Art. 2019;2(1):18. [CrossRef] [Medline]
  54. Zhou X, Ma L, Mubarak HK, et al. Automatic detection of head and neck squamous cell carcinoma on pathologic slides using polarized hyperspectral imaging and deep learning. Proc SPIE Int Soc Opt Eng. 2022;12039:Feb-Mar. [CrossRef] [Medline]
  55. Eggert D, Bengs M, Westermann S, et al. In vivo detection of head and neck tumors by hyperspectral imaging combined with deep learning methods. J Biophotonics. Mar 2022;15(3):e202100167. [CrossRef] [Medline]
  56. Trajanovski S, Shan C, Weijtmans PJC, de Koning SGB, Ruers TJM. Tongue tumor detection in hyperspectral images using deep learning semantic segmentation. IEEE Trans Biomed Eng. Apr 2021;68(4):1330-1340. [CrossRef] [Medline]
03 декабря / 2025