Согласованность между аннотаторами (Interannotator Agreement)
Анализ аннотаций сегментации выявил общую точность пикселей на уровне 80,84%, что указывает на высокий уровень согласованности между аннотаторами.
Коэффициент Кохена, более надежный показатель согласованности между аннотаторами, составил 77,56% при включении класса фона, что свидетельствует о существенном согласии. При исключении фона коэффициент Кохена увеличился до 82,91%, что подчеркивает еще более сильное согласие при сегментации переднего плана. Коэффициенты Dice по классам варьировались от почти нулевых значений (в классах с минимальным или непоследовательным маркировкой) до 93% в хорошо определенных классах, где совпадение между аннотациями было почти идеальным. Поскольку коэффициент Dice измеряет пространственное совпадение между масками сегментации, высокие значения коэффициента Dice (выше 90%) указывают на отличное согласие, в то время как более низкие значения предполагают потенциальную неоднозначность или недооценку определенных структур.
Обсуждение
Основные результаты и сравнение с предыдущими работами
Целью данного исследования было создание цифровой карты полости рта с использованием эндоскопической гиперспектральной визуализации (HSI) в сочетании с передовыми методами машинного обучения и, таким образом, разработка комплексного эндоскопического HSI-набора данных. Этот подход был направлен на обеспечение надежной и автоматизированной дифференциации различных типов тканей и объектов на основе спектральных данных, полученных с помощью эндоскопической HSI-системы. Несмотря на постоянный интерес к более быстрым и минимально инвазивным диагностическим методам, такие методы, как щеточная биопсия и in vivo-флуоресцентные процедуры, столкнулись с трудностями в установлении себя в качестве надежных альтернатив из-за их сравнительно более низкой чувствительности и специфичности [2,4,5,9].
Современные методы, такие как эндоскопическая HSI, представляют собой передовой и инновационный подход в области автоматизированной классификации изображений и тканей. В наших предварительных ex vivo исследованиях мы уже продемонстрировали, что HSI способна различать различные типы тканей и их состояния на основе специфических паттернов длин волн [20,47]. Однако для эффективной дифференциации между патологическими и здоровыми тканями in vivo необходим значительный набор гиперспектральных сигнатур здоровых тканей [47].
Исследование представляет собой обширную коллекцию из 1 130 751
эндоскопических гиперспектральных кубов здоровой слизистой оболочки полости рта, полученных in vivo с различных углов, что создает репрезентативную цифровую карту, включающую соответствующие ткани и объекты полости рта. Этот набор данных формирует репрезентативную цифровую эндоскопическую HSI-карту, охватывающую соответствующие ткани и структуры полости рта. Установив надежную основу для здоровых тканей, этот набор данных закладывает основу для развития диагностики на основе HSI, особенно в области выявления предопухолевых и злокачественных поражений слизистой оболочки и точного определения границ резекции опухолей.
Результаты показали повышенные значения коэффициента вариации (CV) для большинства классов, что указывает на значительную спектральную вариабельность в эндоскопических HSI-данных. Эта высокая вариабельность создает трудности для методов классификации на основе пороговых значений, так как внутриклассовая вариация может привести к перекрытию классов. Однако эта вариабельность также содержит ценную информацию, которая, при использовании передовыми вычислительными моделями, может повысить точность классификации тканей и обнаружения патологических аномалий.
Для решения этой сложности в исследовании были оценены несколько передовых моделей сегментации, включая DeepLabv3, FCN, PSPNet и U-Net, с различными каркасами, такими как ResNet-50, ResNet-101, VGG16 и EfficientNet-B0. Эти архитектуры были выбраны за их эффективность в семантической сегментации, балансируя способность к извлечению признаков, вычислительную эффективность и распознавание глобального контекста. DeepLabv3 был выбран за его способность обрабатывать вариабельность масштаба и захватывать мелкие детали, в то время как FCN служил сильным базовым вариантом благодаря своей основополагающей роли в сегментации изображений. PSPNet был включен за его сильные возможности в захвате глобального контекста, что критически важно для распознавания сложных структур в медицинской визуализации. U-Net, широко используемый в медицинской визуализации, был выбран за его способность достигать точной сегментации даже при ограниченных данных.
Выбор базовых архитектур (backbones) определялся их ключевыми преимуществами. ResNet-50 и ResNet-101 были выбраны за их надежную способность к извлечению признаков, VGG16 — за простоту и высокое разрешение деталей, а EfficientNet-B0 — за оптимизированную архитектуру, которая балансирует производительность и вычислительную эффективность. Включив модели с различной глубиной и сложностью параметров, это исследование обеспечивает всестороннюю оценку производительности сегментации, сохраняя при этом акцент на эффективном времени обучения и вывода. Интеграция модели DeepLabv3 с каркасом ResNet-50, а также с ResNet-101, предлагает надежный подход к семантической сегментации для интерпретации эндоскопических HSI-данных. Основное изменение, внесенное во все модели, включая DeepLabv3, FCN, PSPNet и U-Net (с каркасами, такими как ResNet-50, ResNet-101, EfficientNet-B0 и VGG16), заключалось в адаптации первого свёрточного слоя для обработки переменного числа каналов в наборе данных. Это изменение было необходимо для учета многомерных спектральных данных HSI-наборов данных, в отличие от стандартного изображения с тремя каналами RGB. Это изменение позволяет моделям использовать уникальную спектральную информацию в кубах данных HSI за пределами видимого спектра. Несмотря на эти изменения, архитектуры глубокого остаточного обучения ResNet-50 и ResNet-101 сохраняют свою способность извлекать высокоуровневые признаки — важный аспект анализа данных HSI [43]. Эти базовые архитектуры особенно эффективны в выявлении тонких спектральных закономерностей, критически важных для точного обнаружения и классификации заболеваний. Используя свёрточные операции с расширением и пространственное пирамидальное объединение с расширением, модель DeepLabv3 эффективно захватывает информацию на разных масштабах [48]. Эта способность способствует точной сегментации изображений, что является ключевой особенностью для диагностики заболеваний полости рта с тонкими и перекрывающимися визуальными признаками. Аналогичным образом, FCN и PSPNet, с их надежными архитектурами, и U-Net, признанный за свою эффективность в медицинской визуализации, также извлекли выгоду из способности обрабатывать и интерпретировать многомерные спектральные данные.
Процедура эндоскопической HSI, реализованная в данном исследовании, достигает результатов, сопоставимых с теми, которые были получены в предварительных ex vivo испытаниях HSI, проведенных нашей исследовательской группой в 2021 году [47]. В этом исследовании, используя аналогичный подход с легкой нейронной сетью с шестью слоями, содержащей 10 445 параметров и обученной в течение 4000 эпох, образцы тканей жира, мышц и слизистой оболочки полости рта могли быть дифференцированы с общей точностью классов более 80%. Аналогичным образом, в исследовании Ма и др. ткани различных органов, включая почки, печень, легкие, мышцы, слюнные железы и селезенку, были идентифицированы с использованием автоматизированной поляризованной HSI с точностью до 87% [49]. Кроме того, глубокая свёрточная нейронная сеть, разработанная Пункузхали и др. [50], могла точно идентифицировать ткани мозга с точностью F1-показателя 97,3% с использованием HSI в недавнем исследовании, проведенном в 2023 году. В отличие от предыдущих исследований, которые были сосредоточены на ex vivo образцах тканей и специфических для органов данных HSI [47], настоящая работа представляет первый крупномасштабный in vivo аннотированный эндоскопический HSI-набор данных полости рта, полученный в реальных клинических условиях. В то время как предыдущие исследования продемонстрировали техническую возможность дифференциации тканей на основе HSI, эти подходы часто не учитывали анатомическую сложность, семантические аннотации и клиническую вариабельность. Настоящее исследование устраняет эти недостатки, предоставляя большой аннотированный in vivo HSI-набор данных и оценивая несколько моделей глубокого обучения, специально адаптированных для анализа данных HSI. Это создает основу для клинически применимой сегментации тканей полости рта и открывает путь для будущих исследований, связанных с патологическими поражениями.
Эти результаты подтверждают, что HSI, при интеграции с соответствующими методами, может служить надежным инструментом для дифференциации различных тканей как в in vivo, так и в ex vivo условиях. В онкологической хирургии быстрая, надежная и минимально инвазивная диагностика патологических состояний тканей имеет первостепенное значение. Многочисленные исследования в этой области показали, что HSI может надежно различать опухолевую и здоровую ткани путем анализа гистопатологических срезов и их пространственно-спектральных характеристик. Кроме того, сочетание HSI и глубокого обучения показало превосходные результаты по сравнению с использованием изображений RGB и традиционных методов машин опорных векторов (SVM) [51-56].
В данном исследовании установленный подход на основе глубокого обучения и нейронных сетей позволил точно идентифицировать различные типы слизистой оболочки полости рта с общей точностью около 91%. Модели DeepLabv3 (ResNet-101) и U-Net (EfficientNet-B0) показали наилучшие результаты, демонстрируя надежную сегментацию ключевых анатомических классов. Хотя все модели могли бы выиграть от дальнейшего улучшения в сегментации десен и губ, их последовательная точность в идентификации ретракторов и зубов подчеркивает силу набора данных. Хотя не существует универсально признанного порога для клинической применимости, показатели F1 выше 0,85 обычно считаются многообещающими в аналогичных задачах биомедицинской визуализации.
Показатели в этом диапазоне предполагают, что метод может уже достигать уровня точности, релевантного для принятия клинических решений, хотя для этого потребуется дополнительная проверка в реальных условиях. Стоит отметить, что U-Net (EfficientNet-B0) продемонстрировал исключительную сегментацию ретракторов, слизистой оболочки и зубов, что указывает на его сильный потенциал для применения в сегментации медицинских изображений. Результаты показывают пригодность набора данных для обучения передовых нейронных сетей, особенно в сложных задачах медицинской сегментации.
Ограничения нашего исследования включают сбор большего объема данных, который сильно зависел от количества пациентов в клинике, проводившей исследование. Это представляет собой серьезную проблему, особенно при стремлении задокументировать различные поражения слизистой оболочки полости рта и предопухолевые состояния. Для решения проблемы нехватки данных сырые данные, полученные в ходе этого исследования, будут сделаны общедоступными. Эта инициатива направлена на предоставление другим исследовательским группам возможности использовать и развивать набор данных для дальнейших исследований. Кроме того, хотя состав участников исследования был намеренно разработан для включения широкого спектра пациентов из университетской амбулаторной клиники, полностью исключить селекционную предвзятость невозможно. Поскольку набор участников был ограничен одной университетской клиникой, он может не полностью отражать демографическую и клиническую вариабельность, наблюдаемую в первичной медицинской помощи или в общей популяции. Другие ограничения включают изменяющиеся условия освещения, артефакты движения и спектральные перекрытия, а также переэкспонирование и недоэкспонирование. Переэкспонирование может возникать по различным причинам, таким как вариабельность анатомии пациента, движение во время захвата изображения или колебания условий освещения в операционной.
Хотя переэкспонированные изображения обычно считаются артефактами и исключаются из наборов данных, наш подход включает их, признавая, что такие случаи являются неотъемлемой частью клинической практики. Понимая, что эти случаи представляют как вызовы, так и возможности для передовых методов обработки изображений, мы тщательно индексировали переэкспонированные изображения для дальнейшего анализа. Этот подход повышает устойчивость и адаптивность моделей, обученных на этом наборе данных, обеспечивая их эффективную работу в реальных клинических условиях. Включая переэкспонированные изображения, модели лучше подготовлены к обработке полного спектра вариабельности данных, включая распространенные факторы окружающей среды. Это сочетание подчеркивает значительный потенциал данных эндоскопической HSI для значительного повышения точности и надежности в обнаружении и категоризации здоровых и патологических состояний полости рта. Это объединение не только открывает путь к значительным достижениям в методах диагностики, но и обладает потенциалом для существенного улучшения ухода за пациентами.
В настоящее время планируется внешняя валидация как часть будущих работ, особенно для сегментации слизистой оболочки. Мы намерены проверить нашу модель на ex vivo наборе данных, который включает образцы слизистой оболочки, полученные в различных условиях захвата. На данном этапе фокус этого исследования был сосредоточен на первоначальной валидации на внутреннем наборе данных.
Соответствующие последующие исследования в настоящее время находятся в стадии подготовки и будут включать HSI патологических состояний тканей, таких как поражения слизистой оболочки полости рта и неопластические изменения, для оценки переносимости и диагностической надежности предложенных моделей в клинически значимых сценариях. Обеспечивая раннее обнаружение и более точную характеристику состояний здоровья полости рта, этот подход способствует разработке более эффективных стратегий лечения, что в конечном итоге приводит к улучшению результатов лечения пациентов и повышению стандартов ухода.
Заключение
В данном исследовании представлен первый крупномасштабный in vivo аннотированный набор данных полости рта, полученный с использованием эндоскопической гиперспектральной визуализации (HSI) в реальных клинических условиях. Путем объединения гиперспектральных наборов данных и сегментации на основе глубокого обучения (DL) удалось продемонстрировать возможность автоматизированной неинвазивной классификации тканей по важным
анатомическим структурам полости рта. Сравнительный анализ выявил DeepLabv3 и U-Net как надежные архитектуры для классификации тканей полости рта. Комплексный набор данных, таким образом, предоставляет достаточную основу для будущих исследований в области обнаружения патологических тканей, оценки границ резекции в онкологии и ранней индивидуальной диагностики в стоматологии.
БлагодарностиРезультаты настоящего исследования являются частью докторской диссертации соавтора и аспирантки Университета Майнца Катарины Клостер (Katharina Kloster) и в связи с этим будут обнародованы в рамках защиты диссертации.
Исследование финансировалось Немецким исследовательским фондом (Deutsche Forschungsgemeinschaft, DFG — German Research Foundation) в рамках проекта № 516210826.
Доступность данныхВсе исходные данные, на которых основано это исследование, будут предоставлены соответствующим автором по запросу. Наборы данных, использованные и/или проанализированные в ходе настоящего исследования, доступны от соответствующего автора при обоснованном запросе.
Вклад авторов
· Концептуализация исследования: DT, JJP, PR.
· Разработка методологии: DT, JJP, BP, PR, KK, TK.
· Валидация: DT, JJP, BP, PR.
· Формальный анализ: DT, PWK, JJP, BP, PR, TK.
· Проведение исследования: DT, BP, KK, JJP.
· Предоставление ресурсов: DT, JJP, TK, BAN.
· Курирование данных: DT, KK, PR, JJP.
· Подготовка первоначального варианта текста: DT, JJP, PR, SV.
· Рецензирование и редактирование рукописи: DT, JJP, BP, SV, PWK, TK, BAN.
· Визуализация: DT, JJP, PR.
· Научное руководство: DT, JJP, PR, TK.
· Управление проектом: DT, JJP, PR, TK.
Конфликт интересовНе заявлен.