Авторы: Katharina S. Kommossа, Julia K. Winklerа, Christine Mueller-Christmannа, Felicitas Bardehleа, Ferdinand Tobererа, Wilhelm Stolzb, Teresa Kraenkec, Rainer Hofmann-Wellenhofc, Andreas Blumd, Alexander Enkа, Albert Rosenbergere, Holger A. Haenssleа*
a Отделение дерматологии Гейдельбергского университета (Department of Dermatology, University of Heidelberg), Гейдельберг, Германия;
b Отделение дерматологии, аллергологии и экологической медицины II Больницы Thalkirchner Street (Department of Dermatology, Allergology and Environmental Medicine II, Hospital Thalkirchner Street), Мюнхен, Германия;
c Отделение дерматологии и венерологии Медицинского университета города Граз (Department of Dermatology and Venerology, Medical University of Graz), Граз, Австрия;
d Клиника Public, Private and Teaching Practice of Dermatology, Констанц, Германия;
e Отделение генетической эпидемиологии Гёттингенгского университета (Department of Genetic Epidemiology, University of Goettingen), Гёттинген, Германия
Статья получена 19 января 2023 года; получена обновленная редакция 24 февраля 2023 года; принята 26 февраля 2023 года; доступна онлайн с 5 марта 2023 года.
Актуальность. Клиническая диагностика новообразований кожи лица и скальпа (FSL) затруднительна из-за наличия пересекающихся признаков. Дерматологи, которые сталкиваются с диагностически спорными новообразованиями, могут пользоваться поддержкой искусственного интеллекта за счет сверточных нейронных сетей (CNN).
Методы. В ходе выполнения задания по классификации, организованного онлайн, дерматологи (n = 64) проводили диагностику 100 новообразований кожи лица и скальпа из репрезентативной выборки, классифицируя их как «доброкачественные», «злокачественные» или «спорные», и предлагали решения относительно дальнейших действий («ничего не предпринимать», «наблюдать», «лечить/иссекать»). Для бинарной классификации дерматоскопических изображений новообразований (доброкачественное/злокачественное) применяли одобренную к обращению на рынке сверточную нейронную сеть (Moleanalyzer-Pro®, FotoFinder Systems, Germany).
Результаты. После анализа единственного дерматоскопического изображения для каждого новообразований дерматологи обозначили 562 случая из 6400 (8,8 %) диагностически «спорными» и в большинстве случаев рекомендовали контрольное наблюдение (57,3 %, n = 322) или иссечение (42,5 %, n = 239). Решения были ошибочны для 58,8 % из 291 истинно злокачественных новообразований (171 решение «наблюдать» или «ничего не предпринимать») и 43,9 % из 271 истинно доброкачественных новообразований (119 решений «иссекать»). Использование CNN-оценки в спорных случаях может сокращать количество ошибочных клинических решений до 4,1 % для истинно злокачественных и до 31,7 % для истинно доброкачественных новообразований (в обоих случаях p < 0,01). После получения полной информации о новообразовании 239 диагнозов (3,7 %) оставались «спорными» для дерматологов, они чаще рекомендовали «иссекать» (72 %), чем «наблюдать» (28 %). Эти решения были ошибочными в 32,8 % из 116 случаев в истинно злокачественных новообразований и 76,4 % из 123 истинно доброкачественных новообразований. Использование CNN-оценки могло бы сократить число ошибочных решений до 6,9 % в отношении истинно злокачественных новообразований и до 38,2 % в отношении истинно доброкачественных новообразований (для всех p < 0,01).
Выводы. Дерматологи в основном рекомендовали «лечить/иссекать» спорные FSL или «наблюдать». Учет рекомендаций CNN в спорных случаях кажется уместным для существенного сокращения числа ошибочных решений.
Ключевые слова: дерматоскопия; глубокое обучение; нейронная сеть; рак кожи; меланома; злокачественное лентиго; солнечное лентиго; актинический кератоз; себорейный кератоз; базальноклеточная карцинома.
Диагностика новообразований кожи лица и скальпа (FSL) затруднительна даже для опытных дерматологов. Отчасти это связано со специфической анатомией кожи лица (плоские эпидермальные гребни, множество отверстий фолликул, сальных и потовых желез), что отличает FSL от таких же новообразований, локализованных на коже туловища или конечностей [1]. Кроме того, развитие многих FSL провоцирует воздействие ультрафиолетового излучения, поэтому они часто встречаются на сильно поврежденной в результате воздействия солнца коже. Наличие двух или более FSL может дополнительно затруднять постановку корректного диагноза [2–4]. Кроме упомянутых сложностей, для некоторых доброкачественных (в частности, лихеноидный кератоз, солнечное лентиго) и злокачественных новообразований (в частности, пиментный актинический кератоз [АК], злокачественное лентиго) могут быть характерны пересекающиеся дерматоскопические признаки [2–6].
Всякий раз, когда у дерматолога появляются сомнения в диагностике спорных новообразований, он может или назначать биопсию для гистопатологического анализа, или наблюдать за новообразованием, чтобы сохранить здоровье своих пациентов. Выявление рака кожи с использованием Искусственного интеллекта (ИИ), в частности, сверточных нейронных сетей глубокого обучения (CNN), неоднократно демонстрировало уровень диагностики, равный или превосходящий проводимую опытными дерматологами [7–9].
Первые исследования, изучавшие применение CNN для выявления рака кожи, использовали снимки новообразований, чтобы ретроспективно сравнивать CNN-диагностику с «эталоном» – диагностикой, проведенной группой более или менее опытных дерматологов. Результаты таких исследований имеют большую ценность, однако недостает проспективных клинических условий из реальной жизни, когда дерматологи обращаются к поддержке ИИ и следуют его рекомендациям только в диагностически спорных случаях. Поэтому в настоящем исследовании мы стремились изучить степень поддержки, на которую можно рассчитывать при использовании ИИ, основанного на CNN, в диагностически спорных для дерматологов случаях.
Исходя из того, что дерматологи станут прибегать к CNN-диагностике при классификации спорных новообразований, мы предполагали, что поддержка ИИ может потенциально сокращать количество ошибочных клинических решений.
Исследование было одобрено комитетом по этике медицинского факультета Гейдельбергского университета (номер одобрения S-629/2017) и проводилось в соответствии с принципами Хельсинской декларации [10].
Репрезентативную выборку из 100 FSL с полной информацией о каждом новообразовании (подтвержденный диагноз, увеличенные снимки, дерматоскопические снимки изображения, текстовые данные) производили за период с 2014 по 2019 год (Таблица 1). Данные собирали в дерматологических амбулаторных клиниках четырех организаций: Отделение дерматологии Гейдельбергского университета (Department of Dermatology, University of Heidelberg); Отделение дерматологии больницы Thalkirchner Street в Мюнхене (Department of Dermatology, Hospital Thalkirchner Street); Отделение дерматологии Медицинского университета города Граз (Department of Dermatology, Medical University of Graz); Дерматологическая клиника амбулаторного приема в городе Констанц (Dermatology Office based clinic of Dermatology).
Набор образцов для тестирования в количестве 100 FSL был случайным образом составлен из изображений, предоставленных организациями через компьютерные приложения (Random. org, Randomness and Integrity Services Ltd., Дублин, Ирландия). Итоговый тест был проведен с использованием выборки изображений новообразований, которые не использовались в процессе обучения CNN. Чтобы создать особенно сложные условия тестирования, в анализ были включены затруднительные для выявления случаи плоских/макулярных (n = 77) и возвышающихся/узловых (n = 23) меланоцитарных (n = 59) или немеланоцитарных новообразований (n = 41).
Выборку намеренно дополняли злокачественным лентиго (n = 22) и злокачественной лентиго-меланомой (n = 16), поскольку ошибочная их классификация и/или клинические решения могут причинять значительный вред здоровью. Каждый диагноз был подтвержден или гистологическим исследованием (98/100 новообразований) или непримечательной динамикой в ходе двухлетнего наблюдения (2/100 новообразований). Существенный временной интервал между созданием изображения и хирургическим иссечением для гистопатологического анализа отсутствовал.
Дерматологов приглашали для личного участия в онлайн-выполнении задания по класси- фикации [11]. Исходя из опыта в дерматоскопии, дерматологи относили себя к «начинающим» (при опыте < 2 лет), «опытным» (2–5 лет) или «экспертам» (≥ 5 лет). Затем анализируемые но- вообразования поочередно отображали на экране компьютера, а дерматологов просили по- ставить диагноз («доброкачественное», «злокачественное», «спорное») и сообщить о своем клиническом решении («ничего не предпринимать», «лечить/иссекать», «наблюдать»). Важ- но, что оценивающие новообразования дерматологи были проинструктированы относитель- но порядка работы с задачами классификации в сети, и относительно того, что в рамках дан- ного исследования актинический кератоз следует рассматривать как предзлокачественное/ злокачественное новообразование, требующее лечения. По каждому кейсу сначала предлага- лось только одно изображение; дополнительной информации, включая увеличенные снимки или текстовые данные (возраст пациента, пол, локализация новообразования), не предостав- лялось. Для каждого уровня информации мы собрали 6400 оценок относительно диагноза и клинических решений (64 дерматолога классифицировали 100 FSL).
Тестируемая CNN (Moleanalyzer-Pro®, FotoFinder Systems, Bad Birnbach, Germany) является зарегистрированным медицинским изделием, в котором применяется измененная архитектура нейронной сети Google Inception_v4 [7]. Детали обучения и архитектура были описаны ранее [7, 12, 13]. При помощи функции softmax сверточной нейронной сети производилась оценка злокачественности 0 или 1, где более высокое значение означало более высокую вероятность злокачественности. Для классификации злокачественных новообразований априори применяли стандартное пороговое значение > 0,5.
Решения дерматологов «ничего не предпринимать» и «наблюдать» считались истинно отрицательными для доброкачественных новообразований, где решение «лечить/иссекать» считалось истинно положительным для злокачественных новообразований. Актинический кератоз имеет способность прогрессировать в инвазивную карциному и решение «лечить/ иссекать» считалось истинно положительным.
Параметры точности (чувствительность, специфичность и достоверность) подсчитывали для диагнозов CNN и дерматологов с учетом доверительного интервала 95 % (95 % CI), принимая во внимание кластеры и стратифицированный дизайн. Для сравнения диагностической классификации, проведенной дерматологами без дополнительных данных о новообразовании, применяли ранговый парный критерий Уилкоксона.
Для статистического сравнения решений дерматологов и CNN-классификации применялся тест МакНимара. В этом случае CNN-оценку новообразования как «злокачественное» приравнивали к решению «лечить/иссекать», а признание новообразования «доброкачественным» – к решению «ничего не предпринимать». Результаты считались статистически значимыми на уровне p < 0,05. Поправку Бонферрони применяли для подгонки p-значений для множественного тестирования. Все тесты проводили с применением программ SPSS Version 24 (IBM, SPSS; Chicago, Illinois, USA) и SAS 9,4 (SAS Inc. AS Institute Inc., Cary, NC, USA).
Средний возраст (± стандартное отклонение (SD)) пациентов, включенных в выборку, составлял 59 (± 22) лет (диапазон 4–92 лет). Большую часть пациентов представляли мужчины (58 %), пациенты в основном имели типы кожи II и III по Фицпатрику. FSL (n = 100) располагались в основном в области щек (49 %), на лбу и на носу (по 15 %) (Таблица 1).
Тестовую выборку представляли 48 доброкачественных и 52 злокачественных/предраковых новообразований. Средняя (± SD) толщина инвазивных меланом по Бреслоу составляла 0,74 мм (± 0,91 мм). Производивших оценку дерматологов (n = 64) разделяли на группы в зависимости от заявленного ими опыта работы в дерматоскопии.
Таблица 1. Характеристики новообразований (n = 100 новообразований кожи лица и скальпа)
Новообразования кожи лица и скальпа (n = 100), % |
||
Референсный диагноз (n, %) | ||
Гистологическое исследование | 98 | 98 % |
Непримечательная динамика при контрольном наблюдении (> 2 лет) | 2 | 2 % |
Локализация (n, %) | ||
Щека | 49 | 49 % |
Лоб | 15 | 15 % |
Нос | 15 | 15 % |
Скальп | 5 | 5 % |
Висок | 4 | 4 % |
Ухо | 4 | 4 % |
Веко | 4 | 4 % |
Подносовой желобок | 3 | 3 % |
Подбородок | 1 | 1 % |
Пигментация (n, %) | ||
Пигментированное | 94 | 94 % |
Непигментированное | 6 | 6 % |
Происхождением пигментации (n, %) | ||
Меланоцитарное | 59 | 59 % |
Немеланоцитарное | 41 | 41 % |
Клиническая морфология (n, %) | ||
Плоское/макулярное | 77 | 77 % |
Возвышающееся/узловое | 23 | 23 % |
Доброкачественные новообразования (n, %) | ||
Невус | 18 | 18 % |
Солнечное лентиго/Себорейный кератоз | 30 | 30 % |
Злокачественные новообразования (n, %) | ||
Злокачественное лентиго | 22 | 22 % |
Инвазивная меланома | 19 | 19 % |
Злокачественное лентиго меланома | 16 | 16 % |
Узловая меланома | 2 | 2 % |
Поверхностно-распространяющаяся меланома | 1 | 1 % |
(Пигментированная) базальноклеточная карцинома | 5 | 5 % |
(Пигментированный) актинический кератоз | 6 | 6 % |
Почти половина дерматологов (46,9 %, n = 30) были «экспертами» с опытом работы более пяти лет, треть дерматологов относилась к «опытным» (31,3 %, n = 20) с 2–5-летним опытом и 14,1 % (n = 9) – к «начинающим», чей опыт составлял менее 2 лет. Пятеро участников отказались сообщить о своем опыте в дерматоскопии.
При оценке 100 FSL сверточная нейронная сеть показывала чувствительность 96,2 % [95 % CI 87–98,9 %], специфичность 68,8 % [54,7–81,3 %] и точность 83 % [74,5–89,8 %]. Для истинно злокачественных новообразований CNN ставила корректный диагноз в 100 % случаев AK, 100 % базальноклеточной карциномы (BCC), 94,7 % злокачественного лентиго и 95,5 % инвазивных меланом. Что касается истинно доброкачественных новообразований, то корректно были диагностированы 56,7 % солнечного лентиго/себорейного кератоза и 88,9 % невусов.
В то же время клинические решения 64 дерматологов при диагностике 100 новообразований на основе единственного дерматоскопического снимка показывали средние чувствительность 77,1 % [74–80,1 %], специфичность 69,5 % [66,3–72,7 %] и точность 73,4 % [72,3–74,6 %]. Получив полную информацию о новообразовании, дерматологи достигали существенно более высокой чувствительности 84,2 % [82,2–86,2 %, p < 0,001], практически неизменной специфичности 69,4 % [66–72,8 %, p = 0,943] и значительно повышенной точности 77,1 % [76,1–78,1 %, p < 0,001].
Наибольшая разница между точностью оценки CNN [83 % (74,5–89,8 %) и дерматологов была обнаружена у «начинающих» (68,6 % [63,3–73,8 %] при анализе только дерматоскопического снимка, 73,3 % (69,8–76,8 %) при наличии полной информации о новообразовании, затем шли «опытные» дерматологи [73,1 % (70,3–75,9 %), 77,1 % (74,6–79,6 %)] и «эксперты» [76,6 % (74,6–78,6 %), 79,1 % (77,1–81,2 %)].
После анализа одного дерматоскопического снимка для каждого новообразования дерматологи обозначили 562 из 6400 (8,8 %) как «спорные» (Таблица 2a). В 51,8 % случаев новообразования были истинно злокачественными (291 из 562), а в 48,2 % – истинно доброкачественными (271 из 562). Истинными диагнозами новообразований, чаще всего классифицированных как «спорное» (в порядке уменьшения), были солнечное лентиго/себорейный кератоз (27,2 %, 153 из 562), инвазивная меланома (25,4 %, 143 из 562), меланоцитарный невус (21 %, 118 из 562) и злокачественное лентиго (20,5 %, 115 из 562). Реже всего считали «спорными» 5 % (28 из 562) AK и 0,9 % (5 из 562) BCC.
Дерматологи чаще всего предлагали «проводить контрольное наблюдение» спорных новообразований (57,3 %, 322 из 562) или «лечить/иссекать» (42,5 %, 239 из 562). Только один голос был отдан в пользу «ничего не предпринимать» (0,2 %, 1 из 562). Решения дерматологов были ошибочными в 58,8 % из 291 истинно злокачественных случаев (171 голосов «наблюдать» или «ничего не предпринимать) и 43,9 % из 271 истинно доброкачественных случаев (119 голосов за «проводить лечение/иссечение») (Таблица 2a).
Таблица 2a. Анализ одного дерматоскопического изображения: клинически спорные новообразования (n = 562) и клинические решения
n – количество
Зеленый фон – корректное решение; красный фон – ошибочное решение
SK – себорейный кератоз; AK- актинический кератоз; LM-злокачественное лентиго; BCC-базальноклеточная карцинома
При наличии у дерматологов более полной информации о новообразовании (дополни- тельные увеличенные изображения и текстовые данные), количество сомнительных диагнозов падало с 562 до 239 из 6400 (3,7 %) (Таблица 2b). В этом случае 48,5 % «спорных» новообразований были истинно злокачественными (116 из 239) и 51,5 % истинно доброкачественными (123 из 239). Истинный диагноз новообразований чаще всего классифицировали как спорный (в порядке увеличения) в отношении солнечного лентиго/себорейного кератоза (33,1 %, 79 из 239), злокачественное лентиго (24,3 %, 58 из 239), меланоцитарного невуса (18,4 %, 44 из 239) и инвазивной меланомы (17,6 %, 42 из 239 классификаций).
Только 6,3 % (15 из 239) и 0,4 % (1 из 239) AK и BCC соответственно реже всего отмечались дерматологами как «спорные». После изучения полной информации дерматологи в большинстве случаев предлагали «лечить/ иссекать» новообразования (72 %, 172 из 239) и реже всего «наблюдать» (28 %, 67 из 239). Решения были ошибочными в 32,8 % из 116 истинно злокачественных случаев (38 голосов за «наблюдать») и 76,4 % из 123 истинно положительных случаев (94 голосов за «лечить/иссекать») (Таблица 2b).
Таблица 2b. Анализ полной информации о новообразовании: клинические «спорные» новообразования (n=239) и клинические решения
n – количество
Зеленый фон – корректное решение; красный фон – ошибочное решение
SK – себорейный кератоз; AK- актинический кератоз; LM-злокачественное лентиго; BCC-базальноклеточная карцинома
Актинический кератоз: референсный диагноз определялся как «злокачественное», корректным считалось решение
«проводить лечение/иссечение».
*CNN-классификацию новообразований как злокачественных считали равнозначной решению «проводить лечение/
иссечение». CNN-классификацию новообразований как доброкачественных приравнивали к клиническому решению
«ничего не предпринимать»
Более опытные дерматологи ожидаемо отмечали меньше новообразований как «спорные». При анализе только одного дерматоскопического снимка 100 новообразований среднее количество «спорных» было наивысшим у «начинающих» дерматологов (15,3), ниже у «опытных» (9,2) и «экспертов» (6,8). Корректные решения в отношении истинно злокачественных новообразований также становились более частыми в зависимости от опыта. Однако после изучения полной информации зависимость указанных различий от опыта становилась менее заметной.
Мы стремились проанализировать преимущества от сотрудничества дерматологов и CNN. Предполагая, что дерматологии будут обращаться к помощи CNN в диагностически спорных случаях, мы изучали процент ошибочных клинических решений в отношении спорных диагнозов с использованием рекомендаций CNN и без них (Рисунок 1). После анализа только одного дерматоскопического снимка для каждого новообразования внедрение CNN-поддержки могло бы значительно сокращать количество ошибочных решений в «спорных», но истинно злокачественных случаях с 58,8 % (171 из 291) до 4,1 % (12 из 291, p < 0,001).
Учет рекомендаций CNN при диагностике «спорных», но истинно доброкачественных новообразований может снижать сокращать число ошибочных решений с 43,9 % (119 из 271) до 31,7 % (86 of 271, p = 0,008), тем самым уменьшая неоправданные иссечения доброкачественных новообразований (Рисунок 1a). После того, как дерматологи изучали полную информацию о новообразовании, проводили дополнительный анализ увеличенных снимков и текстовых данных, количество спорных новообразований сокращалось примерно на 60 %. При этом в отношении 32,8 % злокачественных (38 из 116) и 76,4 % доброкачественных новообразований (94 из 123) принимались ошибочные решения.
Принимая во внимание CNN-оценку, можно существенно сокращать количество ошибочных решений до 6,9 % для злокачественных (8 из 116, p < 0,001) и до 38,2 % для доброкачественных новообразований (47 из 123, p < 0,001) (Рисунок 1b).
Клиническая дифференциация доброкачественных и злокачественных новообразований может быть особенно затруднительной в случае FSL из-за пересекающихся морфологических признаков и дополнительных изменений кожи, вызванных хроническим воздействием солнца [2, 3]. В связи с этими сложностями имеется особо острая необходимость точной диагностики и правильных решений в отношении FSL во избежание неоправданного хирургического вмешательства при доброкачественных новообразованиях или несвоевременной диагностики злокачественных.
В последнее время CNN демонстрируют многообещающие результаты классификации новообразований кожи с точностью, равной или превосходящей уровень опытных дерматологов [7, 8, 12]. На первый взгляд убедительной может показаться оценка потенциальной пользы от использования поддержки искусственного интеллекта только лишь за счет сравнения данных о точности диагностики дерматологами и CNN. Однако в повседневной практике дерматологи будут сталкиваться с многочисленными новообразованиями, имеющими четкие признаки для корректной диагностики, и поддержка CNN не потребуется.
Рисунок 1. (a) Решения дерматологов относительно спорных новообразований (n = 562) на основе анализа единственного дерматоскопического изображения новообразования по сравнению с решениями, принятыми с учетом CNN-оценки. Зеленые ячейки обозначают корректные решения, а красные ячейки ошибочные решения
(b) Решения дерматологов относительно спорных новообразований (n = 239) на основе полной информации о них по сравнению с решениями, принятыми с учетом CNN-оценки. Зеленые ячейки обозначают корректные решения, а красные ячейки ошибочные решения CNN – сверточные нейронные сети
Как было показано в одном из недавних исследований [14], дерматологи, имеющие высокую уверенность в своих диагнозах, будут игнорировать CNN-оценку. Поэтому уровень диагностики можно повышать за счет изучения CNN-оценки именно спорных для дерматологов новообразований. При таком сценарии будет крайне важно, что коллаборация дерматологов и CNN будет создавать синергию, то есть CNN будет давать корректный диагноз в случаях, которые по мнению дерматологов являются спорными.
На самом деле, независимо от того, насколько хороша CNN-диагностика сама по себе, ошибочная классификация дерматологами и CNN в одних и тех же диагностически затруднительных случаях будет делать ее бесполезной. Чтобы воспроизвести спорные клинические условия, мы собрали тестируемую выборку, включавшую диагностически сложные FSL, подходящие для того, чтобы диагноз сочли спорным. Кроме того, учитывая повседневную клиническую практику, мы также просили дерматологов давать оценку новообразованиям, даже если они отнесли их к диагностически спорным. Как и ожидалось, количество новообразований, классифицированных как «спорные» в результате анализа только одного дерматоскопического изображения, сокращалось примерно на 60 % после получения полной информации.
Это наблюдение сопоставимо с результатами проспективного исследования, в котором сообщалось об уменьшении количества «спорных» диагнозов на примерно 45 % после совместного обследования (невооруженным взглядом и методом дерматоскопии) по сравнению с анализом только невооруженным глазом [15]. Интересно, что, когда дерматологи сталкивались со спорными новообразованиями при анализе одного дерматоскопического снимка, они чаще прибегали к варианту контрольного наблюдения (57,3 %), чем к решению «лечить/иссекать» (42,5 %). И наоборот, при доступности полной информации о кейсе для большинства спорных новообразований чаще рекомендовали «лечить/иссекать» (72 %), чем «наблюдать» (28 %).
Следует допускать, что степень сомнения в отношении новообразования также зависит от количества доступной информации. Поэтому дерматологи, анализирующие только один дерматоскопический снимок, могут нуждаться в дополнительном подтверждении предполагаемой злокачественности за счет контрольного наблюдения. Кроме того, частота спорных диагнозов после анализа одного дерматоскопического снимка уменьшалась с большим опытом, составляя 15,3 % для «начинающих» и 6,8 % для «экспертов».
Это наблюдение подтверждает результаты предыдущих исследований, в которых эксперты в области дерматоскопии показывали высокую точность уже при анализе одного дерматоскопического снимка с небольшим повышением точности, если обладали большей информацией [7, 12]. Кроме того, данные о точности диагностики дерматологами по сравнению с CNN показывают, что менее опытные дерматологи могут больше других выигрывать от коллаборации с CNN.
Это наблюдение соответствует выводам недавнего исследования Tschandl и соавторов [14]. Исследования сотрудничества человека и ИИ при диагностике рака кожи свидетельствовало в пользу того, что поддержка ИИ помогает в первичном разделении случаев высокого и низкого рисков перед обследованием дерматологом [14].
В наших исследуемых случаях, наоборот, дерматологи самостоятельно анализировали новообразования до того, как воспользоваться поддержкой ИИ в диагностически спорных случаях. Глядя на референсные диагнозы новообразований, часто классифицируемых как спорные, становится очевидным, что дерматологи сомневаются между дифференциацией (пигментного) солнечного лентиго/себорейного кератоза и злокачественного лентиго/злокачественной лентиго-меланомы, что подтверждено в литературе [16–18].
CNN служили ценным инструментом поддержки в нашем исследовании и показывали высокую степень корректной классификации злокачественного лентиго (100 %) и инвазивных злокачественных лентиго-меланом (91,7 %), что соответствовало предыдущим публикациям [5, 19, 20]. Таким образом, учитывая CNN-оценку в спорных случаях, можно избегать большинства ошибочных решений в случае истинно злокачественных новообразований. В то же время корректная классификация 56,7 % солнечного лентиго/себорейного кератоза могла бы помочь существенно сократить неоправданные иссечения.
Это исследование имеет несколько ограничений. Во-первых, чтобы привлечь к участию в исследовании диагностической точности достаточное количество дерматологов, тестовый набор состоял только из 100 случаев. Из-за небольшого итогового количества некоторых диагнозов, результаты исследования не следует транслировать на общую популяцию. Во-вторых, в нашем тестовом наборе не был представлен полный спектр потенциальных FSL (например, редкие опухоли, воспалительные новообразования), что исключает распространение результатов на условия проспективного исследования. В-третьих, исследование не включало новообразования кожи пациентов с более темными типами кожи, что ограничивает генерализуемость его результатов. И наконец, это было ретроспективное исследование, направленное на предсказание результатов для проспективных условий с учетом ряда исходных данных.
Например, ограниченная доступность визуальной и текстовой информации и невозможность исследовать все тело или спросить пациента о развитии новообразования, могут приводить к решениям, отличным от принимаемых в реальной жизни. Поэтому необходимо действительно проспективное исследование (и происходящее в реальном времени), чтобы подтвердить наши наблюдения и выводы.
В целом результаты нашего исследования показывают, что дерматологи могут уменьшать количество ошибочных решений в отношении диагностически спорных новообразований кожи лица и скальпа за счет учета CNN-оценки. Наши данные подтверждают, что ошибки человека и ИИ пересекаются лишь в небольшой степени, тем самым позволяя достигать ощутимых улучшений диагностической точности.
Авторы заявляют о следующей финансовой заинтересованности/личных отношениях, которые могут потенциально рассматриваться как конфликт интересов:
J. K. Winkler получил гонорар и/или компенсацию командировочных расходов от компаний, вовлеченных в визуализацию и терапию рака кожи (Amgen, BMS, Fotofinder Systems GmBH, MSD, Philochem und Roche).
A. Blum получил гонорар и/или компенсацию командировочных расходов от Heine Optotechnik GmbH и FotoFinder Systems GmbH.
C. Mueller-Christmann получил компенсацию командировочных расходов от Magnosco GmbH.
W. Stolz получил гонорар от FotoFinder Systems GmbH.
H. A. Haenssle получил гонорар и/или возмещение командировочных расходов от компаний, вовлеченных в разработку устройств для скрининга рака кожи: Scibase AB, FotoFinder Systems GmbH, Heine Optotechnik GmbH, Magnosco GmbH.
R. Hofmann-Wellenhof получил гонорар и/или компенсацию командировочных расходов от FotoFinder Systems GmbH и является основателем и акционером компании e-derm-consult GmbH.
Все другие авторы заявили об отсутствии конфликта интересов.
Исследование диагностической точности, анализирующее значимость использования сверточных нейронных сетей при оценке диагностически спорных новообразований кожи лица и скальпа.
Katharina Susanne Kommoss, MD: концепция; курирование данных; формальный анализ; исследование; методология; администрирование проекта; визуализация; написание проекта статьи; проверка и редактирование.
Julia Katharina Winkler, MD: контроль; курирование данных; исследование; проверка и редактирование статьи.
Christine Mueller-Christmann, MD: курирование данных; исследование; проверка и редактирование статьи.
Felicitas Bardehle, MD: исследование; проверка и редактирование статьи.
Ferdinand Toberer, MD: курирование данных; исследование; проверка и редактирование статьи.
Wilhelm Stolz, MD: курирование данных; исследование; проверка и редактирование статьи.
Teresa Kraenke, MD: исследование; проверка и редактирование статьи.
Rainer Hofmann-Wellenhof, MD: курирование данных; исследование; проверка и редактирование статьи.
Andreas Blum, MD: исследование; проверка и редактирование статьи.
Alexander Enk, MD: источники; ПО; проверка и редактирование статьи.
Albert Rosenberger, MSc: формальный анализ; методология; валидация; проверка и редактирование статьи.
Holger Andreas Haenssle, MD: концепция; курирование данных; формальный анализ; исследование; методология; администрирование проекта; источники; ПО; контроль; валидация; визуализация; написание проекта статьи; проверка и редактирование статьи.
Благодарности
Мы бы хотели поблагодарить всех участвовавших в исследовании дерматологов за активное участие и уделенное время.
Приложение A. Дополнительная информация
Дополнительные данные, относящиеся к настоящей статье, можно найти в ее онлайн-версии по ссылке doi:10.1016/j.ejca.2023. 02.025.
1. Arda O, Goksugur N, Tuzun Y. Basic histological structure and functions of facial skin. Clin Dermatol 2014;32:3–13.
2. Lallas A, Tschandl P, Kyrgidis A, Stolz W, Rabinovitz H, Cameron A, et al. Dermoscopic clues to differentiate facial lentigo maligna from pigmented actinic keratosis. Br J Dermatol 2016;174:1079–85.
3. Tschandl P, Rosendahl C, Kittler H. Dermatoscopy of flat pigmented facial lesions. J Eur Acad Dermatol Venereol 2015;29:120–7.
4. Blum A, Siggs G, Marghoob AA, Kreusch J, Cabo H, Camposdo-Carmo G, et al. Collision skin lesions-results of a multicenter study of the International Dermoscopy Society (IDS). Dermatol Pract Concept 2017;7:51–62.
5. Lallas A, Lallas K, Tschandl P, Kittler H, Apalla Z, Longo C, et al. The dermatoscopic inverse approach significantly improves the accuracy of human readers for lentigo maligna diagnosis. J Am Acad Dermatol 2020;84:381–9.
6. Schiffner R, Schiffner-Rohe J, Vogt T, Landthaler M, Wlotzke U, Cognetta AB, et al. Improvement of early recognition of lentigo maligna using dermatoscopy. J Am Acad Dermatol 2000;42:25–32.
7. Haenssle HA, Fink C, Schneiderbauer R, Toberer F, Buhl T, Blum A, et al. Man against machine: diagnostic performance of a deep learning convolutional neural network for dermoscopic melanoma recognition in comparison to 58 dermatologists. Ann Oncol 2018;29:1836–42.
8. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 2017;542:115–8.
9. Marchetti MA, Liopyris K, Dusza SW, Codella NCF, Gutman DA, Helba B, et al. Computer algorithms show potential for improving dermatologists’ accuracy to diagnose cutaneous melanoma: Results of the International Skin Imaging Collaboration 2017. J Am Acad Dermatol 2020;82:622–7.
10. World Medical Association. World Medical Association Declaration of Helsinki: ethical principles for medical research involving human subjects. JAMA 2013;310:2191–4.
11. Haenssle HA, Winkler JK, Fink C, Toberer F, Enk A, Stolz W, et al. Skin lesions of face and scalp – Classification by a marketapproved convolutional neural network in comparison with 64 dermatologists. Eur J Cancer 2021;144:192–9.
12. Haenssle HA, Fink C, Toberer F, Winkler J, Stolz W, Deinlein T, et al. Man against machine reloaded: performance of a marketapproved convolutional neural network in classifying a broad spectrum of skin lesions in comparison with 96 dermatologists working under less artificial conditions. Ann Oncol 2020;31:137–43.
13. Winkler JK, Fink C, Toberer F, Enk A, Deinlein T, HofmannWellenhof R, et al. Association Between Surgical Skin Markings in Dermoscopic Images and Diagnostic Performance of a Deep Learning Convolutional Neural Network for Melanoma Recognition. JAMA Dermatol 2019;155:1135–41.
14. Tschandl P, Rinner C, Apalla Z, Argenziano G, Codella N, Halpern A, et al. Human-computer collaboration for skin cancer recognition. Nat Med 2020;26:1229–34.
15. Carli P, de Giorgi V, Chiarugi A, Nardini P, Weinstock MA, Crocetti E, et al. Addition of dermoscopy to conventional nakedeye examination in melanoma screening: a randomized study. J Am Acad Dermatol 2004;50:683–9.
16. Peruilh-Bagolini L, Apalla Z, Gonzalez-Cuevas R, Lallas K, Papageorgiou C, Bobos M, et al. Dermoscopic predictors to discriminate between in situ and early invasive lentigo maligna melanoma: A retrospective observational study. J Am Acad Dermatol 2020;83:269–71.
17. Spyridis I, Papageorgiou C, Apalla Z, Manoli SM, Eftychidoy P, Gkentsidi T, et al. The peculiar dermatoscopic pattern of scalp melanoma. J Eur Acad Dermatol Venereol 2022;36:1564–7.
18. Zoutendijk J, Koljenovic S, Wakkee M, Mooyaart AL, Nijsten T, van den Bos RR. Clinical findings are not helpful in detecting lentigo maligna melanoma in patients with biopsy-proven lentigo maligna. J Eur Acad Dermatol Venereol 2022;36:2325–30.
19. Tschandl P, Codella N, Akay BN, Argenziano G, Braun RP, Cabo H, et al. Comparison of the accuracy of human readers versus machine-learning algorithms for pigmented skin lesion classification: an open, web-based, international, diagnostic study. Lancet Oncol 2019;20:938–47.
20. Winkler JK, Sies K, Fink C, Toberer F, Enk A, Deinlein T, et al. Melanoma recognition by a deep learning convolutional neural network-Performance in different melanoma subtypes and localisations. Eur J Cancer 2020;127:21–9.