Sociedad
¿Lunar o cáncer? El algoritmo que se equivoca en uno de cada tres melanomas y obvia a los pacientes con la piel oscura
El País Vasco trabaja en la implantación de Quantus Skin en sus centros sanitarios tras una inversión de 1,6 millones de euros. Los especialistas critican el sistema de inteligencia artificial de una filial de Asisa por sus resultados "pobres" y "peligrosos".
Este artículo ha sido publicado originalmente en CIVIO y forma parte de su serie sobre transparencia algorítima.
El tiempo es oro. Especialmente si hablamos de melanoma, el cáncer de piel más peligroso: diagnosticar cuanto antes este tumor resulta decisivo para salvar vidas, más que en casi cualquier otro cáncer. En España, se estima que en 2025 habrá cerca de 9.400 casos de melanoma, un tumor muy agresivo, que puede diseminarse rápido y causar metástasis en apenas unos meses. Cuando esto ocurre, el pronóstico suele ser malo, por lo que cualquier error en la detección puede resultar fatal.
Precisamente esta urgencia ha llevado al País Vasco a apostar por la inteligencia artificial. El Servicio Vasco de Salud, Osakidetza, trabaja para que sus centros de salud y hospitales públicos incorporen Quantus Skin, un algoritmo diseñado para diagnosticar el riesgo de cáncer de piel, incluido el melanoma. En teoría, promete agilizar el proceso: desde atención primaria, las médicas y médicos de familia podrán enviar al servicio de dermatología del hospital imágenes de lesiones sospechosas, junto con la probabilidad de que sean malignas, calculada de forma automatizada por el algoritmo. La idea del Gobierno vasco es que Quantus Skin, actualmente en pruebas, ayude a decidir qué pacientes deben ser atendidos primero.
Sin embargo, los datos muestran una realidad preocupante. Transmural Biotech, la empresa que comercializa Quantus Skin, llevó a cabo un estudio inicial con resultados prometedores, pero que tenía importantes limitaciones: se hizo completamente online y no se publicó en ninguna revista académica, es decir, no pasó el control de calidad habitual que se exige en ciencia.
Más adelante, dermatólogos del Hospital Ramón y Cajal de Madrid y profesores de la Universidad Complutense realizaron un segundo estudio, que sí fue publicado, para evaluar la eficacia clínica real de Quantus Skin. Este trabajo, que contó con financiación y asistencia técnica de Transmural Biotech, mostró peores resultados: el algoritmo pasa por alto uno de cada tres melanomas. Su sensibilidad es del 69%, lo que significa que deja escapar el 31% de los casos reales de este cáncer potencialmente letal.
Preguntado por Civio sobre el segundo estudio, el director general de Transmural Biotech, David Fernández Rodríguez, responde por correo de forma evasiva: “No sé ahora mismo cuál es”. Tras insistir por teléfono, cambia de versión: “Lo que estábamos haciendo eran pruebas” para detectar posibles problemas de implementación. Y, al final de la llamada, Fernández Rodríguez reconoce que Quantus Skin “no es que dejara de funcionar, funcionaba bastante peor, pero nos teníamos que dar cuenta por qué”.
El director general de Transmural Biotech atribuye estos peores resultados a deficiencias en la toma de imágenes por no seguir las instrucciones de Quantus Skin. Es algo que han visto también en las pruebas del País Vasco: “Los médicos de primaria no están entrenados bien para coger las imágenes”, según dice, lo que apunta a la necesidad de “formar a los médicos”. Sin embargo, en el segundo estudio participaron dermatólogos, especializados precisamente en fotografiar lesiones sospechosas para luego diagnosticarlas. Según Fernández Rodríguez, la fiabilidad mejoró tras “recortar bien las imágenes” porque “no estaban cumpliendo exactamente” las instrucciones.
Un sistema criticado por fuentes independientes
“Para cáncer de piel”, tener una sensibilidad del 70% “es muy malo. Es muy pobre. Si tú le das esto a alguien para que haga una foto, te diga si puede ser un melanoma y se equivoca en uno de cada tres, no es adecuado para un cribado de cáncer de piel en un entorno de primaria, tienes que pedirle más”, explica a Civio el doctor Josep Malvehy Guilera, director de la Unidad de Cáncer cutáneo del Hospital Clínic de Barcelona. Para la doctora Rosa Taberner Ferrer, dermatóloga en el Hospital Son Llàtzer de Mallorca y autora de Dermapixel, “un 31% de falsos negativos suena cuanto menos peligroso. Como cribado es una castaña”.
Sin embargo, el director general de Transmural Biotech intenta minimizar el problema enfocándose solo en los datos que favorecen a su producto, evitando hablar de la baja sensibilidad de Quantus Skin. Según el mismo trabajo que analizó su eficacia clínica, el sistema falla además por partida doble: su especificidad implica un 19,8% de falsos positivos, es decir, confunde uno de cada cinco lunares benignos con melanoma. Esto supondría que el uso de Quantus Skin aconsejaría derivar innecesariamente a casi el 20% de las personas atendidas.
En el estudio, los autores —dermatólogos del Hospital Ramón y Cajal de Madrid y profesores de la Universidad Complutense de Madrid— defienden que es preferible que Quantus Skin tenga una alta especificidad (pocos falsos positivos) aunque sea a costa de una baja sensibilidad (más falsos negativos) ya que no se aplicará para diagnosticar con certeza, sino como cribado, es decir, para ayudar a filtrar casos desde atención primaria. Según su hipótesis, así se puede evitar que las consultas especializadas se saturen y bajar las listas de espera y los gastos médicos asociados.
Los especialistas consultados por Civio cuestionan la estrategia detrás del algoritmo. Aunque no existe un estándar ideal para el diagnóstico de cáncer —en parte porque depende de la agresividad de cada tumor—, lo conseguido por Quantus Skin está lejos de ser aceptable. “Si se equivoca haciendo diagnóstico de melanoma en lesiones con un riesgo potencial de crecer rápidamente y poder incluso causar la muerte del paciente, ahí tengo que ser muy poco tolerante. Ya tengo que pedir sensibilidades del 92, 93, 94% como mínimo”, dice Malvehy Guilera.
“Si pretenden utilizarlo como cribado, entonces el sistema debería tener una sensibilidad súper alta a expensas de una especificidad un poco más bajita”, explica Taberner Ferrer. En otras palabras, es preferible que un algoritmo como este se pase de precavido: mejor errar un poco generando falsas alarmas en personas sanas que pasar por alto un caso real de cáncer.