A lo largo de los años, he escrito que comprender la ciencia de datos (DS), el aprendizaje automático (ML), la inteligencia artificial (IA) y temas relacionados es esencial para cualquier persona que trabaje en una profesión en la que se puedan emplear herramientas que los utilicen. Este es ciertamente el caso de la biomedicina, tanto en la práctica clínica como en la investigación. En el mismo sentido que todos los médicos deben tener conocimientos básicos de farmacología, radiología y otros temas, incluso si no son expertos en la ciencia y los métodos de esas diversas disciplinas, todos en el cuidado de la salud deben estar preparados para las herramientas de ML e IA que llegan a sus manos. trabajar.
Por supuesto, aprender a aplicar ML e IA históricamente ha requerido una experiencia en matemáticas y programación informática que la mayoría de los profesionales de la salud no tienen. Afortunadamente, en los últimos años ha surgido una serie de herramientas DS y ML “sin código”. En cierto modo, son análogos a los paquetes estadísticos, que permiten a cualquiera que sepa cómo usarlos cargar datos y ejecutar pruebas estadísticas. Por supuesto, eso no significa que el operador del software estadístico aplicará o interpretará correctamente los resultados de sus análisis, lo cual es especialmente importante para conjuntos de datos grandes o complejos donde la experiencia estadística adecuada es esencial.
Una herramienta de ML sin código que encuentro particularmente fácil de entender y usar es Minería de datos naranja. Orange fue desarrollado por la Universidad de Ljubljana en Eslovenia y es un proyecto de código abierto con el apoyo de una gran comunidad. Se ejecuta en máquinas Mac y Windows, para las cuales los paquetes binarios se pueden descargar e instalar fácilmente. Orange está programado en Python y, como tal, se puede ampliar con código Python. Viene con conjuntos de datos de muestra y permite cargar fácilmente otros nuevos. El enfoque original de Orange era para datos estructurados y modelos de aprendizaje automático para operar con ellos, incluidas las principales tareas de ML de clasificación (p. ej., regresión logística, kNN y redes neuronales) y regresión (p. ej., regresión lineal, bosque aleatorio y redes neuronales). redes). También hay métodos para visualizar datos y evaluar modelos. Este último incluye técnicas como la división de datos de entrenamiento y prueba y las evaluaciones cruzadas son fáciles de configurar. También existen varios métodos para la imputación de datos faltantes. Además, se han desarrollado módulos para análisis de imágenes y minería de textos.
Orange se usa arrastrando widgets que representan conjuntos de datos, métodos de visualización, modelos y más en un lienzo llamado flujo de trabajo. Los datos fluyen entre los widgets conectándolos mediante un simple arrastre entre widgets. Una vez que uno se vuelve fácil arrastrando y conectando widgets, los flujos de trabajo se pueden construir rápida y fácilmente. También se pueden guardar y recargar más tarde.
Uno puede comenzar con uno de los conjuntos de datos incorporados o usar el widget de archivo para cargar sus propios datos. Se aceptan los formatos de datos rectangulares más comunes, como archivos CSV, delimitados por tabuladores y Excel. Entre los conjuntos de datos de muestra se incluye uno para enfermedades del corazón. Los datos en sí son antiguos (Detrano, R., Janosi, A., Steinbrunn, W., Pfisterer, M., Schmid, J., Sandhu, S., Guppy, K., Lee, S. y Froelicher, V . Aplicación internacional de un nuevo algoritmo de probabilidad para el diagnóstico de la enfermedad arterial coronaria. Revista americana de cardiología, 1989, 64, 304-310.) y pequeño (303 registros con 13 variables), pero el conjunto de datos ofrece una buena manera de comenzar con Orange utilizando datos clínicos. La variable de resultado (llamada variable objetivo en naranja) es el estrechamiento del diámetro de la arteria coronaria y las variables predictoras incluyen sexo, dolor de pecho, colesterol sérico, presión arterial sistólica y más.
La siguiente captura de pantalla muestra un flujo de trabajo que construí usando el conjunto de datos de enfermedades cardíacas. Como en la mayoría de los análisis de ciencia de datos, uno puede comenzar con métodos para explorar y visualizar los datos. Conecté una serie de widgets que permiten ver los datos en una tabla de datos y visualizarlos en forma de estadísticas de características (también se muestran a continuación), distribuciones y diagramas de caja. También creé algunos modelos utilizando el widget Test and Score conectado a varios modelos diferentes apropiados para la clasificación, en este caso, regresión logística, bayesiano ingenuo y una red neuronal. Se puede ver la precisión de la clasificación, la puntuación F1 y otras variables de evaluación (que también se muestran a continuación) y conectar los resultados a los widgets que comparan las curvas ROC y generan matrices de confusión para cada modelo. (¡Quizás no sea sorprendente que la regresión logística funcione mejor!) Del mismo modo, creé algunos modelos para la regresión con la elevación del segmento ST como variable de resultado, usando regresión lineal, bosque aleatorio y una red neuronal, que también se puede ver en el flujo de trabajo.
Es bastante fácil comenzar a usar Orange. Un conjunto de tutoriales en vídeo en el canal de YouTube de Orange cubre los conceptos básicos, así como una serie de temas avanzados. Mi colega, el Dr. Robert Hoyt, y su colaborador, el Dr. David Pashtikoff, han estado desarrollando talleres y otros materiales de aprendizaje utilizando Orange, disponibles en un sitio web que han desarrollado llamado, Ciencia de datos sin código. Planean publicar un libro de texto y configurar un inicio de sesión en el sitio permite el acceso a una serie de conjuntos de datos adicionales que se pueden cargar en Orange.
Al igual que con los paquetes estadísticos, el hecho de que uno pueda cargar datos en Orange y aplicar modelos ML no significa que lo esté haciendo correctamente. Por otro lado, mi flujo de trabajo simple solo araña la superficie de lo que se puede hacer con Orange, incluso para este pequeño conjunto de datos.
Hay limitaciones de Orange como herramienta de minería de datos. No sé qué tan escalable es a medida que los conjuntos de datos crecen (todos los datos se guardan en la RAM de la computadora) y, por supuesto, cualquier análisis serio de ML requiere más que la capacidad de simplemente conectar datos en modelos. No obstante, Orange puede ser una gran herramienta para aprender el aprendizaje automático sin atascarse en la codificación, la depuración y cosas por el estilo. Veo un gran futuro en la enseñanza de ML a medida que avanza el alcance de la IA.