Desarrollo de clasificadores de aprendizaje automático para predecir la actividad de compuestos en líneas celulares de cáncer de próstata | Revista de quimioinformática

Recopilación y preparación de datos

La calidad de los datos se refleja drásticamente en la de los modelos. [30]. Por lo tanto, la preparación de datos representa una fase fundamental. Varios estudios han destacado la importancia de los protocolos experimentales y de ensayo armonizados para evitar la generación de conjuntos de datos inconsistentes. [31, 32]. Este aspecto se vuelve aún más relevante en los ensayos basados ​​en células, especialmente considerando la gran variedad de metodologías experimentales disponibles para evaluar la actividad antiproliferativa. La preparación de un conjunto homogéneo de datos de actividad celular exige una caracterización precisa del origen de los datos. De manera constante, las anotaciones de actividad en las células PCa se recolectaron y filtraron de la base de datos ChEMBL, como se describe en la sección Métodos. En particular, centramos nuestra atención exclusivamente en los datos de actividad antiproliferativa proporcionados por ensayos colorimétricos basados ​​en MTT y SRB. El ensayo MTT es un método popular para la determinación de la actividad metabólica de las células vivas [33, 34]; recolectamos un total de 498 y 214 registros de ensayos MTT para PC-3 y DU-145 en ChEMBL, respectivamente. Además, las anotaciones de los ensayos SRB se incluyeron en el análisis debido a la excelente correlación mostrada con los ensayos MTT en diferentes estudios. [35, 36]. Con respecto a los ensayos colorimétricos basados ​​en células, un aspecto importante asociado con el protocolo experimental es el tiempo de tratamiento (es decir,., 24 h, 48 h o 72 h), lo que puede dar lugar a diferentes respuestas celulares para el mismo fármaco. En este estudio, investigamos los experimentos con un tiempo de incubación de 48 y 72 h, que representan la mayoría de los datos de actividad informados de los ensayos MTT y SRB. La lista completa de ensayos ChEMBL ID seleccionados, con su clasificación experimental relacionada, se proporciona como Archivos adicionales 1 y 2 para PC-3 y DU-145, respectivamente. La Tabla 1 muestra el número de compuestos en común para los diferentes protocolos experimentales, en células PC-3 y DU-145.

Tabla 1 Número de compuestos en común entre diferentes protocolos experimentales para PC-3 y DU-145

Como se puede observar, la mayoría de las moléculas recolectadas han sido ensayadas mediante los protocolos MTT (assay time: 72 h) y SRB (assay time: 48 h), siendo bajo el número de ligandos ensayados mediante múltiples condiciones experimentales. Un análisis de los coeficientes de correlación de Pearson (PCC) sobre las anotaciones de actividad derivadas de diferentes protocolos experimentales MTT y SRB sobre los mismos compuestos mostró una correlación de moderada a buena. Por ejemplo, las anotaciones de los ensayos SRB (tiempo de ensayo: 48 h) mostraron un coeficiente de correlación superior a 0,75 con respecto a los demás protocolos. La inclusión de datos derivados de los protocolos experimentales seleccionados permitió cubrir un espacio químico significativamente grande para ser explorado por los modelos, manteniendo una alta calidad de la información. Los registros de actividad de los compuestos recolectados permitieron cubrir alrededor de 4 unidades logarítmicas de valores de pActivity, siendo esta una ventaja clave con respecto a los propósitos de este estudio. Se filtraron los registros de actividad duplicados derivados de múltiples experimentos con los mismos compuestos, como se describe en la sección Métodos. Los datos relacionados con los ligandos derivados de los ensayos antiproliferativos seleccionados se informan en los archivos adicionales 3 y 4. La figura 1 muestra la distribución de los valores de pActivity para los conjuntos de datos PC-3 y DU-145. Los datos de las dos líneas de células tumorales mostraron distribuciones similares, siendo los valores medios de pActivity de 5,12 y 5,16 para PC-3 y DU-145, respectivamente. Para ambos conjuntos de datos, más del 85% de los valores de los datos oscila entre 4,5 y 6,5. En general, el enfoque adoptado permitió recolectar moléculas únicas 4353 y 2393 para PC-3 y DU-145, respectivamente. Curiosamente, 587 de los compuestos recolectados presentan un valor de pActivity en las células PC-3 y DU-145 PC, con un PCC excelente de 0,93 (Archivo adicional 11: Figura S1).

Figura 1
Figura 1

Distribuciones de actividad de los conjuntos de datos PC-3 y DU-145

Perfil de actividad

El primer paso en el desarrollo de modelos de aprendizaje automático para la clasificación binaria de moléculas activas e inactivas es etiquetar la base de datos de referencia. En esta fase, los compuestos suelen clasificarse como activos o inactivos según un umbral de actividad definido, o utilizando una ventana intermedia de valores de actividad para separar mejor las dos clases. La selección de los umbrales de actividad se adapta arbitrariamente al propósito del modelo y a los datos de actividad disponibles. De hecho, la selección de los umbrales de actividad más adecuados es fundamental para el desarrollo de modelos de alto rendimiento, ya que podrían reflejarse en la eliminación de diferentes números de compuestos en las dos clases y, por lo tanto, en la recopilación de datos de entrenamiento, validación y prueba muy desequilibrados. conjuntos de datos Aquí, exploramos dos métodos diferentes para seleccionar umbrales de actividad basados ​​en la distribución de actividades (Fig. 2). Inicialmente, los datos de actividad en los conjuntos de datos seleccionados PC-3 y DU-145 se ordenaron por valores de pActivity descendentes. En el primer método, la clasificación binaria se realizó etiquetando un porcentaje fijo de los mejores compuestos clasificados como activos, considerando solo el 40-60% de las moléculas para evitar la generación de conjuntos de datos altamente desequilibrados. El muestreo de las bases de datos se realizó en pasos incrementales de 5 puntos porcentuales, obteniendo 5 conjuntos de datos diferentes para cada línea celular de cáncer. El segundo enfoque implicó la exclusión de un porcentaje definido de compuestos con datos de actividad intermedios. Gradualmente excluimos el 5-20 por ciento de los valores de actividad intermedia, muestreando cada 5 puntos porcentuales. En este caso, se generaron 4 conjuntos de datos balanceados adicionales. La Tabla 2 resume la composición de los conjuntos de datos que informan los valores máximos y mínimos de las actividades con el tamaño de las clases muestreadas. Cabe destacar que la relación más cercana informa la diferencia en términos de actividad micromolar entre los últimos compuestos activos y los primeros inactivos. Como se muestra, la relación máxima más cercana alcanzada es 2.14 para PC-3 y 2.32 para la base de datos DU-145 con el método GAP 20. Dado que la distribución de actividades para ambas bases de datos está altamente concentrada alrededor del promedio, el 20 % de los compuestos intermedios presenta una estrecha ventana de actividades entre 6 y 16 µM. Cabe destacar que varios estudios informan compuestos anticancerígenos con actividad contra PC-3 y DU-145 en el rango de 1–20 µM [37,38,39], de acuerdo con los rangos identificados para la clasificación de compuestos activos e inactivos. Cabe destacar que el conjunto de datos de compuestos mostró un bajo grado general de similitud, a pesar de que la mayoría de los datos de actividad se distribuyeron en un rango restringido de valores. En particular, evaluamos el grado de similitud entre moléculas activas e inactivas para todos los conjuntos de datos generados según el coeficiente de Tanimoto (Tc) [40, 41], que no indicó ninguna variación relevante para los diferentes conjuntos de datos (Tabla 2). En conjunto, estos resultados sugieren que los métodos utilizados para seleccionar los umbrales de actividad dejan la similitud estructural entre los compuestos activos e inactivos cerca de una división uniforme en la distribución de los valores de actividad (conjunto de datos FIX 50). A partir de las bases de datos de referencia, se generaron 9 subconjuntos de datos mediante el muestreo de umbrales de actividades. Inicialmente, se generaron 123 descriptores moleculares para compuestos en bases de datos (PCC = 100), como se describe en la sección de Métodos. Luego, para investigar la influencia de las características correlacionadas en el rendimiento de los modelos, se crearon 3 conjuntos de datos adicionales filtrando los descriptores moleculares con PCC

Figura 2
Figura 2

Flujo de trabajo utilizado para generar las combinaciones de conjuntos de datos en las dos líneas celulares PC-3 y DU-145

Tabla 2 Número de compuestos y rangos de actividad para los conjuntos de datos PC-3 y DU-145

Evaluación de modelos de aprendizaje automático

Los diversos conjuntos de datos generados se sometieron a flujos de trabajo de ML con los 10 algoritmos de clasificación seleccionados que se muestran en la Tabla 3 (consulte la información complementaria para obtener más detalles).

Tabla 3 Algoritmos de clasificación utilizados en este estudio

En primer lugar, se midió la similitud molecular de los conjuntos de entrenamiento y prueba para los 9 conjuntos de datos según las huellas dactilares moleculares ECFP4, puntuadas según el coeficiente de Tanimoto. La Tc media presentó un valor de 0,23 (Archivo adicional 11: Tabla S1) para todos los conjuntos de datos. El percentil 80 permanece por debajo del umbral de 0,3 en toda la tabla, mientras que la asimetría positiva indica que la mayoría de los datos se distribuyen por debajo de la media. Los rendimientos previstos de los clasificadores se detallan en el Archivo adicional 11: Tablas S2 y S3 para PC-3 y DU-145, respectivamente. En primer lugar, se evaluó la influencia general de los umbrales de actividad y la selección de funciones en el rendimiento medio de los 10 algoritmos de ML en el conjunto de validación. Los diagramas de barras en la Fig. 3 resaltan el promedio resultados de los modelos según 6 funciones de puntuación (ver Métodos para más detalles). En general, PC-3 y DU-145 mostraron resultados similares en términos de rendimiento de predicción. Curiosamente, la selección de características no afectó los rendimientos de predicción promedio de los modelos, que se mantuvieron similares a pesar de la diferente cantidad de descriptores moleculares de entrada. Por el contrario, el uso de diferentes umbrales de actividad tuvo un impacto significativo en los rendimientos de predicción de los modelos. De hecho, los gráficos de barras resaltan tendencias de intensidad variable para las 6 funciones de puntuación (Fig. 3). Como era de esperar, las puntuaciones medias de precisión, recuperación y F1 aumentaron con el porcentaje fijo de compuestos clasificados como activos. Estos resultados pueden deberse al desequilibrio de las clases positivas en los conjuntos de datos, lo que facilita la identificación de los TP que afectan la precisión, el recuerdo y, en consecuencia, las puntuaciones F1 (consulte las fórmulas 2, 3 y 4 en Métodos). Cabe destacar que también se puede observar una tendencia en los puntajes de validación de los modelos de los conjuntos de datos generados con el método de umbral GAP. Curiosamente, la introducción de una brecha escalonada entre los umbrales de actividad proporcionó un pequeño aumento en la precisión promedio, el recuerdo y los valores de puntaje F1, al tiempo que mantuvo las clases equilibradas, en comparación con el conjunto de datos FIX 50. Se puede observar una diferencia constante entre los resultados del uso de los métodos de umbral de actividad FIX y GAP cuando se considera la puntuación de MCC. De hecho, los conjuntos de datos GAP lograron mejores predicciones promediadas con respecto a los conjuntos de datos FIX. Aunque los valores de MCC mostraron desviaciones estándar más grandes, en comparación con las otras funciones de puntuación, los conjuntos de datos GAP 20 y FIX 50 con PCC = 100 demostraron diferencias estadísticas en sus puntuaciones, según los valores de 0,16 y 0,10. pags-valores para PC-3 y DU-145, respectivamente. La precisión promediada y el ROC AUC no revelaron cambios significativos para los diferentes umbrales de actividad y oscilaron alrededor de 0,75 para los conjuntos de datos PC-3 y DU-145. En conjunto, la comparación de los resultados de los modelos desarrollados mostró que el método GAP puede proporcionar ventajas en los rendimientos de predicción en comparación con el uso de un solo umbral. Cabe destacar que también se informaron conclusiones similares en estudios previos centrados en los datos de la actividad objetivo (p.ej, [42]). Con respecto a los diferentes clasificadores, analizamos el rendimiento de los algoritmos de ML individuales para identificar los mejores modelos predictivos. Los rendimientos de los modelos se evaluaron en el conjunto de validación.

Fig. 3
figura 3

Gráficos de barras de las puntuaciones medias obtenidas para el conjunto de validación en los 10 algoritmos de ML. Las barras de error representan una desviación estándar de la incertidumbre en cada punto de datos

La Figura 4 muestra los resultados medios del conjunto de validación obtenidos en los diferentes conjuntos de datos para los 10 algoritmos de clasificación. En general, los algoritmos KNN, SVM y RF superaron a los demás en los conjuntos de datos PC-3 y DU-145. De hecho, el algoritmo KNN aplicado al conjunto de datos GAP 20 demostró los valores más altos de MCC y precisión en ambas líneas celulares. En particular, KNN logró una puntuación de MCC superior a 0,6 para el conjunto de datos GAP 20 con PCC = 95. Además, también se obtuvieron valores de MCC superiores a 0,56 para SVM y RF en los mismos conjuntos de datos. En promedio, los modelos ML generados en el conjunto de datos GAP 20 condujeron a los rendimientos de predicción más altos, como se muestra en la Fig. 3. Además, los resultados demostraron valores F1 consistentes en conjuntos de entrenamiento, validación y prueba, lo que confirma un ajuste adecuado de los conjuntos de datos en todos los modelos analizados. En base a estos resultados, el método GAP 20 se identificó como el mejor enfoque para clasificar los compuestos activos e inactivos del conjunto de datos inicial.

Figura 4
Figura 4

Desempeño de predicción promedio de los 10 algoritmos en conjuntos de datos PC-3 y DU-145. El promedio de las seis puntuaciones se calculó sobre las 36 combinaciones de los 9 conjuntos de datos con el diferente número de características

Como una validación adicional del protocolo, simulamos estudios de casos reales mediante el uso iterativo de una muestra de compuestos derivados del mismo ensayo ChEMBL como conjunto de prueba. En particular, para lograr una significación estadística aceptable, probamos el modelo en ensayos de células PC-3 y DU-145 que contenían 30 o más registros de actividad. Luego, los compuestos relacionados con los ID de los documentos ChEMBL en la Tabla 4 se extrajeron iterativamente de los conjuntos de datos iniciales y, a su vez, se dividieron aleatoriamente en conjuntos de entrenamiento y validación con una proporción de 75:25. La combinación de algoritmo RF, umbral de actividad GAP 20 y PCC = 95 resultó ser la más adecuada para el desarrollo de modelos, dados los excelentes desempeños obtenidos en pruebas anteriores. Se probaron un total de seis estudios para PC-3 y tres para DU-145. Para los modelos así desarrollados en ambas líneas de células cancerosas, obtuvimos una precisión por debajo de 0,6 (Tabla 4) en solo un caso, y los derivados de los ensayos relacionados con CHEMBL4155048 y CHEMBL4686002 demostraron un rendimiento excelente en la identificación de casi todos los compuestos activos o inactivos. . En promedio, los modelos proporcionaron predicciones relevantes para la identificación de compuestos activos. Según la composición del conjunto de entrenamiento y la cantidad limitada de información proporcionada por los descriptores moleculares, es posible que algunas clases de compuestos puedan ser difíciles de clasificar para el modelo.

Tabla 4 Resultados de predicción en ensayos ChEMBL aislados

Modelos desarrollados sobre datos de actividad combinados

Curiosamente, varios compuestos de los conjuntos de datos seleccionados han informado datos de actividad para las líneas celulares de cáncer PC-3 y DU-145 (es decir., 587 moléculas), mostrando una excelente correlación (PCC = 0.93, Archivo adicional 11: Figura S1). Por lo tanto, evaluamos si un modelo de aprendizaje automático desarrollado en la combinación de datos informados para PC-3 y DU-145 lograría un rendimiento de predicción más alto con respecto a los modelos derivados previamente en las dos líneas celulares de cáncer. Con este fin, los 587 compuestos con valores de pActivity conocidos en PC-3 y DU-145 se usaron como conjunto de prueba, mientras que los 5572 compuestos restantes de los dos conjuntos de datos se usaron para el entrenamiento y validación de los modelos (consulte la sección Métodos para detalles). Estos análisis se realizaron utilizando algoritmos SVM, KNN y RF en combinación con los umbrales de actividad GAP 20, que mostraron los mejores rendimientos de predicción (archivo adicional 11: tablas S2 y S3), y FIX 50 como conjunto de comparación. Además, solo las características con valores de PCC por debajo de 0,95 (es decir, PCC = 95) se mantuvieron en los conjuntos de datos. La Tabla 4 muestra los resultados obtenidos de los modelos PC-3/DU-145 combinados en el equipo de prueba. Curiosamente, el rendimiento resultante de la predicción resultó similar para las dos líneas de células cancerosas en el conjunto de datos de prueba, aunque el conjunto de entrenamiento sesgó significativamente hacia los compuestos PC-3 (3766 ligandos para PC-3 contra 1806 para DU-145).

Los modelos desarrollados sobre un dataset de entrenamiento generado con el umbral de actividad GAP 20 en general lograron mejores desempeños de clasificación con respecto a los obtenidos con FIX 50 (Tabla 5). En particular, los valores de puntaje de MCC son consistentemente más altos usando el método GAP 20 para los tres algoritmos de ML, aunque todos los clasificadores demuestran una buena precisión. El modelo SVM GAP 20 logró una precisión igual a 0,84 y 0,83 en PC-3 y DU-145, respectivamente, presentando una baja proporción de falsos positivos (FPR), en comparación con la proporción de verdaderos positivos (TPR). Sin embargo, todos los modelos recién generados mostraron una proporción de falsos negativos (FNR) de alrededor de 0,4, lo que afectó negativamente a sus rendimientos de predicción generales (consulte las puntuaciones de MCC y F1 en la Tabla 4). En general, los modelos desarrollados con la combinación de datos de PC-3 y DU-145 produjeron modelos de clasificación con alta predictibilidad hacia los TP. Para comparar el rendimiento de los modelos combinados con los clasificadores desarrollados en los conjuntos de datos de líneas celulares individuales, se entrenaron y probaron seis modelos de clasificación adicionales en los 587 compuestos que presentaban valores de actividad de PC-3 y DU-145. El entrenamiento y validación de los modelos específicos se llevó a cabo en los conjuntos de datos individuales de PC-3 y DU-145 utilizando el mismo procedimiento utilizado para los modelos combinados. Los resultados mostraron diferencias menores entre los modelos combinados y específicos (Archivo adicional 11: Figura S2). En particular, los modelos combinados mostraron valores de MCC y precisión generalmente más altos, mientras que los puntajes restantes fueron comparables entre los diferentes conjuntos de datos.

Tabla 5 Resultados en el conjunto de prueba para los modelos ML entrenados y validados en el conjunto de datos combinado PC-3/DU-145 (PCC = 95)

En general, la combinación de las dos bases de datos parece contribuir marginalmente a la capacidad de los modelos para generalizar las predicciones. Estos resultados demuestran que el desarrollo de modelos ML basados ​​en datos combinados de las células cancerosas es factible y podría proporcionar buenos resultados de clasificación de los compuestos activos en el conjunto de datos de ligandos con actividad en PC-3 y DU-145.

Análisis de dianas biológicas

Los modelos generados pudieron clasificar las actividades celulares de PCa sin tener en cuenta la información relacionada con los objetivos biológicos. En nuestros conjuntos de datos, los compuestos rara vez resultaron ser investigados en más de 3 objetivos biológicos. De hecho, los compuestos presentan un promedio de 2.4 anotaciones de actividad en un total de 169 objetivos para el conjunto de datos PC-3, mientras que encontramos un promedio de 3 registros por molécula en 83 proteínas diferentes para DU-145. Desde el punto de vista de las dianas, la frecuencia relativa del número de principios activos se muestra en la figura 5. Más de la mitad de las dianas presentan un único principio activo asociado, y el 5% de las dianas se asocian con al menos 10 moléculas activas diferentes. . La alta variabilidad en términos de tipo y número de objetivos con anotaciones de actividad informadas para los compuestos hace que esta información no sea fácil de integrar en los modelos ML. Sin embargo, la investigación de objetivos asociados a moléculas activas en células PCa puede proporcionar más información sobre la aplicación de los modelos. De hecho, la información recopilada sobre objetivos biológicos (Archivo adicional 11: Tabla S4) podría proporcionar pistas útiles para la búsqueda de compuestos activos. Por ejemplo, las moléculas con actividad en objetivos biológicos conocidos relacionados con PCa tienen una mayor probabilidad de exhibir efectos antiproliferativos contra líneas celulares de cáncer de próstata. Además, dicha información también podría ser de ayuda para aclarar el mecanismo de acción de compuestos con actividad antiproliferativa de PCa. Un análisis de los registros de actividad de los conjuntos seleccionados de compuestos mostró que 94 y 44 de los 213 objetivos identificados se prueban exclusivamente en ligandos de los conjuntos de datos PC-3 y DU-145, respectivamente. Además, solo 47 de los objetivos identificados tienen una asociación conocida con el cáncer de próstata (Archivo adicional 11: Tabla S4), según la información reportada en UniProt [52] (https://www.uniprot.org/) y base de datos de objetivos terapéuticos (TTD, http://db.idrblab.net/ttd/) [53] bases de datos La información relacionada con estos objetivos podría ser de particular interés al diseñar compuestos con actividad antiproliferativa de PCa. Varios compuestos con actividad antiproliferativa contra la línea celular PC-3 presentan anotaciones de diana en común con DU-145, aunque el número de ligandos con anotaciones de diana y la actividad hacia esta última línea celular es significativamente menor, probablemente derivado también del diferente tamaño de la línea celular. conjuntos de datos curados. Entre ellas encontramos las Histonas desacetilasas (HDACs). En particular, 71 compuestos con actividad hacia PC-3 mostraron una inhibición de HDAC1 en el rango nanomolar. De hecho, las HDAC representan objetivos biológicos establecidos para PCa, con cuatro inhibidores de HDAC aprobados para el tratamiento de diferentes tipos de cáncer. Además, la proteína de choque térmico 90 (Hsp90) también surgió como una de las dianas con mayor número de registros de actividad asociados en DU-145. Hsp90 es una chaperona cuya actividad está asociada con el correcto funcionamiento de varios procesos fundamentales en las células, incluida la proliferación, la supervivencia, la diferenciación y la apoptosis. Además, varios estudios también han discutido ampliamente su implicación en el cáncer de próstata y otros tipos de tumores. [54,55,56]. Otros objetivos establecidos relacionados con PCa, como Tubulin [57]PI3K [58]mTOR [59] también se han visto entre las asociaciones compuestos-objetivo biológico. Además, también se han observado una serie de anotaciones de actividad en objetivos aparentemente no relacionados con PCa, pero potencialmente relevantes para el desarrollo y la progresión de la patología, o derivados de esfuerzos de polifarmacología, que podrían ser de gran interés para futuros esfuerzos de descubrimiento de fármacos.

Figura 5
Figura 5

Gráfico circular que muestra la frecuencia relativa del número de compuestos asociados con dianas biológicas. Las frecuencias se calcularon utilizando los datos del Archivo adicional 11: Tabla S4 considerando PC-3 y DU-145 por separado

Fuente del artículo

Deja un comentario