Cómo abordar la predicción basada en el aprendizaje automático de las interacciones fármaco/compuesto-objetivo | Revista de quimioinformática

En esta sección, evaluamos y discutimos los resultados de nuestros experimentos de referencia. Para ello, primero llevamos a cabo un análisis de exploración de datos. A continuación, entrenamos modelos de predicción de DTI en diferentes entornos y medimos su rendimiento. En cada subsección, discutimos nuestros hallazgos desde varios aspectos para abordar las deficiencias en los estudios de modelado de bioactividad.

Aquí, empleamos un bosque aleatorio (RF) como nuestro principal algoritmo de aprendizaje automático (junto con la máquina de vectores de soporte, SVM, en algunos casos) para predecir las DTI. Las razones detrás del uso de un algoritmo clásico de aprendizaje automático en este estudio comparativo en lugar de arquitecturas más complejas basadas en el aprendizaje profundo son las siguientes: (i) RF se ha utilizado en este campo durante mucho tiempo y se ha demostrado que funciona bien en numerosas ocasiones, (ii) ) las arquitecturas complejas basadas en el aprendizaje profundo ya se han utilizado en la etapa de entrenamiento de las representaciones aprendidas (es decir, incrustaciones de proteínas); por lo tanto, el uso de una arquitectura compleja adicional en la etapa de predicción de DTI supervisada podría haber impedido la observación de la capacidad de las representaciones aprendidas en la extracción de las propiedades de las proteínas relacionadas con la interacción del ligando, y también, obstaculizar la evaluación de modelos dirigidos (es decir, descriptor convencional). conjuntos) y enfoques basados ​​en datos (es decir, representaciones aprendidas) en un terreno común, y (iii) la selección de valor de hiperparámetro tiene un efecto significativo en el rendimiento de los modelos de aprendizaje profundo. Si hubiéramos utilizado modelos de aprendizaje profundo en este estudio de referencia, el rendimiento del modelo se habría visto fuertemente influenciado por la configuración específica de los hiperparámetros utilizados, y cualquier diferencia en el rendimiento no podría atribuirse únicamente a las capacidades de representación de los enfoques de caracterización. En este estudio, el objetivo principal es comparar y evaluar de manera justa diferentes enfoques de representación en lugar de construir un único modelo de predicción de DTI con un rendimiento maximizado. Como resultado, utilizamos algoritmos clásicos de aprendizaje automático, que no requieren el mismo nivel de ajuste de hiperparámetros que sus contrapartes basadas en aprendizaje profundo.

Exploración de las características de los datos

En esta subsección, primero visualizamos miembros de conjuntos de datos específicos de la familia de proteínas en 2-D a través de la proyección de incrustación de vecinos estocásticos distribuidos en t (t-SNE). Luego, analizamos las características divididas de nuestros conjuntos de datos mediante el trazado de distribuciones de similitud por pares de proteínas y compuestos, distribuciones de bioactividad de pliegues de prueba de tren, junto con sus respectivas incrustaciones de t-SNE.

Proyección t-SNE de familias de proteínas

Para cada representación de proteína, se llevaron a cabo dos proyecciones t-SNE independientes (una para la enzima y otra para las familias de proteínas no enzimáticas) (Fig. 2a, b). Las proyecciones para 8 métodos de caracterización de proteínas se muestran en la Fig. 2, y los restantes (9 de ellos) están disponibles en el archivo adicional 1: Fig. S1. Como se muestra en estos gráficos de t-SNE, en general, las familias de proteínas están bien agrupadas en proyecciones enzimáticas y no enzimáticas, con agrupaciones ligeramente menos aparentes en enzimas, probablemente debido a que comparten propiedades específicas de enzimas entre proteínas. Además, los miembros de la clase de otras enzimas están dispersos entre otros grupos ya que sus miembros no tienen características distintivas. Aunque la mayoría de las representaciones de proteínas logran separar al menos algunas de las familias, las proyecciones de incrustaciones aprendidas tienen grupos más claros en general, lo que indica su capacidad para extraer características específicas de la familia. Teniendo en cuenta los conjuntos de descriptores convencionales, se observa que la homología (es decir, k-sep_pssm) y los perfiles de dominio (es decir, pfam) tienen capacidades más distintivas para la clasificación de familias de proteínas, en comparación con la fisicoquímica (por ejemplo, apaac, ctdd, ctriad, geary, qso ) y composición de secuencias (es decir, dde). La proyección t-SNE de spmap, que es un conjunto de descriptores basado en la composición de secuencias basado en grupos de subsecuencias de proteínas (5-mer), es similar a la proyección del conjunto de descriptores random200. Este resultado indica que las subsecuencias de proteínas de 5 residuos no pueden capturar patrones específicos de familia. Muy distinto de otras representaciones, taap tiene una proyección en forma de curva en forma de S. Los vectores característicos de proteínas con contenido de residuos y longitud de secuencia similares son similares entre sí (independientemente del orden real de los aminoácidos en la secuencia) de acuerdo con el conjunto de descriptores de taap, ya que taap usa la suma total de los valores de propiedades basados ​​en aminoácidos. para representar una proteína. Debido al hecho de que t-SNE tiene como objetivo preservar los vecindarios locales, las proteínas forman una curva continua similar a los datos de series temporales cuando se representan mediante taap.

Características divididas de conjuntos de datos específicos de familias de proteínas

Distribuciones de similitud por pares

Para explorar la diversidad de proteínas y compuestos en nuestros conjuntos de datos, evaluamos las similitudes por pares proteína-proteína y compuesto-compuesto de los miembros de una familia de proteínas representativa seleccionada (es decir, transferasas), en términos de “entrenamiento contra tren”, “prueba vs. prueba” y comparaciones de “entrenamiento vs. prueba” para cada estrategia de división (es decir, división aleatoria, división de compuestos diferentes y división completamente diferente). Para esto, alineamos secuencias de proteínas utilizando la herramienta de alineación de secuencias por pares global EMBOSS Needle [42] y trazó histogramas basados ​​en valores de identidad de pares de proteínas únicos en los conjuntos de datos correspondientes. Extrajimos similitudes compuestas por pares calculando el coeficiente de Tanimoto entre las representaciones de huellas dactilares usando el simbúsqueda función del paquete python de Chemfp [43]. Dado que era muy poco factible calcular similitudes por pares para miles de millones de pares de compuestos, muestreamos aleatoriamente el 10 % de todos los compuestos en el conjunto de datos de transferasas y establecimos el umbral mínimo de detección de similitud en 0,1.

La Figura 3 muestra distribuciones de similitud de pares de proteínas y compuestos involucrados en el conjunto de datos de transferasas, en los que los valores pueden ser mayores que uno, ya que la gráfica se normaliza para igualar el área total a uno (es decir, la gráfica de densidad). Tener un valor de similitud en el rango de 0 a 0,5 para la mayoría de los pares de proteínas y compuestos en todas las parcelas demuestra la gran diversidad de muestras, que es una característica deseable para el modelado de bioactividad computacional. Como se muestra en la Fig. 3, las distribuciones de similitud solo cambian ligeramente entre los diferentes métodos de división, considerando las similitudes de muestra de “entrenamiento contra tren” y “prueba contra prueba”, mientras que existen diferencias significativas entre las muestras de “entrenamiento contra prueba”, tanto para compuestos como para proteínas, en términos de diferentes divisiones. La ausencia de valores de similitud superiores a 0,5 para los pares compuestos de “entrenamiento frente a prueba” en el conjunto de datos de división de compuestos diferentes, y los pares de proteínas y compuestos “entrenamiento frente a prueba” en el conjunto de datos de división completamente diferente valida la similitud. características céntricas de nuestros conjuntos de datos. Los pares excepcionales de proteínas con altos valores de similitud en el conjunto de datos divididos completamente diferentes se derivan de las discrepancias entre los grupos UniRef50 y nuestros resultados de alineación por pares, y se encuentra que su número es insignificante (tenga en cuenta que las frecuencias se dan en escala logarítmica en la Fig. . 3). Estos resultados validan la capacidad de nuestra metodología en términos de producir conjuntos de datos de prueba de tren desafiantes (y presumiblemente realistas), de modo que los modelos de predicción de bioactividad entrenados y probados en estos conjuntos de datos con suerte reflejen los desempeños del mundo real mientras descubren nuevos fármacos candidatos y/o nuevos objetivos.

Fig. 3
figura 3

Distribuciones de similitud por pares de (a) proteínas y (b) compuestos para muestras de “entrenamiento contra tren”, “prueba contra prueba” y “entrenamiento contra prueba” en el conjunto de datos de transferasas de división aleatoria, división de compuestos diferentes y división completamente diferente (que se muestra en la escala logarítmica)

La evaluación del supuesto IID

La mayoría de los algoritmos tradicionales de aprendizaje automático, como RF y SVM, funcionan con la suposición de datos independientes e idénticamente distribuidos (IID) para las muestras en las divisiones de entrenamiento y prueba. En otras palabras, se supone que los valores de las variables en un conjunto de datos son independientes entre sí y tienen la misma distribución de probabilidad. Esta suposición puede violarse si hay un cambio en la distribución de las variables de entrada o salida entre las divisiones de entrenamiento/prueba, lo que puede afectar el rendimiento del modelo. [44]. Por lo tanto, es importante evaluar la suposición de IID al desarrollar un modelo de aprendizaje automático.

Para explorar la suposición de IID en términos de variables de salida (es decir, valores de bioactividad como etiquetas objetivo), trazamos distribuciones de bioactividad de conjuntos de datos específicos de la familia de proteínas basados ​​en muestras de prueba de tren de cada división. La Figura 4 muestra histogramas basados ​​en valores de pChEMBL para transferasas, canales iónicos y receptores de membrana (las gráficas para las familias restantes están disponibles en el Archivo adicional 1: Fig. S2). Las bioactividades medias varían entre 5,7 y 7,1 para diferentes familias de proteínas. Al comparar las bioactividades de los conjuntos de prueba y tren de cada familia, se observa que las distribuciones tienen formas similares, independientemente de la estrategia de división del conjunto de datos. Además, generalmente tienen valores medios y medianos muy similares, aunque la diferencia es ligeramente mayor en los conjuntos de datos divididos completamente diferentes de algunas familias. Tener distribuciones de bioactividad que sean consistentes entre sí en los pliegues de entrenamiento y prueba implica una buena cobertura de datos de bioactividad y respalda la idoneidad de nuestros conjuntos de datos a gran escala para el modelado de bioactividad. Estos resultados también indican que no se requiere una estrategia de división estratificada para nuestros conjuntos de datos.

Figura 4
Figura 4

Gráficos de histogramas que muestran las distribuciones de bioactividad de las familias de transferasas, canales iónicos y receptores de membrana basadas en muestras de tren (barras verdes) y de prueba (barras naranjas) de; (a) división aleatoria, (b) división de compuestos diferentes, y (C) conjuntos de datos divididos completamente diferentes, junto con sus valores medianos que se muestran como líneas discontinuas verticales

Figura 5
Figura 5

Proyecciones t-SNE de muestras de prueba de tren (es decir, pares compuesto-proteína) de transferasas y familias de canales iónicos para representaciones k-sep_pssm y unirep1900 en; (a) la división aleatoria, (b) división de compuestos diferentes, y (C) el conjunto de datos dividido completamente diferente

En los casos de presencia de un cambio en las variables de salida, los modelos requieren una extrapolación más allá de los valores objetivo mínimo y máximo en los conjuntos de datos de entrenamiento. Este puede ser un factor limitante para los algoritmos basados ​​en regresión que solo pueden generar predicciones dentro de los límites de los valores de salida del entrenamiento. [45]. Por lo tanto, recomendamos verificar este problema antes de construir modelos de predicción de DTI.

También comparamos las distribuciones de las representaciones de proteínas y las huellas dactilares compuestas ecfp4 entre las divisiones de entrenamiento y prueba para verificar la suposición de IID para las variables de entrada. Para las representaciones de proteínas con valores continuos, aplicamos la prueba de Kolmogorov-Smirnov (KS) y calculamos las puntuaciones de distancia de KS para cada característica (es decir, cada dimensión en una representación) del tren y las muestras de prueba junto con las correspondientes pag-valores. Archivo adicional 1: la Fig. S3 muestra las distribuciones de estos puntajes para las representaciones apaac y transformer-avg (es decir, los tamaños de las dimensiones de las características son 80 y 768, respectivamente) en tres divisiones diferentes de tren/prueba del conjunto de datos de la familia de transferasas. Aunque los puntajes máximos de distancia KS son generalmente más bajos para los descriptores convencionales (es decir, alrededor de 0,2) que para las incrustaciones aprendidas (es decir, alrededor de 0,5), tienen distribuciones similares en general, donde la varianza es mucho menor en el conjunto de datos de división aleatoria en comparación con el compuesto diferente. y conjuntos divididos completamente diferentes. Hubo un significativo (pag-valor < 0,01) cambio entre las distribuciones de valor de distancia KS de tren y muestras de prueba para 19 (para división completamente diferente) y 7 (para división compuesta diferente) características del total de 80 características en apaac, y 558 ( para división completamente diferente) y 189 (para división compuesta diferente) características del total de 768 características promedio del transformador; mientras que ninguna de las variables se desplazó significativamente en el conjunto de datos de división aleatoria, considerando ambas representaciones.

Para las huellas dactilares compuestas, aplicamos la prueba de chi-cuadrado, ya que están compuestas por variables binarias en lugar de continuas. No trazamos las distribuciones de puntuación de la prueba de chi-cuadrado ya que no proporciona una medida de distancia directa. En su lugar, evaluamos estos cambios en función de su pag-valores. Por lo tanto, 743 y 689 de un total de 1024 huellas dactilares compuestas se desplazaron significativamente en las divisiones totalmente diferentes y compuestas diferentes, respectivamente, mientras que este número fue 47 para la división aleatoria. Por significación, aceptamos un pag-valor < 0,001 ya que la prueba de chi-cuadrado es sensible al tamaño de la muestra, lo que tiene el riesgo de definir falsamente relaciones significativas en presencia de un tamaño de muestra grande, como en nuestro caso.

La observación de un cambio entre las distribuciones de puntajes de distancia KS de modelos entrenados en divisiones de compuestos completamente diferentes y diferentes no fue sorprendente, ya que este es un problema común en las aplicaciones de descubrimiento de fármacos del mundo real, donde el objetivo general es buscar pequeños completamente nuevos. moléculas que son bioactivas contra las dianas de interés. También es una de las razones por las que la mayoría de los modelos, que funcionan bien en conjuntos de datos “fáciles” (es decir, división aleatoria), comienzan a fallar en escenarios realistas. Es posible mitigar el problema del cambio mediante la aplicación de técnicas de preprocesamiento, como la eliminación de características o la ponderación de importancia. [46]especialmente cuando el objetivo es desarrollar un modelo usando descriptores simples y algoritmos basados ​​en operaciones lineales.

Proyección t-SNE de conjuntos de datos de prueba de tren para tres divisiones

En este análisis, visualizamos la distribución de los puntos de datos de bioactividad (es decir, pares de compuestos y proteínas) en 2-D a través de proyecciones t-SNE para observar cómo las muestras de plegado de prueba y de tren se separan entre sí en diferentes configuraciones de división. Para cada conjunto de datos basado en la familia de proteínas, se seleccionaron aleatoriamente 1500 puntos de datos (tanto del tren como de los pliegues de prueba), ya que el número de muestras de entrenamiento domina las muestras de prueba en los conjuntos de datos originales. Cada punto de datos de bioactividad se representó mediante la concatenación de sus vectores característicos de proteínas y compuestos, y se usó como entrada para el algoritmo t-SNE.

En la Fig. 5, se proporcionan gráficos de t-SNE de transferasas y canales iónicos (es decir, las familias representativas, ya que se trata de dos familias diana ampliamente utilizadas en el descubrimiento de fármacos) para las representaciones k-sep_pssm y unirep1900. Los paneles a, b y c corresponden a los conjuntos de datos de división aleatoria, división de compuestos diferentes y división completamente diferente, respectivamente. Para el conjunto de datos de división aleatoria, las incrustaciones 2D del tren y las muestras de prueba se superponen en gran medida, ya que comparten proteínas y compuestos similares. Estas superposiciones disminuyen significativamente en el conjunto de datos divididos compuestos diferentes y casi desaparecen en el conjunto de datos dividido completamente diferente, como se esperaba. Este análisis puede considerarse como una validación visual de las estrategias de división implementadas y proporciona pistas sobre los niveles de dificultad de nuestras tareas de predicción.

Análisis a pequeña escala (modelado basado en características objetivo)

Existen numerosos conjuntos de descriptores convencionales para proteínas en la literatura, la mayoría de los cuales se pueden utilizar para la predicción de DTI. La evaluación de todos los conjuntos de descriptores en nuestros conjuntos de datos a gran escala no sería factible considerando el costo computacional; como resultado, decidimos llevar a cabo un análisis a pequeña escala para preseleccionar los conjuntos de descriptores que son exitosos en la predicción de DTI, y luego utilizar los descriptores seleccionados en el análisis a mediana y gran escala. Además, se requirió determinar el algoritmo de aprendizaje supervisado que se usaría para la predicción de DTI en este estudio y, nuevamente, debido a problemas relacionados con la complejidad computacional, decidimos hacer una comparación de rendimiento (entre SVM y RF) en estos pequeños escalar conjuntos de datos.

En este análisis, evaluamos el éxito de los modelos de predicción de DTI basados ​​en SVM y RF, cada uno utilizando uno de los 42 conjuntos de descriptores de proteínas convencionales y una línea de base (es decir, el descriptor random200). La lista completa de conjuntos de descriptores se proporciona en Archivo adicional 1: Tabla S1, y los detalles se pueden obtener de [47] y [48]. Los modelos se entrenan y prueban en 9 conjuntos de datos centrados en compuestos independientes (es decir, los grupos de curcumina, tamoxifeno, quercetina, genisteína, econazol, levoketoconazol, amiodarona, miconazol y clotrimazol) mediante validación cruzada anidada. En este enfoque, el sistema solo emplea características de proteínas como entrada, por lo que elimina el efecto de las representaciones compuestas en el rendimiento de la predicción del modelo, que se espera que proporcione un entorno adecuado para una comparación inicial de las representaciones de proteínas. Aquí, la tarea de cada modelo es la clasificación binaria de las proteínas de entrada, como activas o inactivas, frente al grupo compuesto correspondiente.

La Figura 6 muestra los valores medios de la puntuación F1 y el coeficiente de correlación de Matthews (MCC) de 9 conjuntos de datos para cada modelo de representación, en los que los colores naranja y azul corresponden a los modelos SVM y RF, respectivamente (todos los resultados incluyen exactitud, precisión, recuperación, puntuación F1 , y las métricas de MCC se proporcionan en el archivo adicional 1: Tabla S1). La clasificación de los conjuntos de descriptores de proteínas en el eje horizontal se realizó de acuerdo con las puntuaciones del modelo de RF decrecientes. La Figura 6 muestra claramente que los modelos RF superan a los modelos SVM con algunas excepciones, como el modelo pfam en términos de puntuación MCC. Cuando se comparan los rendimientos del modelo en términos de representaciones de proteínas, los descriptores basados ​​en pssm funcionan mejor que otros descriptores en general. Estos resultados indican que las relaciones evolutivas de las proteínas conllevan un importante conocimiento sobre los mecanismos de bioactividad/interacción. Algunos de los descriptores basados ​​en la composición de la secuencia, como dde, tpc y spmap, y los descriptores basados ​​en la fisicoquímica, como apaac y paac, también funcionaron bien. Además, obtener puntajes significativamente más altos que la línea de base (es decir, random200), incluso para los modelos con los valores más bajos rendimiento, implica que las representaciones de proteínas llevan señales/patrones relevantes para el modelado de bioactividad. Sin embargo, estos resultados no pueden generalizarse ya que cubren solo una pequeña porción del espacio de bioactividad; por lo tanto, es importante observar cómo se comportan estos modelos cuando se cambia la escala de datos.

Figura 6
figura 6

Significar (a) MCC y (b) Resultados de la prueba de puntuación F1 de modelos de predicción DTI basados ​​en RF y SVM construidos a través del enfoque de modelado basado en características objetivo (el análisis a pequeña escala)

Al final de este análisis, decidimos continuar con RF, que se utilizará durante todo el estudio. Además, seleccionamos 10 conjuntos de descriptores convencionales con rendimientos altos y bajos, y distintas propiedades con respecto a las características de la proteína que incorporaron y los usamos en los siguientes puntos de referencia (es decir, apaac, ctdd, ctriad, dde, geary, k-sep_pssm, pfam, qso, spmap y taap). Aquí, en lugar de simplemente seleccionar los descriptores de mejor rendimiento, buscamos un conjunto diverso de descriptores que se construyen utilizando diferentes tipos de información (es decir, fisicoquímica, homología de secuencia, etc.). Otro criterio fue que los descriptores seleccionados no deberían tener puntajes de desempeño similares (especialmente cuando se basan en el mismo tipo de información). Por lo tanto, en lugar de comparar enfoques similares con una alta probabilidad de producir resultados similares en análisis a mediana y gran escala, intentamos adquirir un conjunto representativo de descriptores, cada uno de los cuales tiene el potencial de revelar una característica diferente presentada en secuencias de proteínas objetivo. .

Análisis de mediana escala (modelado PCM)

El enfoque de modelado PCM puede manejar un gran número de instancias de entrenamiento, pertenecientes a diferentes compuestos y proteínas, dentro de un solo modelo predictivo, en contraste con el modelado basado en características de ligandos y objetivos que requiere la generación de modelos separados para cada proteína o compuesto (o compuesto). clúster), respectivamente. Por lo tanto, el modelado PCM brinda la ventaja de aprender de conjuntos de datos más grandes, lo cual es un requisito crítico en el aprendizaje automático, en general. Otra ventaja del modelado PCM es la utilización conjunta de características de compuestos y proteínas para modelar mejor sus propiedades relacionadas con la interacción, sin el requisito de información estructural tridimensional escasa y difícil de analizar, a diferencia de los enfoques de modelado de estructuras basadas en objetivos. En los siguientes puntos de referencia, nuestro objetivo fue evaluar las representaciones de proteínas en términos de modelado PCM, sobre el problema de la predicción DTI basada en regresión. Aquí, construimos modelos PCM para 10 conjuntos de descriptores de proteínas convencionales seleccionados, 6 incrustaciones de proteínas aprendidas y 2 modelos de referencia (es decir, representaciones aleatorias, consulte la sección “Métodos”) utilizando el algoritmo de regresión de RF en el conjunto de datos de quinasa mDavis.

Los resultados de rendimiento del modelo basados ​​en el error cuadrático medio (RMSE), la correlación de rango de Spearman, el MCC y la puntuación F1 (todos calculados en el conjunto de prueba de retención del conjunto de datos de mDavis) se muestran en la figura 7 (también disponible en el archivo adicional 1). : Tabla S2). Los resultados indican que las clasificaciones de los modelos son en su mayoría consistentes entre las métricas de clasificación y regresión con ligeras diferencias, excluyendo pfam. Como conjunto de descriptores basados ​​en perfiles de dominio, pfam es el modelo con mejor rendimiento en términos de puntuación F1 (0,538) y tiene una puntuación MCC moderadamente alta (0,41); sin embargo, también es uno de los de peor desempeño en términos de puntajes RMSE (0.854) y Spearman (0.497). Se puede inferir de estos resultados que los perfiles de dominio de las proteínas pueden no contener suficiente información para hacer predicciones precisas del valor de bioactividad, pero puede ser útil si el objetivo es solo clasificar los pares proteína-compuesto como activos o inactivos (es decir, predicción binaria) . Los resultados también indican que el modelo seqvec muestra el mejor rendimiento para casi todas las métricas (RMSE: 0,794, Spearman: 0,571, MCC: 0,445, puntuación F1: 0,53). Aparte de seqvec, otras incorporaciones aprendidas también tienen puntajes de rendimiento más altos en comparación con los descriptores convencionales en general. La correlación media de rangos de Spearman y las puntuaciones MCC de las representaciones aprendidas son 0,530 y 0,417, respectivamente, mientras que las mismas puntuaciones son 0,511 y 0,388 para los conjuntos de descriptores convencionales. Las incrustaciones aprendidas no utilizan ningún conocimiento molecular o biológico durante su entrenamiento autosupervisado, pero aún así, son capaces de representar proteínas que producen una predicción DTI de alto rendimiento. Los descriptores de buen desempeño en el análisis anterior a pequeña escala, k-sep_pssm (homología) y apaac (fisicoquímica), también tienen resultados de desempeño competitivos aquí (Spearman: 0.545 y 0.532, respectivamente). Por otra parte, dde (Spearman: 0,508) y spmap (Spearman: 0,491) no pudieron obtener sus altos rangos aquí en el análisis de escala media (es decir, dde y spmap tenían los rangos de 1 y 8 en la pequeña escala, mientras que ocuparon los puestos 9 y 16 en la escala media, respectivamente). Es posible afirmar que, si bien los descriptores basados ​​en la homología y la fisicoquímica se obtuvieron a partir del aumento del tamaño del conjunto de datos (es decir, para apaac y k-sep_pssm, los MCC medios del análisis a pequeña escala son 0,361 y 0,374, respectivamente, mientras que los MCC del análisis a mediana escala son 0.418 y 0.434), la composición de la secuencia no pudo mejorar su rendimiento cuando se entrenó en conjuntos de datos más grandes.

Figura 7
figura 7

Pruebe los resultados de rendimiento de los modelos PCM de mediana escala (en el conjunto de datos de mDavis) basados ​​en RMSE (las puntuaciones se informan como 1-RMSE, por lo que los valores más altos representan un mejor rendimiento), la correlación de rango de Spearman, MCC y F1-score; (a) cada color corresponde a una métrica de evaluación, y (b) las puntuaciones se muestran solo para los modelos representativos seleccionados (marcados con un asterisco en la leyenda). La clasificación en la leyenda se basa en el desempeño de los modelos de mejor a peor según sus puntajes RMSE. Los tonos de rojo y azul representan descriptores convencionales y representaciones aprendidas, respectivamente.

Además, hay un aumento general en las puntuaciones de MCC de los conjuntos de descriptores convencionales (excluyendo dde y spmap) cuando comparamos los resultados de los análisis de pequeña y mediana escala. Además de la contribución del aumento del tamaño de la muestra, esta situación puede estar asociada con la participación de las características de los compuestos en los modelos basados ​​en PCM, lo que probablemente condujo a un mejor aprendizaje sobre el espacio de interacción proteína-compuesto conjunto. Por otro lado, los modelos PCM aquí tenían puntajes F1 más bajos que los modelos objetivo basados ​​en características en el análisis a pequeña escala. Con el fin de calcular las puntuaciones de MCC y F1 para los modelos PCM, convertimos las predicciones de valor real en formato binario en el valor de corte pKd = 7, que también se usa en otros estudios como umbral de bioactividad para los inhibidores de quinasa. [49]. Sin embargo, solo el 27% de las muestras de prueba se activaron en este umbral, lo que provocó un desequilibrio de clase en el conjunto de datos de la quinasa mDavis. Por lo tanto, la disminución de las puntuaciones F1 en el análisis de escala media podría estar relacionada con este problema, ya que la puntuación F1 es sensible a los conjuntos de datos desequilibrados (consulte la sección “Evaluación del rendimiento” en “Métodos”). Para explorar más a fondo el conflicto entre las puntuaciones MCC y las puntuaciones F1 para la comparación a pequeña y mediana escala, calculamos los rendimientos medios de los descriptores convencionales en la escala media (puntuación F1: 0,493, MCC: 0,388), y comparamos a los resultados del mismo conjunto de descriptores en pequeña escala (puntuación F1: 0,672, MCC: 0,337). Luego, volvimos a calcular los puntajes MCC y F1 de los modelos de escala media en función del valor medio de pKd del conjunto de prueba para evaluar los resultados en un escenario como si tuviéramos un número equilibrado de positivos (es decir, activos) y negativos ( es decir, inactivo) muestras en el conjunto de prueba. Obtuvimos las puntuaciones medias de F1-score: 0,705 y MCC: 0,355 según el punto de corte pKd = 6,21 (el valor de la mediana). El aumento en la puntuación F1, que es incluso mayor que la puntuación F1 media en el análisis a pequeña escala, junto con el hecho de que no hay un cambio significativo en MCC, respalda la idea de que MCC es la opción más adecuada en presencia de del problema del desequilibrio de clases. También destaca la importancia de seleccionar métricas de evaluación adecuadas según el caso en cuestión.

Finalmente, los modelos de referencia mostraron los rendimientos más bajos en este análisis, similar a los resultados del experimento de modelado basado en características de destino.

Análisis a gran escala (modelado PCM)

El objetivo principal de este análisis es evaluar las representaciones de proteínas en un escenario muy realista, especialmente en términos de descubrimiento de nuevos fármacos y/u objetivos, utilizando nuestros conjuntos de datos a gran escala cuidadosamente preparados y para comparar su rendimiento general en la predicción de DTI basada en el aprendizaje automático. . En segundo lugar, nuestro objetivo era mostrar cómo el rendimiento del modelo puede cambiar drásticamente cuando las mismas muestras se distribuyen para entrenar y probar conjuntos de manera diferente, para señalar la importancia de la división de datos de entrenamiento y prueba. Además, evaluamos la idoneidad de varias métricas de desempeño bajo diferentes enfoques de modelado.

En este análisis, construimos conjuntos de datos de bioactividad específicos de la familia de proteínas que incluyen enzimas (es decir, transferasas, hidrolasas, oxidorreductasas, proteasas y otras enzimas) y grupos no enzimáticos (es decir, receptores de membrana, canales iónicos, transportadores, factores de transcripción y epigenéticos). reguladores). Para cada familia, Se construyeron tres versiones de divisiones de prueba de tren considerando similitudes por pares de proteínas y/o compuestos (consulte la sección “Métodos” para obtener más detalles). Se entrenó un modelo PCM independiente en cada una de estas divisiones. En general, se construyeron, entrenaron y probaron 600 modelos de predicción de DTI.

Evaluamos el rendimiento de los modelos desde varias perspectivas utilizando múltiples métricas de puntuación. Las puntuaciones de correlación de Spearman y RMSE corregidas medianas se muestran como gráficos de líneas en la Fig. 8, en los que los círculos de color claro (transparentes) indican el rendimiento del modelo individual en cada familia de proteínas, y los rombos de color oscuro representan puntuaciones medias promediadas en todas las familias. Los modelos se clasifican según el rendimiento descendente en el conjunto de datos dividido completamente diferente (para ambas métricas). En la Fig. 9, los rendimientos del modelo se proporcionan como diagramas de caja en tres formas diferentes de la métrica MCC. Los modelos se clasifican de acuerdo con los valores medios descendentes de las puntuaciones de MCC medianas corregidas para los conjuntos de datos de división completamente diferente y de división compuesta diferente, y de acuerdo con las puntuaciones de MCC multiclase para el conjunto de datos de división aleatoria. Los rendimientos específicos de la familia de proteínas están disponibles en Archivo adicional 1: Tabla S3.

Figura 8
figura 8

Resultados de rendimiento de pruebas basados ​​en regresión de modelos PCM específicos de familias de proteínas (cada uno con un tipo de representación diferente como vector de características de entrada) para conjuntos de datos de división aleatoria, división de compuestos diferentes y división completamente diferente según (a) mediana corregida RMSE, y (b) Puntuaciones de correlación de Spearman. Los modelos se clasifican según el rendimiento decreciente en el conjunto de datos divididos completamente diferentes (es decir, el análisis a gran escala)

Figura 9
figura 9

Resultados de rendimiento de pruebas basados ​​en la clasificación de modelos PCM específicos de familias de proteínas (cada uno de los cuales utiliza un tipo de representación diferente como vector de características de entrada) en términos de puntuaciones de MCC para (a) división aleatoria, (b) división de compuestos diferentes, y (C) conjuntos de datos divididos completamente diferentes. Los modelos se clasifican según el rendimiento decreciente en el conjunto de datos divididos completamente diferentes (es decir, el análisis a gran escala)

Investigación de métricas de rendimiento

Las clasificaciones intrafamiliares de modelos generalmente son consistentes entre sí entre cinco métricas diferentes (Archivo adicional 1: Tabla S3). Sin embargo, existen algunas discrepancias entre las puntuaciones según la división de datos. Teniendo en cuenta las métricas de regresión, algunos de los modelos entrenados/probados en los conjuntos de datos de división completamente diferente y división compuesta diferente muestran un alto rendimiento en términos de RMSE (es decir, valores bajos de RMSE), mientras que al mismo tiempo, mostraron un bajo rendimiento de Spearman. correlaciones, lo que indica inconsistencia. RMSE es una medida de la diferencia entre los valores predichos y reales, y se utiliza cuando el objetivo es predecir valores continuos y medir el error general en las predicciones. Por otro lado, la correlación de rango de Spearman es una medida de la fuerza y ​​dirección de la relación entre dos variables clasificadas. La correlación de Spearman se usa comúnmente cuando el objetivo es determinar el grado en que se relacionan dos variables. En escenarios desafiantes (p. ej., en los conjuntos de datos divididos completamente diferentes y compuestos diferentes), la predicción continua basada en valores de bioactividades (a través de la regresión) es inestable y poco confiable debido a la dificultad de la tarea, por ejemplo, un único extremadamente un valor alto de error podría dominar el conjunto general y cambiar significativamente el promedio, ya que los valores de error no están acotados. Por lo tanto, sería una mejor opción evaluar el éxito de los modelos en términos de correlación y consistencia entre los valores reales y predichos utilizando puntajes de correlación (p. ej., Spearman’s). En el conjunto de datos de división aleatoria, la tarea de predicción no se considera difícil (en relación con las otras dos divisiones), como resultado, se espera que los valores pronosticados sean más estables y confiables. El uso de la métrica RMSE en este escenario nos permite medir directamente la precisión de las predicciones y diferenciar el rendimiento del modelo de una manera más precisa. Como resultado, ambos tipos de puntajes se pueden considerar para casos sencillos (es decir, el conjunto de datos de división aleatoria). En la evaluación basada en la clasificación, la métrica MCC de clase única no es tan restrictiva como la regresión o las métricas de evaluación multiclase, ya que es menos sensible a las desviaciones en los valores de predicción. Sin embargo, puede sufrir el problema de la media desplazada cuando se aplica a modelos PCM basados ​​en regresión mediante la binarización de los valores de bioactividad (consulte la sección “Métodos”—“Evaluación del desempeño”). Obtención de valores de MCC cercanos a 0 (Fig. 9) a pesar de la correlación moderada de Spearman puntajes (Fig. 8) en conjuntos de datos desafiantes es una señal de un cambio sistemático en los resultados de predicción del modelo, que manejamos al realizar una corrección mediana en los resultados de predicción de valor real, como se explica en la sección “Métodos”. Se puede observar que la corrección de la mediana proporcionó un aumento significativo en las puntuaciones de MCC de una sola clase de los conjuntos de datos de división completamente diferente y división de compuestos diferentes. Además, las puntuaciones de MCC medianas corregidas son altamente consistentes con las puntuaciones de correlación de Spearman (Archivo adicional 1: Tabla S3). Teniendo en cuenta la métrica MCC multiclase, las puntuaciones de predicción son de alrededor de cero para la mayoría de los modelos en conjuntos divididos desafiantes. Dado que esta métrica espera que los valores de predicción se ajusten a intervalos estrechos, es más restringida ive que las métricas basadas en una sola clase. Sin embargo, esto parece ser una ventaja para evaluar modelos en el conjunto de división aleatoria. Como se ve en la Fig. 9a, en el conjunto de datos de división aleatoria, la varianza de la distribución media de puntajes de MCC multiclase es mayor que los puntajes de MCC de una sola clase (es decir, los modelos están mejor separados entre sí). Además, su clasificación es muy consistente con los resultados de los experimentos de mediana escala, en los que los mejores resultados fueron las representaciones aprendidas, junto con los conjuntos de descriptores convencionales k-sep_pssm y apaac. Por lo tanto, se puede inferir que la métrica MCC multiclase discierne los modelos mejor que la clase binaria MCC en la configuración de división aleatoria de datos, y maneja en parte el problema de sobreajuste que ocurre con frecuencia en conjuntos de datos a gran escala divididos aleatoriamente.

Evaluación de representaciones de proteínas.

Los resultados de rendimiento en las Figs. 8 y 9 indican claramente que la capacidad de representación de diferentes conjuntos de descriptores de proteínas depende de la familia de proteínas y el nivel de dificultad de la división utilizada para el entrenamiento y la prueba. Además, no hay una diferencia significativa entre los rendimientos medios de diferentes representaciones de proteínas para una división de conjunto de datos en particular, con algunas excepciones. Teniendo en cuenta los promedios de rendimiento basados ​​en familias, pfam es una de las mejores representaciones en los conjuntos de datos de división completamente diferente y de división compuesta diferente, mientras que tiene el desempeño más bajo en el conjunto de datos de división aleatoria (Figs. 8, 9). A diferencia de pfam, k-sep_pssm es uno de los mejores en los conjuntos de datos de división aleatoria y división de compuestos diferentes, pero el peor en el conjunto de datos de división completamente diferente (Figs. 8, 9), aunque los resultados de rendimiento en el conjunto de datos de división aleatoria están muy cerca uno del otro. Como conjunto de descriptores basados ​​en la homología, se espera que k-sep_pssm capture similitudes ocultas entre secuencias relacionadas evolutivamente, especialmente aprovechando la presencia de proteínas muy similares entre el tren y las divisiones de prueba. Por otro lado, la utilización de perfiles de dominio de proteínas parece hacer que pfam sea más adecuado para adquirir información relacionada con la bioactividad de secuencias evolutivamente distantes, probablemente debido a procedimientos de búsqueda de perfil de familia/dominio basados ​​en HMM altamente sensibles implementados en Pfam y bases de datos similares. Curiosamente, taap, que es un conjunto de descriptores simple, está involucrado en los modelos PCM de mayor rendimiento para todas las divisiones de conjuntos de datos. Sin embargo, taap fue uno de los de menor rendimiento en los análisis de pequeña y mediana escala (entre los 10 conjuntos de descriptores convencionales seleccionados). Se observa que su simplicidad se convierte en una ventaja con el aumento del tamaño y la complejidad del conjunto de datos de bioactividad. Aparte de estos, los descriptores basados ​​en la fisicoquímica incluyen apaac (en todas las divisiones), ctriad (en el conjunto de datos de división completamente diferente) y qso (en los conjuntos de datos de división completamente diferente y de división compuesta diferente), y representaciones aprendidas funcionan bien en los análisis a gran escala. En particular, los mejores resultados de rendimiento de unirep5700 y transformer-avg en el conjunto de datos dividido completamente diferente demuestran el potencial de los métodos de aprendizaje de representación de proteínas en la predicción de DTI basada en datos.

También realizamos evaluaciones específicas de la familia de proteínas para comprender si las diferentes representaciones de proteínas muestran resultados similares en todas las familias. En la Fig. 10, trazamos el rendimiento de los modelos de proteasa y las familias de canales iónicos, en forma de un conjunto de descriptores convencionales frente a una comparación de representación aprendida, utilizando las puntuaciones MCC corregidas de Spearman y la mediana, para las tres divisiones de conjuntos de datos. Para una comparación justa, seleccionamos cuatro descriptores convencionales de buen desempeño en lugar de incluirlos a todos, ya que solo tenemos cuatro tipos diferentes de representaciones aprendidas. Para esto, involucramos apaac, k-sep_pssm, pfam y taap como conjuntos de descriptores convencionales y protvec, seqvec, transformer-avg y unirep5700 como representaciones aprendidas. La Figura 10 muestra que las representaciones aprendidas superan a los descriptores convencionales en las desafiantes divisiones de proteasas, considerando ambas métricas. Sin embargo, los resultados son opuestos para la familia de canales iónicos, en la que los conjuntos de descriptores convencionales funcionaron mejor. En el conjunto de datos de división aleatoria, no hay una diferencia observable entre los conjuntos de descriptores convencionales y las representaciones aprendidas, probablemente debido a la característica no discriminatoria de esta estrategia de división de datos, que plantea casos no desafiantes para todos los modelos.

Figura 10
figura 10

Comparación de rendimiento de conjuntos de descriptores convencionales de buen rendimiento y representaciones aprendidas para tres divisiones diferentes de conjuntos de datos de familias de proteasas y canales iónicos en términos de; (a) correlación de rango de Spearman, y (b) mediana de puntuaciones MCC corregidas

Los resultados presentados en la Fig. 10 también se correlacionan con las puntuaciones de otras familias de proteínas (Archivo adicional 1: Tabla S3). Para familias no enzimáticas, los valores de correlación de Spearman promedio (basados ​​en las representaciones en la Fig. 10) son 0.29 (cd: descriptores convencionales) y 0,26 (le: incrustaciones aprendidas) en la división completamente diferente, 0.40 (cd) y 0,34 (le) en la división de compuestos diferentes, y 0.84 (cd) y 0,87 (le) en los conjuntos de datos de división aleatoria. Para las familias de enzimas, estos valores son 0,23 (cd) y 0,26 (le) en la división completamente diferente, 0.51 (cd) y 0,52 (le) en la división de compuestos diferentes, y 0.84 (cd) y 0,86 (le) en los conjuntos de datos de división aleatoria. Los resultados muestran que, en conjuntos de datos desafiantes, los descriptores convencionales funcionan mejor en familias que no son de enzimas, mientras que las incrustaciones aprendidas funcionan mejor en familias de enzimas. Sugiere que el tipo de representación de proteína utilizada puede tener un impacto en el rendimiento del modelo según el tipo o la familia de proteínas que se estudie, posiblemente debido a las propiedades intrínsecas de estas familias de proteínas. Esta observación puede ser útil para desarrollar nuevas estrategias para mejorar el rendimiento del modelo. Todas las representaciones aprendidas en nuestro estudio se obtuvieron de modelos de aprendizaje profundo no supervisados ​​que se entrenan en grandes conjuntos de datos que incluyen todas las familias de proteínas. Limitar los conjuntos de datos de entrenamiento de estos métodos a familias específicas (o ajustar los modelos previamente entrenados en estas familias) aumentaría su poder de representación hacia esa familia.

Al tener en cuenta todos estos hallazgos, podemos afirmar claramente que las capacidades de representación de los diferentes enfoques de caracterización varían considerablemente entre las familias de proteínas y las estrategias de división, aunque se pueden hacer algunas inferencias comunes. Creemos que, al elegir un enfoque de caracterización en la predicción de DTI, se deben tener en cuenta los hallazgos específicos de la familia de proteínas, en lugar de considerar los resultados generales (es decir, promedio). Con respecto a las representaciones aprendidas, volver a entrenar (o ajustar) los modelos utilizando un conjunto de datos distinto con las características deseadas (por ejemplo, miembros de una determinada familia) puede ser una buena opción para aprender mejor las características específicamente asociadas con ese grupo de proteínas.

Comparación de estrategias de división de datos

Para comparar modelos en tres divisiones de conjuntos de datos, trazamos puntajes de rendimiento al agrupar 200 modelos de cada división (incluidos los modelos de referencia) sin ningún tipo de agrupación por familias o métodos de representación. Los resultados se muestran en la Fig. 11 a través de gráficos de violín. Esta figura muestra que hay una disminución significativa en el rendimiento general con el aumento de los niveles de dificultad de las divisiones, lo que no es un resultado sorprendente. Sin embargo, destaca la importancia de dividir los conjuntos de datos en pliegues de prueba/entrenamiento para la evaluación del rendimiento, con el objetivo de evitar la notificación de resultados demasiado optimistas y obtener una evaluación justa de los éxitos del modelo. La Figura 11 también muestra que los rendimientos del modelo se distribuyen de manera más uniforme en todo el rango de puntajes en los conjuntos de datos de división completamente diferente y de división compuesta diferente, en comparación con el conjunto de datos de división aleatoria, en el que la mayoría de los modelos produjeron resultados muy similares. puntajes, creando una región densa en la trama. Esta observación indica que la división aleatoria tiene menos poder en términos de distinguir diferentes modelos entre sí.

Figura 11
figura 11

Puntuaciones de rendimiento de prueba basadas en división de modelos PCM específicos de la familia en términos de RMSE, correlación de rango de Spearman y métricas de MCC mediana corregida

En la división totalmente diferente, no se comparten proteínas similares ni compuestos similares entre los pliegues de prueba y tren. Como resultado, este conjunto de datos es adecuado para evaluar el rendimiento de los modelos de predicción de DTI en términos de predicción de nuevos ligandos para objetivos poco estudiados (o candidatos para objetivos completamente nuevos). Mientras que en la división de compuestos diferentes, se presentan proteínas similares entre el tren y los conjuntos de prueba. Sin embargo, es útil para descubrir nuevos ligandos contra proteínas diana bien estudiadas, o proteínas para las que existen dianas estructuralmente muy similares y bien estudiadas.

Examen de los modelos de referencia

La Tabla 1 contiene puntajes de Spearman promedio basados ​​en familias de los modelos de mejor rendimiento y los modelos de referencia, junto con definiciones breves, para cada división de conjuntos de datos. Los detalles de construcción de los modelos de referencia se explican en la sección “Métodos” en la subsección “Enfoques de modelado” y los vectores aleatorios en las subsecciones “Tipos de caracterización para proteínas y compuestos”. Los modelos basados ​​en representaciones de proteínas y/o compuestos generadas aleatoriamente (es decir, random200, random200-random-ecfp4 y only-random-ecfp4) tienen puntajes de rendimiento más bajos en el conjunto de datos divididos totalmente diferentes, lo que se debe principalmente a la ausencia de proteínas y compuestos idénticos (o con una gran similitud) entre las muestras del tren y de la prueba. Uno de los modelos de línea de base incluidos en este análisis utiliza solo representaciones compuestas (es decir, modelo solo-ecfp4). Este modelo no utiliza un vector de proteína. Como resultado, el modelo aprende actividades solo sobre las características del compuesto, sin ninguna información sobre con qué proteína interactúa este compuesto. Esto es diferente de un modelo de predicción DTI convencional basado en ligandos, en el que las proteínas objetivo se usarían como etiquetas de los compuestos de entrada (es decir, como “un objetivo de la proteína X” o “no un objetivo de la proteína X”). Aquí, dado que la información sobre las proteínas no se utiliza en absoluto, el modelo intenta aprender interacciones a ciegas y hacer predicciones sin saber para qué objetivo está dando predicciones.

Tabla 1 Promedio de puntuaciones de Spearman basadas en familias de proteínas de los mejores modelos y modelos de referencia en cada división de conjuntos de datos

La puntuación media de la correlación de Spearman del modelo de mejor rendimiento en el conjunto de datos de división totalmente diferente es de alrededor de 0,3, que está bastante cerca del modelo solo-ecfp4. Esto indica que el éxito obtenido incluso por el mejor modelo se ha originado principalmente a partir de las características de los compuestos (es decir, un determinado compuesto está activo sin importar contra qué objetivo se haya evaluado, u otro compuesto está inactivo en la mayoría de los experimentos). Así, estos resultados revelan la necesidad de; (i) conjuntos de datos de entrenamiento de modelos imparciales y (ii) técnicas de caracterización novedosas/mejoradas, para construir modelos sólidos de predicción de DTI que se pueden utilizar en la industria farmacéutica, especialmente en estos escenarios desafiantes.

Los rendimientos del modelo son más altos en el conjunto de datos de división de compuestos diferentes en comparación con el conjunto de datos de división completamente diferente, debido a la inclusión de proteínas similares (e idénticas) entre el entrenamiento y la prueba. Además, los modelos basados ​​en vectores completamente aleatorios (tanto en el lado del compuesto como en el de la proteína, es decir, random200-random-ecfp4) tienen rendimientos más bajos, como era de esperar. En ambos conjuntos de datos desafiantes, el mejor modelo está bien diferenciado de los modelos de referencia basados ​​en vectores aleatorios. Aunque la diferencia media general entre el mejor modelo y el modelo random200 es considerablemente baja en la división de compuestos diferentes, las diferencias son claras cuando se hacen comparaciones específicas de familias de proteínas en lugar de tomar el promedio de todas las familias (p. ej., para canales iónicos; el la puntuación media de Spearman de los modelos de mejor rendimiento, incluidos k-sep_pssm, pfam, taap y protvec, es de 0,52, y la puntuación de Spearman del modelo random200 es de 0,37). En el conjunto de datos de división de compuestos diferentes, el modelo random200 superó al modelo only-ecfp4 al aprender la relación entre los puntos de datos de bioactividad de las mismas proteínas que se comparten entre el entrenamiento y la prueba. Como las mediciones experimentales de bioactividad se obtienen principalmente de ensayos basados ​​en objetivos, la cantidad de puntos de datos de bioactividad por proteína es considerablemente alta, en comparación con la cantidad de puntos de datos de bioactividad por compuesto (Archivo adicional 1: Tabla S5, S6). Además, en muchos ensayos, se prueban diferentes derivados del mismo compuesto, lo que da como resultado valores de bioactividad similares. Debido a este sesgo en los ensayos experimentales, la memorización sobre la identidad de la proteína produce resultados falsos exitosos, como se refleja en el rendimiento del modelo random200 en el conjunto de datos de división de compuestos diferentes (puntuación promedio de Spearman = 0.436).

En el conjunto de datos de división aleatoria, el mejor modelo muestra una alta tasa de éxito (puntuación de Spearman: 0,868). Sin embargo, las puntuaciones de alto rendimiento de los modelos de referencia, incluidos los basados ​​en vectores generados aleatoriamente (p. ej., random200), indican claramente la evaluación demasiado optimista y enfatizan la importancia de la división de datos de prueba de tren, una vez más. Estos resultados también demuestran la importancia de la investigación basada en modelos de referencia en el campo de la predicción de DTI, para una evaluación de desempeño justa y realista. Es posible afirmar que, los resultados informados en estudios previos de predicción de DTI en los que (i) los modelos solo se evalúan en función de la división aleatoria (incluidas las pruebas de retención y la validación cruzada basada en pliegues), y (ii) hay si no hay comparaciones de modelos de referencia adecuadas, puede no ser válido.

Exploración de las similitudes de predicción entre los modelos PCM específicos de la familia

En este experimento, trazamos mapas de calor basados ​​en similitudes por pares entre las predicciones del modelo PCM específico de la familia de proteínas mediante el cálculo de sus intersecciones, utilizando una categorización compuesta de seis clases (es decir, intervalos de valor de pChEMBL de < 5, 5,0 a 5,5, 5,5 a 6,0, 6,0 a 6,5, 6,5 a 7,0 y 7,0 > =). Para calcular la similitud entre un par de modelos, para cada punto de datos de bioactividad, contamos una predicción similar si ambos modelos predicen valores de pChEMBL en el mismo contenedor (sin importar si son correctos o no), de lo contrario, contamos una predicción no similar. Luego calculamos los valores porcentuales de similitud basados ​​en todos los conteos. Para enfatizar los valores de similitud de predicción entre pares de modelos, las escalas de color se organizaron de modo que el color más oscuro corresponda al valor máximo, y el color más claro se estableció en 85%, 65% y 20% de similitud para el compuesto diferente dividido al azar. -split, y los conjuntos de datos completamente diferentes, respectivamente.

En la Fig. 12, se proporcionan mapas de calor de las familias de transferasas y canales iónicos para las tres divisiones de conjuntos de datos (los mapas de calor para las familias restantes están disponibles en el Archivo adicional 1: Fig. S4). Como se observa en la Fig. 12, el consenso general entre los modelos disminuye con el aumento de los niveles de dificultad (es decir, la similitud promedio es superior al 80 % para la mayoría de los modelos en el conjunto de datos de división aleatoria, mientras que este valor cae al 30–60 % en el conjunto de datos). conjunto de datos dividido completamente diferente). Aunque los grupos varían según las diferentes divisiones y familias de proteínas, generalmente las incrustaciones aprendidas y los descriptores convencionales basados ​​en la fisicoquímica se agrupan entre sí. Teniendo en cuenta el conjunto de datos de transferasas dividido completamente diferente; la similitud de predicción promedio entre los modelos que utilizan representaciones aprendidas (excepto protvec) es del 60,8 %, y entre los modelos que utilizan conjuntos de descriptores convencionales basados ​​en fisicoquímica (es decir, qso, apaac, geary, ctriad) es del 68,2 %, mientras que la predicción promedio la similitud entre las representaciones convencionales vs. aprendidas basadas en fisicoquímica (considerando los mismos modelos) es del 46,5%. Estos hallazgos también son paralelos a los resultados de la proyección t-SNE proporcionados en la Fig. 2. Teniendo en cuenta el tipo de información utilizada, todas las representaciones aprendidas explotan la disposición de los aminoácidos en la secuencia de la proteína. Por otro lado, los descriptores basados ​​en la fisicoquímica agregan características basadas en aminoácidos precalculadas para construir vectores de características de proteínas. Esta diferencia también se refleja en sus similitudes de predicción. Las representaciones spmap y random200 a menudo se agrupan juntas y también tienen proyecciones t-SNE similares. Por último, los modelos que utilizan conjuntos de descriptores pfam y taap se diferencian bastante del resto en los conjuntos de datos de división aleatoria y división de compuestos diferentes, lo que se espera en función de sus distintas estrategias de caracterización.

Figura 12
figura 12

Mapas de calor agrupados de diferentes enfoques de caracterización de proteínas para familias de canales iónicos y transferasa en; (a) la división aleatoria, (b) división de compuestos diferentes, y (C) los conjuntos de datos divididos completamente diferentes

Los resultados de este análisis se pueden utilizar para obtener combinaciones racionales de enfoques de caracterización para representar mejor las proteínas en los modelos de predicción DTI (p. ej., concatenar vectores de características que tienen una superposición de predicción baja). Esto puede producir un aprendizaje más exitoso de las propiedades de las proteínas relevantes para la interacción y mejorar significativamente el rendimiento general del modelo.

Análisis de dominio de aplicabilidad (AD) de modelos PCM específicos de la familia

El concepto de AD se utiliza para definir los límites de un modelo dentro del cual se espera que proporcione predicciones precisas y fiables, y para evaluar su usabilidad. Ha sido incluido como un requisito esencial para los modelos QSAR por la Organización para la Cooperación y el Desarrollo Económicos (OCDE). En el ámbito del modelado QSAR, AD se define como el espacio de estructura química en el que el modelo produce predicciones fiables. [50]. Es significativo porque las predicciones confiables de un modelo QSAR generalmente se restringen a compuestos de consulta que comparten altas similitudes estructurales con los compuestos de entrenamiento. [51]. A diferencia de los modelos QSAR, el enfoque de modelado PCM tiene en cuenta el espacio de proteínas y compuestos y tiene el potencial de revelar relaciones complejas entre ellos, ya que el rendimiento del modelo no se basa únicamente en la similitud de los compuestos. Aunque el concepto de AD no es directamente aplicable al modelado PCM, ha habido algunos esfuerzos para evaluar el AD de los modelos PCM utilizando k-vecinos más cercanos (k-NN) [34, 52] y procesos gaussianos (GP) [53].

En este estudio, empleamos el k-Enfoque NN para evaluar la DA de nuestros modelos. Para esto, primero calculamos las similitudes de Tanimoto entre los compuestos de prueba y de entrenamiento en función de sus huellas dactilares ecfp4. Para cada compuesto de prueba, calculamos el puntaje promedio de Tanimoto de los cinco compuestos de entrenamiento más similares (es decir, los 5 vecinos más cercanos), como se describe en el estudio de Subramanian et al. [52]. Luego, aplicamos la misma estrategia para las proteínas de prueba utilizando las similitudes de secuencia mencionadas en la subsección “Distribuciones de similitud por pares”. En la Fig. 13, trazamos similitudes de compuestos y proteínas frente a errores de predicción para cada punto de datos de prueba en conjuntos de división aleatoria, división de compuestos diferentes y división completamente diferente del conjunto de datos de la familia de transferasas para modelos basados ​​en el promedio del transformador.

Figura 13
figura 13

Gráficos de dispersión de similitudes de compuestos y similitudes de proteínas contra errores de predicción de puntos de datos de prueba en (a) división aleatoria, (b) división de compuestos diferentes, y (C) conjuntos de transferasas divididos completamente diferentes para modelos de transformador promedio

La figura muestra que la mayoría de los puntos de datos con altas similitudes de proteínas y compuestos tienen errores de predicción bajos, pero no existe una correlación directa entre la similitud y los valores de error, como suele observarse en los modelos QSAR. En cada intervalo de porcentaje de similitud, hay puntos de datos con errores de predicción bajos y altos en distintas frecuencias, incluso con similitudes extremadamente bajas. Esto confirma la capacidad de extrapolación del enfoque de modelado PCM. Sin embargo, la cantidad de puntos de datos con mayor error aumenta en conjuntos de datos desafiantes, lo que reduce el dominio de aplicabilidad de los modelos en estos conjuntos de datos. El error de predicción promedio (mi) y valores de similitud de proteínas (pag) y compuestos (C) basado en la Fig. 13 son 0.48 (mi), 66% (pag), 77% (C) para división aleatoria, 0.92 (mi), 64% (pag), 35% (C) para disimilar-compound-split, y 0.94 (mi), 23% (pag), 33% (C) para la división totalmente diferente, respectivamente. Estos valores también indican que los cambios en la similitud de los compuestos tienen un mayor impacto en el error, en comparación con las proteínas. Los resultados también fueron similares en nuestros otros modelos. Es posible inferir de estos resultados que los modelos PCM tienden a utilizar características compuestas más que características de proteínas, principalmente debido al sesgo natural en los datos DTI.

En general, estos resultados indican que los modelos pueden predecir de manera confiable una cantidad considerable del conjunto de datos de prueba (es decir, el 88 %, 59 % y 61 % de las muestras de prueba se predicen con errores < 1 en división aleatoria, división de compuestos diferentes y conjuntos divididos completamente diferentes, respectivamente Archivo adicional 1: Tabla S4). Sin embargo, también es posible afirmar que la aplicabilidad es limitada en conjuntos de datos desafiantes. El cambio entre las distribuciones de valores de características de entrada puede ser una de las razones principales para obtener un rendimiento más bajo y un rango de aplicabilidad más estrecho para los modelos entrenados en divisiones de compuestos totalmente diferentes y diferentes (Archivo adicional 1: Fig. S3). En el Al mismo tiempo, esta es una parte natural de los problemas actuales, que consisten en descubrir fármacos verdaderamente novedosos y/o dirigirse de forma eficaz a proteínas poco estudiadas. Si bien es posible mejorar el rendimiento hasta cierto punto mediante la aplicación de técnicas de preprocesamiento, los métodos clásicos de aprendizaje automático y los enfoques de representación disponibles son solo parcialmente suficientes para manejar el problema de predicción de DTI en escenarios realistas. Por lo tanto, se requieren enfoques más avanzados, como el aprendizaje profundo multimodal y nuevas representaciones integrales, desarrolladas específicamente para el modelado de bioactividad, para revelar de manera efectiva las relaciones no lineales entre las proteínas diana y los compuestos candidatos a fármacos.

Fuente del artículo

Deja un comentario