Modelo de bosque aleatorio para la predicción de la interacción entre el fármaco y el objetivo a través de la divergencia de Kullbeck-Leibler | Revista de quimioinformática

En este estudio, se realizó el modelado probabilístico de similitud química para describir las características de un determinado ligando (fármaco) en el modelo de RF. Primero, la información de similitud se implementó en la ecuación KLD a través de una estimación de densidad no paramétrica. En segundo lugar, los valores KLD calculados permitieron comparaciones cuantitativas entre objetivos y un ligando (consulta). Finalmente, el clasificador de RF se construyó utilizando los vectores de características KLD para la predicción de DTI. En esta sección, presentamos los resultados de nuestro estudio, incluido el poder predictivo del clasificador de RF y los resultados del análisis de características.

Representación de objetivos y ligandos mediante un modelo de distribución de probabilidad no paramétrico

En este documento, presentamos la terminología «clase objetivo». Debido a que una matriz Q-Q se obtiene de un grupo (una clase) de ligandos que comparten una proteína diana, la matriz caracteriza una diana usando su información de ligando para representar la diana bajo la suposición quimiocéntrica. [26, 47]. Por lo tanto, para nombrar convenientemente el grupo de una matriz Q-Q específica, nombramos cada grupo de la clase objetivo con su nombre objetivo. La información de similitud de las clases objetivo se representó mediante un modelo de distribución de probabilidad no paramétrico de la matriz Q-Q respectiva. Mientras que muchas clases estaban ligeramente sesgadas pero eran similares a una distribución gaussiana, algunas clases diferían significativamente de la distribución gaussiana, por ejemplo, el receptor opioide sigma (Q3) de la figura 3A, el receptor del factor de crecimiento de fibroblastos 1 (FGFR1) de la figura 3B muestra que la densidad de probabilidad de cada clase objetivo puede ser severamente asimétrica y sesgada, lo que dificulta asumir la consistencia estructural. En particular, FGFR1 (Q10), que contiene> 1000 ligandos, no se puede ajustar bien a un modelo gaussiano. Sin suposiciones estructurales (p. ej., gaussianas y gamma) sobre datos de similitud, la estimación de densidad no paramétrica proporciona más flexibilidad y menos pérdida de información que los modelos mixtos gaussianos (GMM) anteriores. [26]. Como se muestra en la figura 3 y el archivo adicional 1: figura S1, KDE se ajusta perfectamente a la distribución única de las respectivas clases de destino. Los resultados en la Fig. 3 son diferentes de la mayoría de los estudios que involucran similitud química, que asumen que la distribución de similitud es una distribución gaussiana. [48]. Debido a que la composición de las clases objetivo difiere según los ligandos ortostéricos, los ligandos alostéricos y los reguladores de unión no directa, sus distribuciones son diferentes entre sí y no se ajustan a la distribución gaussiana. Por lo tanto, concluimos que la distribución KDE es un método más razonable que el GMM paramétrico para describir la predicción DTI quimiocéntrica.

Fig. 3
figura 3

Comparación de sus densidades de probabilidad con una distribución de similitud 3D (de la matriz Q-Q). A Histograma de similitud 3D y densidades de probabilidad, GMM (n = 2) y KDE del receptor opioide sigma (Q3), B Histograma de similitud 3D y densidades de probabilidad, GMM (n = 2) y KDE del receptor 1 del factor de crecimiento de fibroblastos (Q10), y C Distribución heterogénea de similitud 3D entre tres objetivos, proteína de choque térmico 90 (Q2), receptor del factor de crecimiento de fibroblastos 1 (Q10), serina treonina-proteína quinasa mTOR (Q14). Eje X: similitud 3D (coeficiente de Jaccard-Tanimoto), eje Y: frecuencia relativa

Además de la representación de objetivos, la relación entre un ligando específico (fármaco) y un objetivo se representó en el modelo KDE del respectivo vector Q-L. Las dimensiones de los datos entre los vectores Q-L diferían significativamente debido a la diferente cantidad de ligandos dentro de una clase objetivo (el tamaño máximo de un vector Q-L era 15 000). Sin embargo, KDE proporcionó una distribución de densidad estable (suficientemente buena) independientemente del tamaño del conjunto de datos. La distribución de densidad de probabilidad describe las características del par respectivo (un ligando y una clase objetivo) y permite una comparación entre los pares “clase objetivo-fármaco”. En otras palabras, las distribuciones KDE de los vectores Q–L implican DTI. Mientras que una comparación por pares dentro de una clase objetivo fija es fácil y razonable (p. ej., Medicamento 1⎼Objetivo 1 (D1–T1) frente a D2–T1), la comparación por objetivos (D1–T1 contra D1–T2) o una comparación cruzada (p. ej., D1-T2 frente a D2-T1) es difícil. En particular, la diferencia entre los objetivos caracterizados (efectos de confusión) debe ajustarse para la comparación de pares. Por lo tanto, las comparaciones de pares deben generalizarse y cuantificarse entre los objetivos para la predicción de DTI. Para realizar esto, usamos el KLD como medida de información o entropía relativa. Porque el KLD mide la diferencia entre dos distribuciones estadísticas o probabilísticas [26], puede proporcionar la información de similitud de cualquier par «clase objetivo-fármaco» considerando las características del objetivo en el par. Esto nos permite incorporar las características de los objetivos (qizquierda(xderecha)) en la comparación por pares, (p(x)) (la ecuación en la Subsección 2.7 de la sección de Materiales y Métodos) para comparación cruzada (p. ej., D1–T2 vs. D2–T1) o comparación por objetivo (D1–T1 contra D1–T2). En otras palabras, la función de densidad de probabilidad (qizquierda(xderecha)) es el modelo KDE de la respectiva matriz Q-Q. Por lo tanto, la comparación cruzada o por objetivos cambia la (qizquierda(xderecha)) a través de los objetivos. Mientras tanto, las tres comparaciones requieren sólo dos (qizquierda(xderecha)) generada a partir de dos matrices Q-Q y tres (p(x)) generado a partir de tres vectores Q-L. Por lo tanto, paradójicamente, se prefiere la distribución de densidad “extraordinaria” (que muestra una asimetría severa, sesgo y una cola gorda) para verificar la viabilidad de este método, donde la entropía de la información (KLD) se calcula y utiliza sin considerar una regla estadística o una regla estadística. corte (p. ej., comparación entre la significación y pags-valor bajo la hipótesis nula).

$$mathrmleft(mathrm|mathrmright)= _pleft(xright) lnfrac *dx+ _left(qleft(xright)-pleft(xright)right)*dx$$

KLD como descriptor DTI

Hasta donde sabemos, la similitud química no se usa popularmente como una característica única en la predicción de DTI. [5,6,7,8,9,10,11,12, 24, 25]. Por lo tanto, investigamos un descriptor de DTI quimiocéntrico capaz de brindar un mejor poder de discriminación que las puntuaciones de similitud de un fármaco para múltiples objetivos. Como se mencionó anteriormente, las densidades de probabilidad de las clases objetivo varían considerablemente (Fig. 3). Por lo tanto, cuando se compara un nuevo fármaco con múltiples clases objetivo, la ubicación relativa de una puntuación de similitud en las densidades de probabilidad, como el valor E de SEA, es más importante que la puntuación más alta (p. ej., máx. de Tc) extraída de la similitud. puntuaciones [47]. Mientras tanto, el cálculo de KLD incluye la relación entre todos los ligandos de una clase objetivo en función de la q(x) de la matriz Q-Q (información específica del objetivo) y la relación de un fármaco de consulta con una clase objetivo en función de la p( x) del vector Q–L (información específica del ligando). El valor KLD no responde ni a la puntuación de similitud más alta ni al límite (de puntuación de similitud, puntuación Z estadística, valor p, valor E), pero describe la similitud relativa entre un nuevo fármaco y una clase objetivo . Cuando un nuevo fármaco muestra un valor KLD más pequeño para una clase objetivo específica que para otras clases, predecimos el DTI del par fármaco-objetivo. Este punto hace que los valores KLD sean un nuevo descriptor DTI quimiocéntrico distinto de cualquier descriptor molecular o puntuación de similitud (un valor KLD; relación de un par fármaco-diana frente a un valor de similitud; la de un par fármaco-fármaco frente a un valor molecular). descriptor; información sobre un fármaco). Por lo tanto, intentamos determinar el potencial de la divergencia de distribución como descriptor de DTI. Como se mencionó en la sección «KLD como descriptor de DTI», la distribución de KDE mostró un proxy adecuado que representaba la q(x) de la matriz Q–Q y la p(x) del vector Q–L. La divergencia cuantifica la predicción de DTI entre un fármaco individual y una clase objetivo comparando q(x) y p(x).

La densidad de probabilidad q(x), que identifica la relevancia entre ligandos “dentro” de una clase objetivo, proporciona información específica del objetivo. Por lo tanto, en particular, tanto la densidad individual (ligando-objetivo) como la densidad colectiva (objetivo-objetivo) se pueden comparar a través del KLD. Para la densidad colectiva (objetivo-objetivo), podríamos examinar la densidad objetivo-objetivo con un análisis de objetivos por pares (Tabla 1). En otras palabras, se calcularon los valores de KLD entre clases objetivo emparejadas (matriz Q-Q frente a Q-Q). Además, la cantidad de divergencia inversa se calculó sustituyendo q(x) y p(x) en la posición inversa (Tabla 1). Las cantidades duales (KLD y KLD inversa) describen la relevancia entre las clases objetivo. El par con menor divergencia sugiere que el las clases objetivo exhiben distribuciones similares, lo que implica características similares entre ellas. El KLD mide la medida en que una consulta (medicamento o objetivo) es diferente de un objetivo. Por lo tanto, aplicamos espontáneamente esta noción al modelo de clasificación DTI.

Tabla 1 KLD entre pares objetivo (matriz Q-Q frente a otra matriz Q-Q, objetivo 17 × 17)a

Además, los resultados en la Fig. 4 muestran que los valores KLD son aplicables a las predicciones DTI basadas en la similitud 2D y 3D. Debido a que los métodos 2D actuales se pueden usar en la red DTI y QSAR de múltiples clases sin causar el problema de puntos de datos incontables (muestreo conformacional), la utilidad del KLD como descriptor DTI puede no ser tan significativa en métodos 2D como lo es en métodos 3D. Por el contrario, si un objetivo novedoso contiene solo unos pocos ligandos, los métodos de similitud 3D pueden proporcionar información más enriquecida sobre el objetivo utilizando conjuntos conformacionales, y nuestro método puede ayudar a los métodos 2D conocidos y otras predicciones de DTI. Además, como se muestra en nuestro estudio anterior [26]aunque los métodos 2D son más rentables en términos de predicciones en el objetivo (objetivo principal) que los métodos 3D [17, 21]la similitud 3D sigue siendo crucial para la detección de objetivos in silico de fármacos sin precedentes [49] porque (1) los medicamentos nuevos y sin precedentes exhiben una similitud 2D extremadamente baja con los medicamentos conocidos [50,51,52](2) los nuevos perfiles farmacológicos de fármacos se determinan con mayor frecuencia utilizando predicciones 3D fuera del objetivo similares [53]y (3) se pueden generar propiedades de fármacos realistas a partir de sus estructuras 3D fácticas y flexibles (conformistas) [23, 54, 55].

Figura 4
Figura 4

Comparación entre los valores KLD basados ​​en 2 y 3D entre la densidad objetivo (QQ) y la distribución de ligandos (QL). Eje X: valor KLD, eje Y: frecuencia relativa. La densidad QQ en el histograma de color naranja es FGFR1 (Q10), la del color azul es mTOR (Q14) A Medición KLD de similitud 3D (huellas dactilares E3FP de confórmeros de ligandos FGFR1 y mTOR), B Medición KLD de similitud 2D (huellas dactilares de Morgan de ligandos de FGFR1 y mTOR)

Predicción DTI del clasificador RF

Se construyó un modelo de clasificación binaria utilizando el KLD para la predicción de DTI de medicamentos de consulta individuales. Se investigaron modelos predictivos de características coordinadas por divergencia en base a conjuntos de datos de entrenamiento (75 %) y prueba (25 %). El algoritmo de RF mostró un rendimiento estadístico confiable y es un clasificador deseable para la predicción de DTI (Tabla 2, Figs. 5, 6, 7). A pesar del número desequilibrado de ligandos entre diferentes objetivos, el aprendizaje conjunto indicó una precisión y recuperación aceptables en el conjunto de prueba para cada objetivo (Tabla 2). El receptor del factor de crecimiento epidérmico (Q17), que comparte algunos ligandos con todos los objetivos excepto con Q4 y Q13, mostró un rendimiento más bajo que el de otros objetivos. De manera similar, Q11 también compartió algunos ligandos con doce objetivos. Sobre la base de una validación cruzada quíntuple, la precisión de validación promedio fue de 0,88. Además, visualizamos nuestro modelo construyendo tanto la curva característica operativa del receptor (ROC) como un diagrama de caja. Como se muestra en la Fig. 5, los valores del área bajo la curva (AUC) (> 0,96), que indican el área bajo la curva ROC, significan un rendimiento predictivo con una matriz de confusión exitosa de la Fig. 6A (consulte también Archivo adicional 1: Tabla S3). Además, la curva ROC no muestra una dependencia significativa de la precisión entre los ligandos clasificados por los objetivos. Además, la precisión promedio basada en el rango percentil de las características KLD describió la información de distribución del modelo predictivo en el diagrama de caja (Fig. 7). Los patrones en la “RESPUESTA” del clasificador RF se muestran en el diagrama de caja. La línea horizontal (naranja) muestra un límite de decisión sesgado en el clasificador de RF, que se hereda de las características de nuestro conjunto de datos RAW con una densidad de probabilidad irregular.

Tabla 2 El desempeño del modelo RF en la predicción de DTI
Figura 5
Figura 5

Las curvas ROC de los datos de prueba muestran el rendimiento de la predicción DTI. Eje X: tasa de falsos positivos; Eje Y: tasa de verdaderos positivos. Cada línea indica la clase objetivo respectiva con valores AUC

Figura 6
figura 6

La matriz de confusión del conjunto de prueba que muestra el rendimiento de predicción de DTI. Eje X: DTI real; Eje Y: DTI previsto. A clasificador 3D KLD-RF, B Clasificador 2D KLD-RF

Figura 7
figura 7

Los diagramas de caja que muestran el rendimiento de la predicción de DTI. Eje X: rango percentil de características KLD; Eje Y: precisión media

En secuencia, comparamos el rendimiento del modelo KLD-RF con otros estudios de DTI basados ​​en la similitud química (PASS, SEA, CSNAP2D y CSNAP3D) como se muestra en la Tabla 3 [5, 24, 25, 47, 56,57,58]. A pesar de la diferencia en los tipos de datos utilizados (objetivo y sus ligandos), estos estudios se compararon mediante valores estadísticos, recuperación y AUC. En particular, la superioridad de KLD-RF sobre CSNAP3D se observó en el objetivo común HSP90 (Q2). Además, el rendimiento de los métodos basados ​​en redes (CSNAP2D y CSNAP3D) y SEA depende del límite de similitud. CSNAP3D no puede considerar la flexibilidad conformacional. Además, SEA tiene la suposición de una función de densidad de probabilidad. Ahora que se presentó el potencial de utilidad de KLD-RF, intentamos construir el modelo KDL-RF usando similitud 2D y datos fuera de conjunto (Tabla 4). Si bien la función de densidad de probabilidad del receptor opioide sigma (Q3) se ajustó a un histograma de similitud 3D (de 634 confórmeros), solo cinco ligandos eran demasiado pequeños para construir un histograma 2D de Q3. Por lo tanto, no se usó la matriz Q-Q del objetivo y solo se calcularon los vectores Q-L entre los cinco ligandos y los 16 objetivos para crear 16 vectores de características KLD. Claramente, el rendimiento promedio de 3D KLD-RF fue superior al de 2D KLD-RF. Además, el modelo 3D KLD-RF fue validado por otros compuestos de bis-N,N-diarilamino tetrahidropirano fuera de serie y sin precedentes, que son moduladores de la expresión del receptor de vitamina D (VDR). [26, 50]. En este caso, de manera similar al objetivo Q3 en 2D KLD-RF, los moduladores VDR tienen una etiqueta objetivo (Q0) pero no tienen un vector KLD para VDR. La validación fuera del conjunto mostró un rendimiento comparable a la validación de 17 objetivos.

Tabla 3 Comparación de pruebas entre el modelo KLD-RF y los modelos de predicción DTI
Tabla 4 Comparación entre el modelo KLD-RF y los modelos de predicción DTI

Correlación de características e importancia del clasificador basado en KLD

Para interpretar el modelo DTI, llevamos a cabo un análisis de características de la matriz de correlación entre características (Fig. 8) y eliminamos las características menos importantes (Fig. 9). Además de la correlación, se puede medir la importancia relativa de una característica en un modelo de RF con respecto a la variable dependiente. La Figura 8 muestra los coeficientes de correlación por pares, que reflejan la cantidad de dependencia entre las características. Cada valor corresponde a una divergencia menor entre las densidades q(x) de las clases objetivo. Al proporcionar un criterio para la selección de variables, se logra una alta correlación entre el subconjunto de características, lo que reduce la importancia de dichas características y, por lo tanto, la precisión de la predicción. Sin embargo, la mayoría de las características de DTI, excepto el vector de características 17 (generado a partir de los ligandos del receptor del factor de crecimiento epidérmico Q17), mostró un coeficiente de correlación aceptable de menos de 0,7. Se pueden usar varios métodos para calcular la importancia de la característica en términos de su efecto en el modelo. La métrica más típica, es decir, la disminución media de impurezas, define la reducción media de impurezas como el criterio de importancia cuando se elimina cada característica de un modelo. Si el valor de característica correspondiente se asigna aleatoriamente, el valor predicho se vuelve menor que el valor de referencia y viceversa. La mayor importancia de una característica en nuestro estudio implica la unicidad de la función de densidad q(x), que es comparable. La Figura 9 ilustra la importancia de estas características en el modelo DTI. En general, se espera que la poda de características menos importantes resulte en una mayor precisión de clasificación. En nuestro modelo DTI, más de 10 características indicaron una precisión superior a 0,8. La selección de características es vital para la estabilidad y precisión del modelo. Centrarse en un pequeño número de características (10 a 15) es aceptable para evitar problemas de dimensionalidad. Debido a que el tamaño estándar de las muestras de entrenamiento es de 15 000 para cada objetivo, es razonable tener de 10 a 15 características para evitar el sobreajuste.

Figura 8
figura 8

Mapa de correlación entre vectores de características KLD en el modelo RF

Figura 9
figura 9

Eliminación de características de características menos importantes para mostrar la puntuación inmediata. Eje X: el número de vectores de características KLD; Eje Y: la precisión con respecto al número de características

Fuente del artículo

Deja un comentario