Clasificación de una clase para la detección de agonistas de los receptores adrenérgicos β2 utilizando datos de interacción dinámica de un solo ligando | Revista de quimioinformática

Introducción

Los GPCR clásicamente median las respuestas a la unión del agonista al acoplarse al efector, típicamente una proteína G. El mecanismo de activación y la señalización resultante están íntimamente relacionados con la conformación del receptor, que a su vez es estabilizado o inducido por las interacciones formadas con el agonista. El proceso está bien caracterizado por la activación de ABDR2 por los agonistas endógenos epinefrina y norepinefrina. Por ejemplo, se ha propuesto que el enlace de hidrógeno con Ser207 es un determinante clave de la unión del agonista. [31]. En el presente trabajo, consideramos que las relaciones entre estructura y función son desconocidas y evaluamos si un modelo de aprendizaje automático entrenado con la información estructural de un solo ligando es capaz de determinar interacciones clave relacionadas con agonistas, asumiendo que los patrones de interacciones que son los más conservados durante la simulación MD del complejo receptor-agonista también son los más relevantes para la señalización. El modelo de aprendizaje automático se aplica para evaluar la compatibilidad de los patrones de interacción predichos por el acoplamiento de cualquier ligando del receptor con la definición común determinada a partir de los datos de entrenamiento del agonista de referencia. Un ligando evaluado positivamente exhibe potencialmente un modo de unión similar al del agonista de referencia y se supone que desencadena la misma respuesta farmacológica.

Modelo de desarrollo

Agonistas de referencia y simulaciones MD

Se seleccionaron tres agonistas diferentes para generar los conjuntos de entrenamiento a partir de simulaciones de dinámica molecular publicadas o disponibles públicamente. [32, 33]: Epinefrina, hidroxibencil isoproterenol (HBI) y BI167107 (Fig. 1A). La epinefrina es un agonista de baja afinidad de ABDR2 [34]. Como miembro de los neurotransmisores endógenos de la familia de las catecolaminas, contiene el grupo 1,2-dihidroxibenceno (es decir, catecol) y una amina de cadena lateral. La amina de cadena lateral es parte de un grupo de 2-aminoetanol común a los agonistas de ADRB2. HBI es un aglutinante de alta potencia de ADRB2 [34]. Es una superestructura de epinefrina que presenta un grupo fenol al final de la cadena lateral. BI167107 es un aglutinante de ultra alta afinidad de ADRB2 [34]. Su estructura comparte con la epinefrina y el HBI el grupo 2-aminoetanol, pero no el catecol que se reemplaza por un grupo funcional diferente, con uno de los dos grupos hidroxilo reemplazado por un resto similar a la 3-morfolinona.

Figura 1
Figura 1

A Estructura de los tres agonistas de referencia mostrando los enlaces de hidrógeno observados en las estructuras cristalográficas. Los residuos de ADRB2 se identifican por su número de secuencia y por la notación Ballesteros-Weinstein. B IFP con enlaces de hidrógeno formados entre el agonista y ABDR2 en la trayectoria y estructuras cristalográficas. HBA indica interacciones con la proteína que actúa como aceptor de enlaces de hidrógeno, HBD indica interacciones con la proteína que actúa como donante de enlaces de hidrógeno. Los IFP de estructura cristalográfica se indican mediante su PDBID. C Distribución promedio de los tipos de pseudoátomos de interacción durante las trayectorias MD. media pensión enlaces de hidrógeno, ION interacciones iónicas, HYD contactos hidrófobos, ORA interacciones pi-pi. Las partes de color más claro y de leyenda de las barras HYD corresponden a la definición predeterminada (Hyd) y más estricta (Newhyd) de contactos hidrofóbicos, respectivamente.

Las estructuras cristalográficas de ADBR2 sugieren, para los tres agonistas, un fuerte anclaje de su grupo 2-aminoetanol mediante enlaces de hidrógeno a residuos en TM2 (Asp113) y TM7 (Asn312), así como una interacción entre el hidroxilo de catecol o su sustituto en BI167107, con una serina de TM5 (Fig. 1A) [7, 34]. Las interacciones formadas entre la epinefrina y ADRB2 no se conservan estrictamente durante la simulación MD (Fig. 1B y Archivo adicional 1: Fig. S1). Además, se observan nuevas interacciones, incluido un enlace de hidrógeno con Ser207. Las variaciones del modo de unión también están marcadas en la trayectoria de HBI-ADRB2 MD, lo que implica residuos de receptor adicionales en las interacciones formadas con el agonista. Mientras que las trayectorias MD de epinefrina-ADBR2 y HBI-ADRB2 describen el estado activo del receptor, la trayectoria MD de BI167107-ADRB2 [33] simula la transición del receptor del estado activo al estado inactivo y, por lo tanto, se dividió para distinguir la unión de BI167107 al estado activo (BI167107-A) y al estado inactivo (BI167107-I), dando así dos conjuntos de datos separados . Es importante destacar que el enlace de hidrógeno con Ser207 se pierde en BI167107-I. Se observó el cambio del estado activo al inactivo a pesar de que el receptor estaba unido a BI167107, un agonista. La ausencia de un compañero de unión intracelular, que estabiliza la conformación del estado activo, explica la transición.[35]. El estado completamente inactivo del receptor se observó solo después de microsegundos de simulación, una escala de tiempo más larga que la utilizada en las otras simulaciones seleccionadas (Tabla 1). El estudio de BI167107 unido tanto al estado activo como al inactivo del receptor se utilizó para investigar las diferencias entre los modelos construidos utilizando información estructural cercana y lejana a la estructura cristalográfica del estado activo.

Tabla 1 Simulaciones MD utilizadas para el conjunto de datos de entrenamiento. La duración de la simulación se refiere a una única réplica y no a toda la trayectoria.

En este trabajo se utilizaron un total de cuatro conjuntos de entrenamiento. La Tabla 1 caracteriza las trayectorias MD con el número de simulaciones, la duración de las simulaciones y la frecuencia de muestreo.

Gráfico de interacción

Para cada una de las cuatro trayectorias de referencia (epinefrina, HBI, BI167107-A y BI167107-I), se detectaron las siguientes interacciones entre ADRB2 y el agonista de referencia utilizando IChem [36]: Puentes de hidrógeno, enlaces iónicos, apilamiento aromático y contactos hidrofóbicos. Cada interacción está representada por un triplete de pseudoátomos de interacción (IPA), uno colocado en cada uno de los dos átomos involucrados en la interacción (ligando IPA y proteína IPA), y un tercero en el punto medio del segmento que definen ( centro IPA). En la sección «Materiales y métodos» se proporcionan más detalles sobre la detección de IChem y la codificación de interacciones.

El número promedio de IPA se muestra en la Fig. 1C. Las interacciones aromáticas son raras en las cuatro trayectorias de referencia. Las otras interacciones polares, los enlaces iónicos y de hidrógeno, representan juntas entre aproximadamente 13 (para epinefrina) y aproximadamente 25 IPA (para HBI) por patrón de interacciones. El número de IPA correspondientes a contactos hidrofóbicos es igual o mayor que el número de IPA correspondientes a interacciones polares, excepto en la trayectoria de la epinefrina. Dado que la descripción de los contactos hidrofóbicos no se basa en un modelo físico consensuado, a diferencia de las interacciones polares, probamos tres condiciones: las dos definiciones IChem de contactos hidrofóbicos y la exclusión de contactos hidrofóbicos. Por lo tanto, para cada una de las cuatro trayectorias de referencia, se consideraron tres conjuntos de IPA: todas las interacciones con una definición predeterminada de contactos hidrofóbicos (Hyd), todas las interacciones con una definición más estricta de contactos hidrofóbicos (Newhyd) e interacciones polares únicamente (Polar).

Se generaron gráficos de interacción (IG) a partir de las interacciones detectadas, con los IPA representando los nodos. Para incluir la mayor cantidad de información topológica, todos los nodos se conectaron entre sí, formando un grafo completo. Los nodos se etiquetaron según el tipo de interacción IChem y la posición representada (proteína, ligando, centro). Los bordes se describieron mediante una matriz de adyacencia ponderada, siendo los pesos iguales a las distancias euclidianas entre los IPA redondeadas al Å más cercano. La distancia entre dos IPA superpuestos se fijó en 0,1 para establecer un borde entre los nodos.

La evaluación de la similitud de grafos es un problema clave en la teoría de grafos, razón por la cual se han desarrollado diferentes tipos de núcleos de grafos. [37]. En este trabajo se evaluó la similitud de grafos utilizando el kernel de ruta más corta [38]. La similitud de los gráficos se basa en la ocurrencia común en los gráficos de caminos más cortos idénticos entre dos nodos con la misma etiqueta. En la práctica, un gráfico se convirtió en una huella digital que contenía la frecuencia de cada ruta más corta. Se compararon dos huellas dactilares calculando la similitud del coseno y el producto escalar del vector, lo que arrojó una puntuación normalizada y no normalizada (NN), respectivamente. Por lo tanto, para cada una de las tres definiciones de interacción (Hyd, NewHyd y Polar), se calcularon las puntuaciones de similitud tanto normalizadas como no normalizadas.

entrenamiento modelo

Cada trayectoria MD contiene información sobre una sola clase. Para procesar datos de una sola clase, es necesario utilizar algoritmos creados para manejar información limitada. Clasificación de una clase o detección de valores atípicos [39, 40] es una familia de algoritmos de clasificación semisupervisados ​​cuyo objetivo no es determinar el límite entre dos clases, sino aprender una definición común que describa el entrenamiento instancias. Dichos algoritmos ya se han propuesto en el descubrimiento de fármacos basados ​​en ligandos. [41]detección de bolsas de proteínas susceptibles de medicación [42]y en otros campos de la química. [43] caracterizado por una baja disponibilidad de datos experimentales. Múltiples algoritmos de detección de valores atípicos están disponibles basados ​​en diferentes modelos de aprendizaje automático bien conocidos: OCSVM[30]bosque de aislamiento[44]k-vecinos más cercanos (KNN).

La OCSVM [30] El algoritmo se usó para encontrar un criterio para definir las condiciones para la inclusión de un nuevo gráfico en el conjunto de interacciones observadas durante la trayectoria de referencia. OCSVM, al igual que otros métodos de clasificación basados ​​en máquinas de vectores de soporte, define una clase mediante un vector de soporte (SV). En el caso de OCSVM, el SV representa el hiperplano con la distancia máxima desde el origen en el espacio de características transformado.

El entrenamiento del algoritmo OCSVM requiere que el usuario establezca el hiperparámetro ν en un valor entre 0 y 1. Dos cantidades clave corresponden a ν: el límite superior para la fracción de instancias de entrenamiento clasificadas como valores atípicos durante el entrenamiento y el límite inferior para la fracción de instancias que definen el SV. Dado que el ajuste efectivo del valor ν no es posible en ausencia de un conjunto de datos externo, seguimos enfoques heurísticos centrados en eliminar valores atípicos o estimar el porcentaje de valores atípicos en el conjunto de entrenamiento.

Los valores atípicos en el conjunto de entrenamiento se identificaron utilizando el valor promedio de similitud del núcleo de la ruta más corta con el KNN, con K correspondiente al 3 % del número total de instancias de entrenamiento. [45]. El primer enfoque llamado selección rápida de modelo 2 (QMS2) [46], elimina del conjunto de entrenamiento tanto los valores atípicos como las instancias en los límites de la distribución. Dado que el nuevo conjunto de entrenamiento debe contener solo valores inlier verdaderos, la fracción de errores de clasificación durante el entrenamiento (ν) se establece en un valor pequeño de 0,01. El segundo enfoque utiliza la desviación absoluta mediana (MAD) para determinar el número de valores atípicos en el conjunto de entrenamiento. El límite superior de la fracción de errores de entrenamiento se establece para que sea igual al número de instancias con una distancia desde la mediana de similitud KNN mayor que tres veces la MAD dividida por el número total de instancias en el conjunto de entrenamiento.

Los modelos que utilizan kernels normalizados se entrenaron con QMS2 y MAD, mientras que los modelos basados ​​en puntuaciones NN se entrenaron solo con QMS2. En resumen, para cada una de las cuatro trayectorias de referencia (epinefrina, HBI, BI167107-A y BI167107-I), se construyeron nueve modelos, combinando tres conjuntos diferentes de interacciones (HYD o NEWHYD o POLAR) y tres parametrizaciones (QSM2 o MAD o NN).

validación del método

Introducción

Los treinta y seis modelos OCSVM entrenados se usaron para seleccionar dos bibliotecas químicas pequeñas para evaluar su capacidad para reconocer ligandos agonistas. Una biblioteca contiene agonistas y antagonistas conocidos, mientras que la segunda contiene agonistas y moléculas inactivas validados experimentalmente.

Para cada molécula en las bibliotecas, el acoplamiento en las tres estructuras cristalográficas de ABDR2 generó diez poses cada una. Los cálculos se repitieron para hasta nueve estructuras representativas del sitio de unión del agonista del receptor. La definición del sitio y el agrupamiento de las trayectorias de epinefrina-ADRB2, HBI-ADRB2 y BI167017-ADRB se detallan en Materiales y métodos. Cada modelo se usó para el procesamiento posterior solo en las poses de acoplamiento generadas utilizando una estructura de proteína extraída del conjunto de entrenamiento respectivo. Si los cálculos de acoplamiento generaron al menos un modo de unión seleccionado por un modelo OCSVM, entonces la molécula se clasifica como agonista. Por lo tanto, las actuaciones discutidas a continuación se aplican a todo el proceso de selección virtual, no solo a los clasificadores.

Validación con conjunto de datos de agonista/antagonista

El conjunto de datos contiene 19 agonistas y 17 antagonistas extraídos de la literatura (Archivo adicional 1: Tabla S1). Las 36 moléculas han sido ampliamente estudiadas y su farmacología es bien conocida. El conjunto de datos también fue seleccionado para contener compuestos con diferentes estructuras químicas. Un total de 24 andamios diferentes están representados en el conjunto de datos, cuatro andamios son compartidos por múltiples compuestos. El benceno es el único andamio común entre agonistas y antagonistas. Todas las moléculas presentan el grupo 2-etanolamina, excepto el agonista dobutamina. Todos los agonistas presentan un anillo bencénico con un grupo funcional capaz de formar puentes de hidrógeno, como el grupo catecol de la epinefrina, excepto el tulobuterol cuyo anillo bencénico está sustituido por un átomo de cloro.

Los modelos funcionaron de manera diferente según la definición de interacciones, la normalización del núcleo y la trayectoria utilizada como referencia (Fig. 2 y Archivo adicional 1: Tablas S3, S4). Sin embargo, es posible observar algunas tendencias generales: Los modelos basados ​​en epinefrina son todos ineficientes, prediciendo la mayoría de todas las moléculas como agonistas. Los modelos basados ​​en HBI identificaron correctamente la mayoría de los verdaderos agonistas y clasificaron erróneamente un número limitado de antagonistas. El entrenamiento con el conjunto de datos BI167107-A generó modelos con una alta precisión, pero con tendencia a descartar muchos agonistas verdaderos. La inclusión de contactos hidrofóbicos en los IG fue perjudicial para los modelos NN, lo que provocó que todos los ligandos se clasificaran como agonistas. Del mismo modo, los rendimientos de los modelos basados ​​en HBI y BI167107 en general mejoraron si solo se incluyeron interacciones polares en los IG.

Figura 2
Figura 2

Rendimiento promedio de los modelos OCSVM obtenidos en el conjunto de datos agonista/antagonista del acoplamiento utilizando las estructuras representativas

Los cuatro mejores modelos para cada trayectoria de referencia se presentan en la Tabla 2. Se seleccionaron de acuerdo con la medida F1 promedio calculada a partir de las poses de acoplamiento utilizando cada estructura representativa, después de descartar los modelos que seleccionaron todos los ligandos como agonistas. Para cada modelo, el desempeño promedio sobre un conjunto de conformaciones representativas, seleccionadas del respectivo conjunto de entrenamiento, brinda una estimación del comportamiento del clasificador. Los cuatro mejores modelos basados ​​en HBI recuperaron tres cuartas partes o más de los agonistas y mostraron muy pocos falsos positivos. Los mejores modelos basados ​​en BI167107 discriminaron entre agonistas y antagonistas, siempre que fueran entrenados desde la parte de la trayectoria que simulaba el estado activo del receptor. De hecho, los modelos basados ​​en BI167107-I predijeron incorrectamente muchos antagonistas como agonistas. La disminución de la precisión entre los modelos basados ​​en BI167107-A y BI167107-I es coherente con la desaparición de la interacción clave con Ser207 tras la desactivación del receptor durante la simulación BI167107-ADRB2.

Tabla 2 Rendimiento de los mejores cuatro modelos obtenidos para cada trayectoria de referencia en el conjunto de datos agonista/antagonista a partir de los datos de acoplamiento obtenidos utilizando las estructuras representativas o la estructura cristalográfica

Para las trayectorias de referencia de epinefrina y HBI, los resultados fueron comparables si las poses de acoplamiento consideradas usan la estructura cristalográfica o una estructura representativa, en promedio. Se hicieron hallazgos similares para los modelos BI167107-A basados ​​en interacciones polares. Los modelos BI167107-A que incluyen contactos hidrofóbicos no seleccionaron ninguna molécula. Se asumió una conformación inapropiada de los subbolsillos hidrofóbicos en base a las dos evidencias siguientes: los contactos hidrofóbicos entre BI167107 y ADBR2 en la estructura cristalográfica y durante la simulación MD difieren (Archivo adicional 1: Fig. S1); el sitio de unión experimentó cambios estructurales significativos durante la simulación (archivo adicional 1: Fig. S2), con una desviación cuadrática media (RMSD) promedio de la estructura cristalográfica inicial superior a 3 Å, mientras que el RMSD promedio por pares entre los marcos está por debajo de 2.5 Å ( Archivo adicional 1: Fig. S3, S4). En aras de la comparación, los valores RMSD para los complejos epinefrina-ADBR2 y HBI-ADBR2 están por debajo de 2,5 Å (archivo adicional 1: Fig. S5, S6).

Dado que el rendimiento de un modelo depende de la estructura del receptor, también consideramos el acoplamiento de conjunto, fusionando las poses de acoplamiento obtenidas utilizando todas las estructuras representativas de la trayectoria de referencia (Tabla 2). En general, el uso conjunto de todas las estructuras representativas produjo medidas F1 comparables o mejores que el promedio obtenido al considerar las estructuras representativas por separado. Aumentar el número de poses evaluadas mejoró el recuerdo, pero a menudo a expensas de la precisión. La mejor mejora se refiere a los modelos de alta precisión BI167107-A, que mostraron un aumento significativo en la recuperación (p. ej., de 0,57 a 0,84 para el modelo Polar-NN) sin pérdida de precisión (p. ej., 1,00 para el modelo Polar-NN). Los modelos caracterizados por una definición más flexible del modo de unión del agonista, como los modelos basados ​​en HBI y, en menor medida, BI167107-I, tienden a incluir una mayor cantidad de falsos positivos.

Validación con conjunto de datos agonista/inactivo

Para probar la capacidad de los modelos OCSVM para identificar correctamente moléculas inactivas como no agonistas, se seleccionó de la literatura un conjunto de datos de agonistas verdaderos validados experimentalmente y moléculas inactivas verdaderas. [29]. La biblioteca consta de diez agonistas y 17 moléculas inactivas. Las 27 moléculas son éxitos virtuales de una evaluación basada en la estructura de la biblioteca ZINC12. Representan 17 diferentes andamios, incluidos 3 que son específicos para agonistas y 14 son específicos para moléculas inactivas. Todas las moléculas activas y dos moléculas inactivas contienen el grupo 2-aminoetanol que está presente en los ligandos ADRB2 y permite su anclaje tanto a TM3 como a TM7. Los agonistas comparten una segunda característica común: todos menos uno contienen un anillo aromático halogenado en lugar del catecol de la epinefrina. Se supone que los átomos de halógeno interactúan con el subbolsillo formado por TM5, TM4 y TM3, para la activación del receptor tras la unión del agonista. Dado que IChem no tiene en cuenta las interacciones de los halógenos, el conjunto de datos actual es un gran desafío para los modelos. En general, el rendimiento de los modelos es peor en el conjunto de datos agonista/inactivo que en el conjunto de datos agonista/antagonista (Fig. 3 y Archivo adicional 1: Tablas S5, S6). Nuevamente, los modelos basados ​​en epinefrina no son predictivos, clasificando todas o casi todas las moléculas del conjunto de datos agonista/inactivo como agonistas.

Fig. 3
figura 3

Rendimiento medio de los modelos OCSVM en el conjunto de datos agonista/inactivo desde el acoplamiento con las estructuras representativas. Tenga en cuenta que un Hyd y los tres modelos polares de BI167107-A no son visibles ya que no se predijo ninguna molécula como activa

Los cuatro mejores modelos para cada trayectoria de referencia se presentan en la Tabla 3. Se seleccionaron de acuerdo con la medida F1 promedio calculada a partir de las poses de acoplamiento utilizando cada estructura representativa, después de descartar los modelos que seleccionan todos los ligandos como agonistas. Para cada modelo, el desempeño promedio sobre un conjunto de conformaciones representativas, seleccionadas del respectivo conjunto de entrenamiento, brinda una estimación del comportamiento del clasificador. Los mejores modelos basados ​​en HBI recuperaron en promedio una cuarta parte de los agonistas, pero clasificaron bien las moléculas inactivas como no agonistas. Los mejores modelos BI16707-A mostraron un mejor recuerdo, pero a expensas de más falsos positivos. Para estas dos trayectorias de referencia, los modelos que ignoran las interacciones hidrofóbicas pasaron por alto aún más agonistas, probablemente debido a la ausencia de cualquier enlace de hidrógeno con TM5 (Ser203 y Ser207) como consecuencia de reemplazar el donante de enlace de hidrógeno aromático de los agonistas canónicos de ADRB2 con un átomo de halógeno. . Sin embargo, estos modelos polares clasificaron con éxito las moléculas inactivas como no agonistas. Los mejores modelos basados ​​en BI167107-I muestran las mejores estadísticas en el conjunto de datos agonista/inactivo, aunque se desempeñaron peor que en el conjunto agonista/antagonista. Dado que las estructuras del conjunto de entrenamiento BI167107-I no incluyen el enlace de hidrógeno entre el agonista de referencia y ADRB2 Ser207, podemos suponer que el clasificador se ve menos afectado por el modo de unión inusual de los agonistas de prueba que probablemente involucra una proteína halógena o flúor. interacción de proteínas. En conjunto, los resultados sugieren que los patrones de interacciones polares permiten la clasificación de los no agonistas, pero que el modelo debe apreciar correctamente la interacción con los residuos de serina en TM5, que constituyen un farmacóforo clave, para identificar los agonistas.

Tabla 3 Rendimiento de los cuatro mejores modelos obtenidos para cada trayectoria de referencia en el conjunto de datos activo/inactivo a partir de los datos de acoplamiento obtenidos utilizando las estructuras representativas

En cuanto al conjunto de datos de agonista/antagonista, también se consideró el rendimiento de los resultados de acoplamiento del conjunto. Se observó un efecto importante para los modelos NN hidrofóbicos, que en estas condiciones tienden a seleccionar todas las moléculas. Por el contrario, se observó un aumento significativo en la recuperación sin pérdida de precisión para los mejores modelos basados ​​en HBI y BI167170-A. El mejor muestreo de conformaciones unidas a ligando generó más poses que contenían contactos hidrofóbicos similares a la referencia.

Importancia del muestreo en la caracterización del modo de unión

Introducción

Como en todos los modelos de aprendizaje automático, las características del conjunto de datos de entrenamiento se reflejan en la calidad de las predicciones. Cuestionamos dos aspectos del muestreo de modo vinculante: la duración de la simulación MD y la relevancia de combinar información de múltiples referencias. Su efecto sobre el desempeño de los clasificadores en el conjunto de datos antagonista/agonista se analiza a continuación.

Longitud de simulación de dinámica molecular

Repetimos el entrenamiento OCSVM usando solo el primer 25%, 50% y 75% de los marcos de las simulaciones MD de las trayectorias de epinefrina-ADRB2 y HBI-ABDR2. Estas dos trayectorias se generaron utilizando las mismas condiciones experimentales. Ambos están formados por tres réplicas diferentes, cada una formada por 2500 fotogramas, para un total de 7500 fotogramas. Por lo tanto, dado que son las simulaciones más largas y las únicas formadas por más de una sola réplica, se utilizaron para estudiar el efecto del número de réplicas y la duración de la simulación en el desempeño de los clasificadores.

Los datos de simulación truncados se obtuvieron fusionando los fotogramas seleccionados en las tres réplicas. La aplicación de los modelos recién entrenados en el conjunto de datos de agonistas/antagonistas reveló que el número de moléculas seleccionadas disminuye a medida que se acorta la longitud de la simulación MD, lo que se refleja en un aumento en la precisión y una disminución en la recuperación (Fig. 4 y Archivo adicional 1: Tablas S7, S8, S9, S10). El efecto es mucho más marcado si se utiliza HBI como referencia, lo que confirma que la trayectoria epinefrina-ADRB2 no destaca los patrones de interacción que son cruciales para la activación del receptor.

Figura 4
Figura 4

Rendimiento promedio de los modelos OCSVM obtenidos para HBI y trayectorias de referencia de epinefrina de longitud variable en el conjunto de datos agonista/antagonista del acoplamiento utilizando las estructuras representativas. El tamaño de los símbolos es proporcional a la duración de la simulación, que va desde 125 ns (25 %) a 500 ns (100 %).

Combinación de múltiples referencias

Aunque el flujo de trabajo propuesto se desarrolló para usar un solo agonista como referencia, se investigó el efecto de fusionar múltiples trayectorias de referencia. Probamos dos combinaciones de conjuntos de datos (Fig. 5 y Archivo adicional 1: Tablas S11, S12): Todas las trayectorias, BI167107-A y HBI. Los modelos basados ​​en todas las trayectorias de referencia se caracterizan por una alta recuperación y una precisión relativamente baja. Estos malos rendimientos son comparables a los obtenidos con la trayectoria de referencia individual menos relevante (la de la epinefrina), lo que sugiere que la definición de agonista determinada es demasiado amplia para ser útil. La inclusión de datos BI167107-A junto con la trayectoria HBI aumentó la recuperación de los modelos que incluyen contactos hidrofóbicos. Sin embargo, el efecto general de fusionar las dos trayectorias fue limitado teniendo en cuenta el rendimiento de todos los modelos. Este resultado sugiere además que las interacciones agonista-ADRB2 en las trayectorias HBI y BI167107-A definen un modo de unión consistente.

Figura 5
Figura 5

Rendimiento promedio en el conjunto de datos de agonista/antagonista de los modelos OCSVM obtenidos del acoplamiento utilizando las estructuras representativas de todas las trayectorias de referencia combinadas o HBI y BI167107-A. En aras de la comparación, también se muestran los mejores modelos obtenidos para epinefrina, HBI, BI167107-A y BI167107-I, como se indica en la Tabla 2

Comparación con métodos conocidos

La comparación entre los modos de unión de un ligando de referencia con las poses de acoplamiento ya ha demostrado ser un método eficaz para mejorar el rendimiento del cribado virtual. Para evaluar el rendimiento del modelo propuesto con el estado del arte, realizamos una nueva puntuación de las poses de acoplamiento de los conjuntos de datos agonista/antagonista y agonista/inactivo utilizando similitud IFP, GRIM y farmacóforos 3D basados ​​en estructuras. Aquí, dadas las poses de acoplamiento generadas mediante una estructura ADRB2 extraída de una trayectoria MD, el modo de unión agonista observado en el cuadro seleccionado se utilizó como referencia para los tres métodos para volver a puntuar el conjunto correspondiente de poses de acoplamiento.

Los modelos GRIM y OCSVM se basan en la misma descripción de interacciones. GRIM puntúa las poses de acoplamiento utilizando una función empírica que evalúa el subgráfico común máximo entre el IG de referencia y el IG de la pose de acoplamiento. Para GRIM se han propuesto cuatro umbrales de puntuación diferentes que separan los modos de vinculación similares de los diferentes: 0,59, 0,65 [36]0,70, 1,00 [47]. Ninguno de los cuatro umbrales arrojó resultados satisfactorios en general, con solo un pequeño aumento en la precisión sobre la selección de todos los ligandos como agonista (p. ej., precisión promedio de alrededor de 0,60 en el umbral de 0,65 para HBI y BI167107), o una recuperación extremadamente baja (p. ej., recuperación promedio de 0,10 en umbral 1,00 para HBI y BI167107-A) tanto en el conjunto de datos que contiene agonistas y antagonistas (Tabla 4 y Archivo adicional 1: Tablas S13–S16), como en el conjunto de datos que contiene agonistas y moléculas inactivas verdaderas (Archivo adicional 1: Tablas S17–S20) . La dificultad para identificar un umbral de puntaje GRIM adecuado para distinguir agonistas es válida independientemente del conjunto de poses de acoplamiento consideradas (resultados promedio usando una única estructura representativa, resultados usando todas las estructuras representativas y resultados usando la estructura cristalográfica).

Tabla 4 Resultados de GRIM en el conjunto de datos de agonistas-antagonistas de los datos de acoplamiento obtenidos utilizando las estructuras representativas o la estructura cristalográfica

Se probaron los diferentes métodos, GRIM, IFP y búsqueda de farmacóforos, para determinar la existencia de un ligando umbral independiente para la clasificación. El valor de puntuación óptimo que separa los agonistas y los antagonistas se determinó para cada ligando (Tabla 5 y Archivo adicional 1: Tabla S21), como el umbral que maximiza la medida F1 para la clase de agonista. Todos los métodos se pueden utilizar para sesgar el cribado hacia los agonistas sobre los antagonistas, pero no se puede identificar un umbral de puntuación específico del método a partir de los resultados. Los rendimientos generales dependen del agonista de referencia más que del método utilizado para volver a puntuar, pero incluso para el mismo agonista de referencia es difícil determinar un umbral específico ya que cada estructura receptora utilizada para el acoplamiento se caracterizó por su propio umbral óptimo. En resumen, los tres métodos se desempeñaron bien en la priorización de los agonistas, sin embargo, no es posible definir claramente el umbral que separa a los agonistas de los antagonistas a priori.

Tabla 5 Umbral de puntuación promedio óptimo para GRIM, similitud de IFP y farmacóforo 3D basado en el conjunto de datos de agonista-antagonista

Fuente del artículo

Deja un comentario