Un enfoque de aprendizaje por refuerzo para la predicción de poses de unión proteína-ligando | BMC Bioinformática

La Figura 1 muestra un ciclo de aprendizaje ilustrativo de RL en el contexto del problema de acoplamiento proteína-ligando. A través de la interacción entre nuestro modelo (el agente) y el entorno del complejo proteína-ligando, el modelo genera un movimiento en el ligando (la acción), que conduce a una conformación compleja diferente (el estado). Luego, el entorno genera el nuevo estado, así como una recompensa inmediata basada en la acción. En el siguiente paso de tiempo, este nuevo estado y recompensa se retroalimentan al agente para generar la siguiente acción en el estado.

Figura 1
Figura 1

En este estudio, generamos varias cajas cuadriculadas cúbicas tridimensionales (3D) para capturar la estructura de la proteína local. Cada caja contiene la posición completa del ligando verdadero y el entorno proteico que lo rodea. Durante el proceso de entrenamiento, el ligando de interés se coloca en una ubicación seleccionada al azar en el cuadro y luego se moverá según la guía del modelo. Por lo tanto, es análogo al problema del laberinto en el aprendizaje por refuerzo: necesitamos un modelo que sea lo suficientemente razonable para guiar el objeto en el entorno hacia la meta y ajustar la posición del ligando para que se una a la proteína correctamente.

Formato de datos y preprocesamiento

Seleccionamos complejos proteína-ligando con algunos ligandos específicos (Cu2+ASI QUE42−) del banco de datos de proteínas (PDB) [25, 26] con la identidad de la secuencia de la proteína inferior al 30%. La eliminación de secuencias homólogas se realiza comúnmente en estudios de biología de estructuras computacionales. Las proteínas con secuencias similares suelen tener estructuras de columna vertebral similares. Aunque no tomamos las estructuras proteicas completas como entrada, todavía se pueden introducir ciertos sesgos si incluimos secuencias homólogas. Los conjuntos de datos analizados durante el estudio actual están disponibles en RSCB the Protein Data Bank, https://www.rcsb.org/. Todas estas estructuras están determinadas por cristalografía de rayos X con una resolución superior a 2,0 Å y no tienen moléculas de ADN/ARN/UNK.

Las cajas cuadriculadas cúbicas se generan a partir de los datos del complejo proteína-ligando. Dada la estructura de la proteína y el ligando en la posición verdadera del ligando (la posición del ligando como en la estructura cristalina del PDB), primero rotamos aleatoriamente toda la estructura y luego generamos un punto como el centro de la 18 Å × 18 Caja cúbica de Å × 18 Å. Esta caja está cuadriculada con un vóxel de tamaño de unidad de 1 Å; la mayoría de los vóxeles no contienen más de un átomo pesado. El ligando completo y parte de la estructura de la proteína deben estar contenidos en la caja. Finalmente, rotamos aleatoriamente el ligando y lo movemos a un lugar aleatorio en el cuadro como sitio inicial del ligando. De acuerdo con este proceso de generación de datos, cada complejo proteína-ligando puede generar múltiples cajas cuadriculadas cúbicas. El gráfico de la derecha de la Fig. 2 muestra un cuadro tomado de la proteína 2vb2 [25, 27]. La verdadera posición del ligando es el punto verde; es decir, el ion Cobre (Cu2+) ligando está allí. Los puntos negros son átomos en el entorno proteico. El punto rojo es el sitio del ligando inicial, que se selecciona al azar.

Figura 2
Figura 2

Izquierda: La estructura 3D de la proteína 2vb2. Derecha: La caja cuadriculada generada a partir de la proteína 2vb2. Los puntos negros son átomos en el entorno proteico. El punto verde es la verdadera posición del ligando donde el tipo de ligando es el ion cobre. El punto rojo es el sitio de inicio del ligando.

En este documento, se colocarán diferentes tipos de átomos en diferentes canales, por lo que la dimensión de los datos de entrada es (18 times 18 times 18 times N) dónde (NORTE) es el número de canales. En general, el número total de canales es (N = 21 + M) donde hay 21 tipos de átomos en el entorno proteico, y el adicional (METRO) los tipos son del ligando de interés. Se aplicará suavizado gaussiano al átomo para conservar la información del radio del átomo. Usamos un suavizador gaussiano para distribuir el efecto en 26 ((3 veces 3 veces 3 – 1)) vóxeles alrededor del vóxel que contiene el átomo objetivo. Suponiendo que la coordenada del átomo objetivo es (izquierda( derecha))el valor de suavizado gaussiano en (left( right)) es:

$$frac times exp left$$

dónde (r) es el radio de Van der Waals del átomo en cada vóxel. Normalizamos estos 27 vóxeles para obtener los valores finales de suavizado gaussiano para todos los vóxeles influenciados por el átomo. Finalmente, sumamos los valores de suavizado para todos los átomos en el mismo canal y obtenemos el (18veces 18veces 18veces N) datos de entrada.

Metodologías

Nuestro método de acoplamiento proteína-ligando basado en el aprendizaje por refuerzo se construye utilizando el Ventaja asíncrona Actor-Crítico (A3C) algoritmo [21]. Proponemos este nuevo método para unificar el ajuste de la pose del ligando y la estimación de la puntuación en un solo marco. A3C es un algoritmo basado en el actor-crítico. Los modelos actor y crítico están diseñados como dos ProDCoNN (ver Fig. 4) y están entrenados en el proceso de aprendizaje. El modelo de actor toma el estado actual como entrada y genera una acción, que puede maximizar la recompensa a largo plazo en cada estado. El modelo crítico también usa el estado actual como entrada y produce una puntuación basada en el modelo de actor actual para medir la bondad de la acción elegida. Idealmente, el modelo crítico está entrenado para predecir la recompensa real a largo plazo en cada estado. El punto clave para el algoritmo A3C es un modelo de aprendizaje asíncrono de subprocesos múltiples. Múltiples alumnos secundarios pueden entrenar modelos de forma independiente y luego enviar los gradientes con respecto a los parámetros al entorno principal para actualizarlos.

Miles de sustancias químicas pueden formar complejos con proteínas y servir para fines biológicos. Un ligando puede estar formado por uno o varios átomos. Este manuscrito mostrará la configuración y los resultados experimentales del complejo proteína-ligando natural con ligando de iones de cobre ((^)) y ligando Sulfato (SO42−), respectivamente. Aquí simplificamos el problema ignorando las colisiones de átomos y los enlaces entre átomos. Las configuraciones de datos y las estructuras del modelo se discutirán en las siguientes secciones.

Algoritmos

En este proyecto, combinamos la idea de RL y la idea de aprendizaje supervisado. Basado en A3C, al principio, agregamos un bucle para alimentar una nueva caja cúbica para que el algoritmo pueda entrenar el modelo con un nuevo entorno en cada episodio. Este método puede ayudar a los modelos de actor y crítico a aprender información general sobre el entorno de la proteína y el proceso de acoplamiento. En la Fig. 3 se presenta un esquema simple para el flujo de información. A través de la interacción entre el ligando y el entorno, el actor genera una acción y el modelo crítico genera una puntuación para evaluar el desempeño. La Tabla 1 enumera la notación utilizada en el marco. El algoritmo 1 muestra el proceso de entrenamiento detallado basado en A3C. Algunos elementos cruciales en este algoritmo son:

Fig. 3
figura 3

El flujo de información en A3C

Tabla 1 Anotaciones importantes en RL
  • Caja: La caja cúbica contiene un entorno de átomos de proteína y un ligando en el sitio del ligando inicial.

  • Acción (A}): Hay seis acciones para el ligando: avanzar y retroceder en cada uno de los ejes X, Y y Z. También hay seis direcciones de rotación, en sentido horario y antihorario, en cada uno de los ejes X, Y y Z. El ligando puede elegir una dirección de movimiento y una dirección de rotación en cada paso.

  • recompensa inmediata (R_): La recompensa por el paso (t) con una acción que lleva al ligando al paso (t + 1) Se define como:

    $$e^ – e^ ,$$

    donde RMSD es la desviación cuadrática media de la raíz, un tipo promedio de distancia entre átomos, (s_) es la coordenada de la verdadera posición del ligando. Si (R_ , (R_ leftarrow R_ times 2) agrega una penalización para obligar al ligando a caminar en una mejor dirección hacia la posición real.

  • (T_): El número máximo de pasos que el ligando puede moverse en la caja cúbica.

  • (t_): El número máximo de pasos que el algoritmo necesita para recopilar datos para actualizar los gradientes con respecto a los parámetros cada vez.

Durante el proceso de entrenamiento, dado el ligando en el sitio del ligando inicial y el entorno de átomos de proteína fijos, podemos generar una caja cúbica e introducirla en los modelos de actor y crítico. Cada vez que el ligando se mueve, usamos el entorno de átomos de proteína fijos y el ligando en el estado actual para generar una nueva caja y luego introducirla en los modelos.

figura un

A diferencia del RL tradicional sin ninguna información de etiqueta, el Algoritmo 1 es supervisado. En la etapa de entrenamiento, la recompensa inmediata se define en función de la posición real conocida del ligando, que no está disponible en la etapa de prueba o en el uso práctico. El algoritmo 2 muestra los detalles del proceso de prueba. Dado el modelo de actor entrenado y el modelo crítico, el ligando en el cuadro puede moverse de acuerdo con las predicciones del modelo de actor. El modelo crítico se utilizará para detener el proceso de búsqueda en la caja. Si el número de pasos es mayor que los pasos mínimos y el rango de los últimos (delta) las salidas críticas son menores que el valor umbral, entonces el actor dejará de buscar. Además, si el número de paso alcanza el máximo o el ligando sale del cuadro, la prueba del cuadro actual se detiene.

figura b

Configuraciones experimentales del ligando de cobre

Los datos de los complejos proteína-ligando con el ligando de cobre (conjunto de datos de ligando Cu) se seleccionan de PDB. La identidad de la secuencia de la proteína es inferior al 30%. Las cajas cuadriculadas cúbicas se generan en base a la descripción en la Secc. 2.1, y el número de proteínas y cajas en el conjunto de datos de prueba y entrenamiento se presentan en la Tabla 2. En el proceso de entrenamiento, la tasa de aprendizaje para el modelo actor es 0.00005 y 0.0000001 para el modelo crítico. en cada episodio (_)el número máximo de pasos que el ligando puede moverse es 600. Los parámetros de dos modelos se actualizarán cada (_=10) pasos con tasa de descuento (gama) como 1. En cada paso, el ligando puede moverse 0,1 Å. En el proceso de prueba, (_) se establece en 600, que es lo mismo que en el proceso de formación. El ligando se mueve 0.1 Å por cada paso, y debe moverse al menos (_) = 300 pasos a menos que se mueva fuera de la caja. Además, dejamos que el umbral sea 0.3 y (delta) igual a 50, lo que indica que utilizamos una ventana de 50 pasos para verificar la convergencia de la distancia crítica.

Tabla 2 Proteínas y número de cajas del conjunto de datos de ligando Cu

Nos referimos a la estructura Red Neuronal Convolucional (CNN) paralela de ProDCoNN [1, 2] para modelos de actor y crítico, que se muestra en la Fig. 4 para el conjunto de datos de Cu-ligand. La estructura del modelo de 6 capas para el modelo de actor se muestra a continuación:

  1. 1.

    Capa de entrada: la dimensión es (18veces 18veces 18veces 22)con 21 tipos de átomos en el entorno proteico y ligando de cobre en el canal 22.

  2. 2.

    Una capa convolucional 3D paralela que consta de tres capas convolucionales 3D independientes: 4 filtros con tamaño (2veces 2veces 2)8 filtros con tamaño (3veces 3veces 3)8 filtros con tamaño (4veces 4veces 4). Sus modos de borde son los mismos, lo que puede generar los mapas de características con la misma dimensión que la entrada.

  3. 3.

    Capa de agrupación máxima: (3veces 3veces 3).

  4. 4.

    Aplanar la capa.

  5. 5.

    Capa densa con número de unidad 256 y activación ReLU.

  6. 6.

    Capa de salida con unidad número 6 y activación Softmax.

Figura 4
Figura 4

La arquitectura del modelo actor para el conjunto de datos Cu-ligand y SO42−-conjunto de datos de ligandos. El conjunto de datos Cu-ligand utiliza el bloque de salida sin rotación, y el SO42−-el conjunto de datos de ligando usa bloque de salida con rotación

los (^) el ligando es un solo átomo. Por lo tanto, la rotación del ligando no se considerará y la capa de salida solo debería dar como resultado las probabilidades de dirección. La arquitectura del modelo crítico es la misma que la del modelo actor excepto por la capa de salida. En el modelo crítico, la capa de salida tiene solo una unidad y la activación es «tanh» para generar un valor para estimar la verdadera recompensa a largo plazo.

Configuraciones experimentales del ligando de sulfato

Igual que el conjunto de datos del ligando Cu, el conjunto de datos del ligando Sulfato (SO42−-ligand dataset) también se selecciona de PDB con una identidad de secuencia de proteína inferior al 30%. El número de proteínas y cajas del conjunto de datos de entrenamiento y el conjunto de datos de prueba se presentan en la Tabla 3. En este proceso de entrenamiento de ligandos de múltiples átomos, la tasa de aprendizaje para el modelo actor es 0.000005 y para el modelo crítico es 0.0000001. En cada paso, el ligando puede moverse 0,1 Å y rotar 1°. Además, todos los demás hiperparámetros en los procesos de entrenamiento y prueba, como (_), (_), (gama) y el número de hilo, son los mismos que los del experimento del conjunto de datos del ligando Cu.

Tabla 3 Proteínas y número de cajas de SO42−-conjunto de datos de ligandos

Una característica especial en el SO42−El experimento de conjunto de datos de ligandos es el método para calcular la distancia entre dos ligandos. La forma de un SO42− ligando está muy cerca de un tetraedro regular con un átomo de azufre (S) en el medio y cuatro átomos de oxígeno (O) en los vértices, respectivamente. Estos cuatro átomos de oxígeno son simétricos, por lo que hay 24 (¡= 4!) formas posibles de hacer coincidir dos SO42− ligandos en total. Por lo tanto, para el SO42− ligando, usamos permutation-distance como la métrica para medir la distancia entre dos ligandos. Calculamos las desviaciones de la raíz cuadrada media (RMSD) de las 24 coincidencias posibles y luego elegimos la RMSD más pequeña como la distancia de permutación entre dos ligandos. Otra métrica de distancia es la distancia central, que es la distancia euclidiana entre el átomo S del ligando actual y la posición verdadera del ligando. Usaremos ambas distancias para evaluar el rendimiento del modelo de actor para la condición de ligando multiátomo.

La estructura del modelo actor en el SO42−El experimento del conjunto de datos del ligando es diferente de la estructura en el experimento del conjunto de datos del ligando Cu. La figura 4 muestra la arquitectura del modelo de actor. Los tamaños de filtro en la capa convolucional paralela se cambian de (2, 2, 2), (3, 3, 3), (4, 4, 4) a (4, 4, 4), (5, 5, 5) , (6, 6, 6). Dos razones para este cambio: Primero, el SO42− El ligando está compuesto por 5 átomos, que es mucho más grande que el ligando Cu. Los filtros más grandes pueden capturar mejor las características del SO42− ligando En segundo lugar, hay un gran espacio entre el SO42− ligando y la estructura de la proteína en muchos complejos proteína-ligando para que los filtros más grandes puedan detectar esta propiedad y mejorar el rendimiento del modelo. Es necesario considerar la rotación del ligando en el SO42−experimento de conjunto de datos de ligando. Además de las seis direcciones posibles para la traslación, necesitamos generar seis direcciones posibles adicionales para la rotación: girar en sentido horario y antihorario en cada uno de los ejes X, Y y Z. La estructura secuencial se dividirá en dos ramas paralelas al final de la estructura y se generarán dos vectores de 6 dimensiones para predecir la traslación y la rotación simultáneamente. El modelo crítico también tiene seis capas, con las mismas primeras cuatro capas que el modelo actor. Por el contrario, solo hay una capa totalmente conectada como la quinta capa con tamaño de unidad 256 y activación ReLU. Le sigue la capa de salida con 1 unidad y activación “tanh”.

Fuente del artículo

¿Que te ha parecido?

Deja un comentario