Integración del concepto de farmacóforo con redes neuronales gráficas para la predicción e interpretación de propiedades químicas | Revista de quimioinformática

Conjuntos de datos

Conjuntos de datos de referencia

Para comparar el rendimiento del RG-MPNN con el de otros modelos GNN, probamos nuestros modelos en once conjuntos de datos de referencia de MoleculeNet [38]. Entre MoleculeNet, los conjuntos de datos de química física, bioactividad y fisiología, excepto los conjuntos de datos PDBbind, se probaron en este trabajo. Tres de los once conjuntos de datos se utilizaron para tareas de regresión y ocho para tareas de clasificación. Se pueden encontrar más detalles sobre los conjuntos de datos de MoleculeNet en el sitio web https://moleculenet.org/datasets-1.

Conjuntos de datos de quinasa y algunos conjuntos de datos internos

La idea central de nuestro modelo RG-MPNN es integrar información de farmacóforos que se consideran características abstractas de moléculas para el reconocimiento molecular de un ligando por un objetivo biológico. Por lo tanto, en teoría, nuestro modelo es más adecuado para la tarea de predecir la bioactividad molecular hacia objetivos de interés. Para probar sistemáticamente el rendimiento de predicción de varios algoritmos en los conjuntos de datos de bioactividad, recolectamos inhibidores de diez objetivos de quinasa (ver Tabla 1). El principio de la selección de dianas de cinasas era cubrir cada familia de cinasas tanto como fuera posible y seleccionar las dianas de grandes perspectivas para el desarrollo de fármacos. Todos estos conjuntos de datos se derivaron de ChEMBL [39]. Después de una serie de operaciones como la deduplicación de datos, la eliminación de sal y la neutralidad eléctrica, diez conjuntos de datos de quinasas estaban listos para la tarea de clasificación. Utilizamos 1000 nM como umbral para distinguir moléculas activas e inactivas, lo que dio como resultado números de moléculas que oscilaban entre 807 y 8800 y proporciones de muestras positivas y negativas que oscilaban entre 0,19 y 0,82. Además de los conjuntos de datos de quinasa, también utilizamos algunos conjuntos de datos (HCV NS3, PLA2, HIV protease y Tyrosinase) publicados por nuestro laboratorio como referencia. Para obtener descripciones detalladas del conjunto de datos, consulte Archivo adicional 1: Tabla S1.

Tabla 1 Información básica de los conjuntos de datos de quinasas utilizados en este trabajo

gráfico molecular

En las redes neuronales gráficas (GNN), una molécula se considera un gráfico G = (V, E), donde el átomo se considera el nodo V y el enlace químico se considera el borde E. Los nodos y los bordes se codifican de acuerdo con las reglas que se muestran en el Archivo adicional 1: Tabla S2 y Archivo adicional 1: Tabla S3. Por ejemplo, las características de los nodos incluyen el tipo de átomo, la carga formal, etc., y las características de los bordes incluyen el tipo de enlace, el estereotipo, etc. Estas características codificadas son las características iniciales de los gráficos moleculares que se utilizan como entradas sin procesar para entrenar modelos GNN. Después del entrenamiento, podemos obtener el valor final de predicción de la tarea, junto con las representaciones gráficas aprendidas de la tarea que también pueden denominarse huellas dactilares moleculares.

Gráficos reducidos (RG)

Los RG proporcionan representaciones simplificadas de estructuras químicas al colapsar grupos de átomos en nodos de farmacóforos mientras mantienen las propiedades topológicas de las estructuras moleculares originales. Los RG se han implementado principalmente para las diversas aplicaciones de búsqueda de similitud, salto de andamio, diseño de novo y extracción de relaciones estructura-actividad. [34, 36, 40, 41].

Al alterar las reglas utilizadas para colapsar grupos de átomos, los RG proporcionan formas flexibles de generalizar las características de los nodos farmacóforos. Existe una tendencia de investigación para colapsar los grupos de átomos en RG a través de las reglas del farmacóforo y los RG resultantes pueden considerarse como farmacóforos topológicos. [36, 40]. Vale la pena enfatizar que las reglas del farmacóforo deben mejorarse antes de aplicarlas a la reducción de gráficos. Esto se debe a que cada átomo en los RG debe asignarse a uno o más nodos de farmacóforo, mientras que los átomos que no pertenecen a ningún farmacóforo no se etiquetan de acuerdo con las reglas clásicas de los farmacóforos.

En este trabajo adoptamos el esquema de reducción de grafos desarrollado por Harper [34], que define 18 tipos de nodos farmacóforos como se muestra en la Fig. 2a: tres tipos de anillos definitorios (anillo aromático, anillo alifático o acíclico) intersecados con seis tipos de características definitorias (ionizable positivamente, ionizable negativamente, donante de enlace H conjunto y aceptador, donante, aceptador o sin característica), y debe tenerse en cuenta que los elementos dentro de los tres tipos de anillos y los seis tipos de características se enumeran en orden de prioridad de mayor a menor. Consulte el archivo adicional 1: Tabla S4 para ver las descripciones detalladas de las reglas de los seis tipos de características. La Figura 2b enumera algunos ejemplos comparativos de moléculas y sus RG. Los lectores pueden encontrar más esquemas de reducción de gráficos en la literatura [34, 35, 42].

Figura 2
Figura 2

Esquema y ejemplos de reducción de grafos. a El esquema de reducción de grafos adoptado en este trabajo. Las tres formas de definir anillos y las seis formas de definir características se combinan en dieciocho tipos de gráficos reducidos. Y priorice a nivel de anillo y función. b Ejemplos comparativos de moléculas y sus gráficas reducidas

Red neuronal de paso de mensajes (MPNN)

MPNN es un marco general para el aprendizaje supervisado en grafos. Dentro de su paso hacia adelante, hay dos fases: una fase de paso de mensajes y una fase de lectura. Aquí tomamos un gráfico no dirigido (GRAMO) como ejemplo, dentro del cual las características del nodo (átomo) se representan como (_) y las características de borde (enlace) como (_). En términos de la fase de paso de mensajes, la función de mensaje se define como ()y la función de actualización de vértices se define como ()dónde (t) es el paso de tiempo de ejecución. Durante el proceso de paso de mensajes, el estado oculto de cada nodo (_^) se puede actualizar según el mensaje (_^) de acuerdo a:

$$m_^ = sumnolimits_ $$

(1)

$$h_^ = U_ left( right)$$

(2)

dónde (Nizquierda(vderecha)) es el conjunto de vecinos del nodo (v) en (GRAMO). Además, (_^) se deriva de las características iniciales del nodo (_) a través de alguna función.

En cuanto a la fase de lectura, utiliza una función de lectura (R) para hacer una predicción de tareas para todo el gráfico de acuerdo con:

$$sombrero = Rizquierda( derecha)$$

(3)

donde la salida (sombrero ancho) puede ser un escalar o un vector, dependiendo de si se usa para la predicción de una sola tarea o predicciones de múltiples tareas.

Durante el proceso de entrenamiento, tomando los gráficos moleculares como entradas, el modelo predice las propiedades de cada molécula. La pérdida se calcula en función de las propiedades predichas y las verdaderas, luego de lo cual el gradiente se propaga hacia atrás a través de la fase de lectura y la fase de paso de mensajes.

Aplicación de gráficos reducidos a la arquitectura MPNN

En este trabajo se propuso agregar una agrupación de gráficos reducidos a la arquitectura de red neuronal de paso de mensajes, lo que da como resultado cuatro fases: una fase de paso de mensajes a nivel de átomo, una fase de reducción de gráficos, una fase de paso de mensajes a nivel de RG y una lectura de molécula fase. Estas cuatro fases corresponden al esquema en la Fig. 1a y Archivo adicional 1: Tabla S5. En resumen, en comparación con la arquitectura MPNN común, la arquitectura propuesta tiene una fase más de reducción de gráficos y una fase de paso de mensajes a nivel de RG. La arquitectura MPNN con agrupación RG funciona de la siguiente manera.

Paso de mensajes a nivel de átomo

Durante la fase de paso de mensajes a nivel de átomo, el funcionamiento de la arquitectura MPNN con agrupación RG es muy similar a la fase de paso de mensajes de las MPNN típicas, con la diferencia de que (mi) no se considera directamente en la función de mensaje (_) ya que (_) se deriva de (cat(_,_)) por transformación lineal. Esta fase corre por (K) pasos de tiempo. El estado oculto de cada átomo. (_^) se puede actualizar según el mensaje (_^) de acuerdo a:

$$m_^ = sumnolimits_ $$

(4)

$$h_^ = U_ left( right)$$

(5)

Reducción de gráficos

Durante esta fase, todo el gráfico (GRAMO) es operado por el función (Reducir) que asigna cada átomo a uno o más nodos farmacóforos con las reglas que hemos mencionado en la parte del método de gráficos reducidos, lo que da como resultado un gráfico reducido (RG). Entonces, definimos (^, ^))dónde (^) representa el nodo de farmacóforo, que es uno de los 18 nodos de farmacóforo predefinidos, y (^) representa el borde entre los nodos de farmacóforo, que es igual a uno más el número de enlaces químicos compartidos entre dos nodos de farmacóforo adyacentes. El estado oculto del nodo farmacóforo inicial. (_^) de acuerdo a:

$$h_^ = duceleft( derecho)$$

(6)

Paso de mensajes de nivel RG

Esta fase corre por (T) pasos de tiempo y el estado oculto de cada nodo farmacóforo (_^) se puede actualizar según el mensaje (_^) de acuerdo a:

$$m_^ = sumnolimits_ $$

(7)

$$h_^ = U_ left( right)$$

(8)

Lectura de moléculas

Durante esta fase, la molécula que se incorpora (_)también como la representación del gráfico molecular aprendida por tareas, se logra mediante una función de lectura (R) basado en los estados ocultos (_^) dentro de (RG):

$$h_ = Rleft( right)$$

(9)

entonces la predicción de la propiedad molecular se logra a través de capas MLP:

$$hat = MLPleft( right)$$

(10)

donde la salida (sombrero ancho) puede ser un escalar o un vector igual que en el proceso MPNN, dependiendo de si se usa para la predicción de una sola tarea o predicciones de múltiples tareas.

Teóricamente, la arquitectura MPNN con agrupación RG propuesta en este documento se puede aplicar a cualquier modelo bajo la arquitectura MPNN, es decir, antes de la lectura de la molécula completa, se puede agregar la reducción de gráficos y el paso de mensajes a nivel RG, y la última operación es opcional.

RG-MPNN

Bajo la arquitectura MPNN con agrupación RG, propusimos un modelo llamado RG-MPNN (abreviatura de red neuronal de paso de mensajes de gráficos reducidos), que se diseñó agregando agrupación RG basada en la red neuronal de paso de mensajes residual (abreviada como ResMPNN) . Como se muestra en la Fig. 1b, el RG-MPNN sigue cuatro procesos mencionados anteriormente a su vez: una fase de paso de mensajes a nivel de átomo, una fase de reducción de gráficos, una fase de paso de mensajes a nivel de RG y una fase de lectura de moléculas.

A nivel de átomo, RG-MPNN comparte la misma fase de paso de mensajes y la fase de actualización que el modelo base: ResMPNN. Dentro de la fase de paso de mensajes, al recopilar mensajes de átomos vecinos, nuestro modelo adopta el mecanismo de atención, que fue propuesto por Velickovic y Bengio et al. en la construcción de GAT [43] modelo. La idea central del mecanismo de atención es recibir mensajes de los vecinos de acuerdo con un cierto peso que se calcula en función de los vectores de características del átomo central y su átomo vecino. Este mecanismo está en línea con nuestra comprensión química básica, es decir, cada átomo está influenciado por su átomo vecino en diferentes grados, lo que puede deberse a factores como la fuerza de la atracción electrostática, el cambio de la nube de electrones, etc. , en proceso de actualización, el nuevo estado oculto de atom (_^) se obtiene sumando mensaje de atención y residuos. Vale la pena enfatizar que hay (k-1) elementos residuales basados ​​en el mecanismo de conexión salteada, los valores transformados linealmente de los estados ocultos anteriores (p.ej (_^) y (_^) cuando (k=3)), ya que el residual de la conexión salteada puede evitar efectivamente el problema de la desaparición del gradiente durante el proceso de entrenamiento de la red.

El proceso de reducción de gráficos se puede considerar como una reducción de gráficos basada en farmacóforos junto con un paso de mensajes de un solo paso. En primer lugar, el gráfico (GRAMO) se reduce a (RG) (gráfico reducido) de acuerdo con las reglas de agrupación de RG basadas en farmacóforos previamente definidas, y la suma de vectores de nodos secundarios dentro de un nodo de farmacóforo se considera como el estado inicial (_). Luego llega el paso de recopilación de mensajes en la arquitectura MPNN. Cada nodo farmacóforo recibe los mensajes de sus nodos secundarios a través de sus pesos de atención. Esto es consistente con la intuición química de que cada átomo contribuye de manera diferente a su farmacóforo. Finalmente, los nodos farmacóforos se actualizan a través de una GRU (unidad recurrente cerrada) [44]con la expectativa de que la red pueda pesar el estado inicial (_) y los mensajes pasaron.

Durante la fase de paso de mensajes a nivel de RG, la operación es similar al paso de MPNN en el proceso de reducción de gráficos, es decir, se aplica el mecanismo de atención para recopilar mensajes y luego se usa el GRU para actualizar los nodos.

La implementación de la lectura de moléculas es muy similar a la del proceso de reducción de gráficos, ya que la operación de lectura puede considerarse como un caso especial de reducción de gráficos, en el que todos los nodos secundarios pertenecen a un nodo farmacóforo, con la suma de vectores de estos nodos secundarios. nodos como el estado inicial a nivel de molécula (_).

Evaluación del modelo

En este trabajo, usamos dos métodos para dividir cada conjunto de datos en un conjunto de entrenamiento, un conjunto de validación y un conjunto de prueba. El primero fue dividir aleatoriamente según la proporción de 8: 1: 1. Observó que en cada ronda de comparación del rendimiento de los algoritmos, la semilla aleatoria se mantuvo igual para eliminar el impacto de las diferentes divisiones de conjuntos de datos. Cada conjunto de datos se dividió aleatoriamente cinco veces y construimos un modelo basado en cada conjunto de datos dividido, por lo que se construyó un total de cinco modelos para cada conjunto de datos. El segundo es la división del andamio. La idea central de la división de andamios es colocar moléculas con diferentes andamios en diferentes conjuntos para evaluar la capacidad de predicción en nuevos andamios que no se encontraron durante el entrenamiento. Cada conjunto de datos también se dividió aleatoriamente cinco veces de manera similar al método mencionado anteriormente, bajo la premisa de garantizar que las moléculas con el mismo andamio se dividan en el conjunto de entrenamiento, el conjunto de validación o el conjunto de prueba al mismo tiempo. Tenga en cuenta que las barras de error en todos los gráficos muestran el error estándar de la media en cinco ejecuciones, donde el error estándar se define como la desviación estándar dividida por la raíz cuadrada de cinco (el número de ejecuciones).

Para los conjuntos de datos de referencia, usamos RMSE (error cuadrático medio) para evaluar las tareas de regresión y AUC (área bajo la curva) para evaluar las tareas de clasificación, para ser consistentes con otros modelos en la evaluación de referencia. Para los conjuntos de datos de quinasa, se usaron dos indicadores para evaluar el modelo: AUC y MCC (coeficiente de correlación de Matthews), ya que los dos no son sensibles al desequilibrio de datos. [45]. En diferentes escenarios, se puede seleccionar el mejor modelo de acuerdo con diferentes indicadores. El indicador AUC es adecuado para seleccionar modelos en los escenarios en los que se cuenta la clasificación correcta, como la preselección de compuestos para pruebas de bioactividad en la detección virtual, ya que mide la capacidad del modelo para clasificar las muestras positivas antes que las negativas. Mientras que el indicador MCC es adecuado para los modelos utilizados en los escenarios donde se cuenta la clasificación correcta, como evaluar si la molécula es activa o tóxica.

Entrenamiento de modelos y búsqueda de hiperparámetros

Pytorch [46]un marco de aprendizaje profundo, se utilizó para desarrollar todas las partes de RG-MPNN, RDKit (v.2018.09.2) [47] para procesar moléculas y Pytorch Geometric [48] para transformar una molécula en un gráfico. MSELoss y CrossEntropyLoss se utilizaron como funciones de pérdida para tareas de regresión y clasificación, respectivamente, mientras que Adam [49] se utilizó para la optimización del descenso de gradiente. Para cada conjunto de datos, adoptamos una búsqueda aleatoria de hiperparámetros utilizando el paquete de Python NNI (https://github.com/microsoft/nni). Los siguientes seis hiperparámetros junto con su alcance de elección, base_lr (decaimiento de peso base L2): [1e-3, 1e-4]k (tiempos de mensaje -paso de capas a nivel de átomo): [2,3,4,5]t (tiempos de mensaje -paso de capas a nivel rg): [1,2,3]lote: [16, 32]dimensión de la huella digital: [64, 128, 256, 512]tasa de deserción escolar: [0, 0.1, 0.2, 0.3, 0.4, 0.5]. En combinación con la estrategia de parada anticipada, se seleccionaron los mejores parámetros en función del rendimiento del conjunto de datos de validación. Este trabajo utilizó la misma estrategia para realizar una búsqueda de hiperparámetros para el modelo MPNN y el modelo AttentiveFP. Además, el archivo adicional 1: la tabla S6 enumera la cantidad de parámetros y el tiempo de ejecución promedio de los modelos principales (modelos RG-MPNN, AttentiveFP y MPNN) en este trabajo.

Deja un comentario