ABT-MPNN: una red neuronal de paso de mensajes basada en transformadores de enlaces atómicos para la predicción de propiedades moleculares | Revista de quimioinformática

Preliminares

Realizamos una breve descripción de los preliminares relacionados con este trabajo, incluidas varias representaciones moleculares basadas en gráficos, redes neuronales de paso de mensajes, así como el mecanismo de atención y el Transformador.

Representación molecular basada en gráficos

Un gráfico (GRAMO) es una estructura de datos definida por un par de conjuntos (izquierda(V,Ederecha))dónde (V) y (MI) representan las colecciones de vértices y aristas, respectivamente. Un gráfico dirigido tiene pares ordenados de vértices, donde los bordes están dirigidos de un vértice a otro. Por el contrario, un grafo no dirigido puede verse como un caso especial de grafo dirigido en el que los elementos de (MI) son pares desordenados de elementos en (V), lo que significa que los bordes entre los nodos no tienen ninguna dirección asociada. En el modelado, la presencia de una pareja en (MI) (es decir, (_=(_,_)en E)) significa una conexión específica entre dos vértices (es decir, (_,_)) en (V). Si bien uno puede asociar vectores de características a los elementos en (V) y/o aquellos en (MI), estos vectores de características no son estrictamente parte de la estructura de datos del gráfico. En consecuencia, un gráfico molecular comprende un conjunto de átomos y un conjunto de enlaces químicos o interacciones entre cada par de átomos adyacentes. En lugar de caracterizar la información molecular completa en una matriz unidimensional, como las huellas dactilares moleculares, la estructura del gráfico permite la asociación de un vector de características con cada átomo y con cada enlace. Las representaciones basadas en gráficos pueden codificar las propiedades o relaciones de átomos y enlaces localmente con una colección de vectores de características de átomos y enlaces.

Matrices de características de átomos y enlaces

Se pueden calcular varias propiedades químicas para átomos y enlaces de moléculas. Las características extraídas del átomo y el enlace generalmente se mapean en matrices de datos bidimensionales que las computadoras pueden manejar fácilmente. [17]. Específicamente, se puede generar una matriz de características atómicas llenando cada fila (que representa cada átomo en la molécula) con propiedades atómicas, como el número atómico, la carga formal y la quiralidad. Para una matriz de características de enlaces, los valores en cada fila corresponden a los atributos calculados para cada enlace en una molécula, que pueden incluir el tipo de enlace, la conjugación, la pertenencia al anillo, etc. ser más expresivo.

Matrices de adyacencia y distancia

Las matrices de adyacencia y distancia son dos representaciones gráficas de moléculas que contienen la información de conectividad y distancia para cada par de átomos, respectivamente. Para una matriz de adyacencia, las entradas se establecen en 1 si existen enlaces químicos entre los pares de átomos correspondientes, mientras que los pares de átomos no enlazados se indican con 0. En contraste con esta definición binaria de enlace, una matriz de distancia representa las distancias topológicas de los átomos. Para cada molécula, una matriz de distancia se basa en la conformación molecular y se calcula según las coordenadas 3D de los pares de átomos.

matriz de culombio

La matriz de Coulomb propuesta por Rupp et al. [18] es un método de caracterización molecular que representa la interacción electrostática entre átomos, que se especifica mediante un conjunto de cargas nucleares y las correspondientes coordenadas cartesianas . Para cada molécula, una matriz de Coulomb está codificada por energías atómicas y el operador de repulsión de Coulomb internuclear de la siguiente manera:

$$_=left{begin0.5_^, (i=j)\ frac_-_right ,(ine j)endright. $$

(1)

Los elementos en diagonal ((i=j)) representan la interacción de los átomos consigo mismos y se les asigna un ajuste polinomial de energía atómica. El resto de entradas ((ine j)) se calculan mediante el operador de repulsión de Coulomb.

Redes neuronales de paso de mensajes

El MPNN propuesto por Gilmer et al. [8] es otro tipo de enfoque basado en el espacio que opera en gráficos no dirigidos con características tanto de nodo como de borde. El MPNN abstrae los elementos comunes de las circunvoluciones espaciales y se puede utilizar como un marco general para las GCN basadas en el espacio. El marco MPNN generalmente comprende dos fases para obtener características gráficas globales: una fase de paso de mensajes y una fase de lectura. Específicamente, la fase de paso de mensajes consiste en (T) iteraciones para agregar información para cada nodo. Un gráfico se inicializa primero por características de nodo (_) y características de borde (_). En cada paso de paso de mensajes (t) ((1le tle T)), la representación oculta ((_^)) y el mensaje (_^) asociado con cada nodo v se actualizan en t + 1 según

$$_^=sum__(_^, _^,_)$$

(2)

$$_^=_(_^,_^) $$

(3)

dónde () es una función de mensaje y () es una función de actualización de vértices. Después (T) iteraciones, la fase de lectura, con una función de lectura (R,) se utiliza para agregar una representación global para el gráfico completo de todas las representaciones ocultas de los nodos de la siguiente manera:

$$vin Gright)$$

(4)

Con diferentes definiciones de (), ()y (R), se pueden generalizar varios GCN basados ​​en el espacio en el marco MPNN. El marco MPNN se ha utilizado ampliamente en los campos de la biología y la química computacional para modelar estructuras moleculares debido a las funciones de actualización/mensaje flexibles y personalizables. Por ejemplo, una arquitectura robusta y poderosa llamada red neuronal de paso de mensajes dirigidos (D-MPNN) [19] diseña esquemas de agregación de mensajes asociados con enlaces dirigidos en lugar de átomos. Usando un diseño de este tipo, D-MPNN puede evitar bucles y redundancias innecesarias en las iteraciones de paso de mensajes, lo que permite la agregación efectiva de información local a nivel molecular.

Mecanismo de atención y transformador.

el transformador [9], un nuevo enfoque de aprendizaje profundo que utiliza el mecanismo de autoatención para sopesar diferencialmente la importancia de cada parte de los datos de entrada y sus variantes, se ha convertido en una de las arquitecturas más potentes para modelar secuencias de datos en el procesamiento del lenguaje natural. A diferencia de la operación convolucional en la red neuronal convolucional tradicional, el mecanismo de autoatención, que sirve como núcleo del Transformador, puede modelar de manera eficiente los datos de secuencia al capturar las interacciones entre cada par de tokens de entrada. Se han aplicado arquitecturas tipo transformador y son muy prometedoras en múltiples dominios de IA, como el transformador de visión, [20] desarrollado para tareas de visión artificial, y AlphaFold2, [21] diseñado para problemas de plegamiento de proteínas.

La red de transformadores [9] se basa en el mecanismo de autoatención, donde se aplica una función de puntuación de producto escalar para modelar el contexto capturando la correspondencia entre cada par de la posición de la entrada. Específicamente, una capa de autoatención toma una matriz oculta de entrada (Hen ^)dónde (NORTE) es el número de entradas y (d) es su dimensión oculta. La entrada se proyecta a una matriz de consulta ((_)), una matriz clave ((_)) y una matriz de valor ((_)), dónde (_), (_) y () son las matrices de parámetros. La autoatención en el Transformador se calcula como:

$$Atención(Q,K,V)=softmax(frac)V$$

(5)

En lugar de calcular una sola función de atención para las consultas, claves y valores, el Transformador utiliza la autoatención de varios cabezales, donde se realizan múltiples funciones de atención en paralelo y luego se proyectan para formar el resultado general. Específicamente, para cada cabeza de atención ((_)), la representación aprendida se formula como:

$$_=Atenciónizquierda(Q_,K_,V_right)=softmax(frac)V_$$

(6)

dónde (_), (_), (_) son matrices de peso aprendibles para (_). A continuación, las salidas de las cabezas de atención se concatenan y proyectan mediante una matriz de parámetros. (_) para producir el resultado final:

$$MultiHead(Q,K,V)=Concat(_,dots,_)_$$

(7)

Red neuronal de paso de mensajes basada en transformador de enlace atómico

arquitectura modelo

La arquitectura de la red neuronal de paso de mensajes basada en transformador de enlace atómico propuesta (ABT-MPNN) se muestra en la Fig. 1. Como se definió anteriormente, el marco MPNN consta de una fase de paso de mensajes y una fase de lectura para agregar características locales. a una representación global para cada molécula. De acuerdo con este paradigma, D-MPNN define una nueva fase de paso de mensajes a través de enlaces dirigidos. Aquí, ampliamos D-MPNN aún más al integrar el mecanismo de autoatención en los niveles de enlace y átomo con dos arquitecturas tipo Transformador y diseñamos un esquema de ingeniería de características en el paso de atención del átomo.

Figura 1
Figura 1

Ilustración de nuestra ABT-MPNN propuesta. La red dada toma SMILES como entrada y genera características atómicas, características de enlace, tres matrices interatómicas y descriptores moleculares como codificaciones locales y globales de la molécula. La matriz de características de bonos se aprende primero a través de bloques de atención de bonos y funciones de actualización de bonos en las capas de paso de mensajes. Después de la fase de paso de mensajes, las representaciones atómicas se obtienen sumando los estados ocultos de los enlaces entrantes, seguido de la concatenación de la matriz de características del átomo y un bloque de atención del átomo de múltiples cabezas. En el bloque de atención del átomo, se agregan individualmente tres matrices interatómicas escaladas a los pesos de cada cabeza de atención como un término de sesgo. Finalmente, los estados ocultos atómicos aprendidos se agregan a un vector molecular, se concatenan con los descriptores moleculares y luego se ingresan en capas de avance para la predicción de propiedades.

Más concretamente, las moléculas representadas por el sistema de entrada de línea de entrada molecular simplificado (SMILES) se ingresan primero en el paso de caracterización y las características del nodo ((_)) y características de enlace ((_)), la mayoría de los cuales están codificados en caliente (archivo adicional 1: Tabla S1). Además, tres matrices interatómicas (adyacencia, distancia, coulomb) y un vector de características que contiene descriptores moleculares ((_)) también se generan (Archivo adicional 1: Tabla S2). Dado que los estados ocultos se transmiten de manera dirigida en la fase de paso de mensajes (incrustación de enlaces), cada enlace se inicializa con dos vectores de características, que representan los mensajes de enlace en dos direcciones opuestas. Antes de la etapa de incorporación de enlaces, los estados ocultos de los enlaces químicos ((_^)) se inicializan, donde () es la primera matriz de peso aprendible del modelo (Tabla 1: Inicialización).

Tabla 1 Algoritmo de ABT-MPNN

En cada iteración de paso de mensajes (t)cada mensaje de enlace ((_^)) se actualiza primero sumando todos los estados ocultos vecinos entrantes ((_^,ken Vecinoleft(vright))) de la iteración anterior, excepto la que representa la dirección opuesta a la suya ((_^)). A continuación, aumentamos una autoatención de múltiples cabezas a los mensajes de enlace y agregamos los mensajes de enlace de entrada a la salida de atención de enlace a través de una conexión de salto. Específicamente, para producir la atención para cada enlace, el bloque de atención de enlace toma como entrada todos los mensajes de enlace de la iteración de paso de mensajes anterior. El mensaje de atención de bonos obtenido ((_^)) es proyectada por una matriz de pesos ocultos ((_)), concatenado con el estado oculto del enlace original ((_^)), luego se introduce en una función de activación para generar el estado oculto ((_^)) que se utiliza para la siguiente iteración de paso de mensajes. En comparación con el esquema genérico de paso de mensajes descrito en la sección anterior, el empleo de la atención de enlace tiene un paso adicional de actualización de la representación oculta ((_^)) (Tabla 1: Fase de Incorporación de Bonos).

Después de iterar a través de todas las capas de paso de mensajes, el mensaje de cada átomo ((_)) se obtiene agregando todos los estados ocultos de enlace adyacentes que se originaron a partir de él ((_^,win Vecinoleft(vright))) y concatenándolos con características atómicas, que luego son transformadas por una matriz de pesos ((_)) y una activación de ReLu. Aquí, implementamos además un bloque Transformador a nivel de átomo asistido con tres matrices basadas en átomos y una conexión de salto desde la entrada para generar los estados ocultos para los átomos (Tabla 1: Fase de incrustación de átomos). En la fase de incorporación de la molécula, todos los estados ocultos atómicos aprendidos de una molécula se suman en una sola representación ((h)). El resultado final del modelo es devuelto por una red neuronal de alimentación hacia adelante (FFN) de dos capas que se alimenta con la concatenación de la representación aprendida y los descriptores moleculares calculados (Tabla 1: Fase de incrustación de moléculas).

Bondar la atención

Antes de la atención de producto punto escalado utilizada en la red Transformer, la atención aditiva propuesta por Bahdanau et al. [15] se conoce como el primer intento de utilizar el mecanismo de atención en el aprendizaje profundo. Con base en la atención aditiva, Wu et al. [22] propuso una arquitectura de Transformador eficiente, a saber, Fastformer, para mitigar la complejidad computacional cuadrática en la red de Transformador. En general, en lugar de modelar las interacciones entre cada par de unidades por producto escalar de matrices, Fastformer utiliza atención aditiva para modelar contextos globales y transformar cada representación de token por su interacción con los contextos globales. Dado que el marco MPNN contiene (T) iteraciones de paso de mensajes, agregar la arquitectura Transformer en cada capa de paso de mensajes es computacionalmente costoso, especialmente para arquitecturas que contienen numerosas capas para entrenar moléculas grandes. Con este fin, adoptamos Fastformer como componente básico para la atención de bonos en nuestro modelo.

El pseudocódigo de la atención del bono se muestra en el archivo adicional 1: Tabla S3. Específicamente, el bloque de atención de bonos contiene 6 cabezas de atención y toma los mensajes de bonos como entrada. Dada una molécula con (NORTE) enlaces, las matrices de consulta, clave y valor se establecen igual a la matriz de mensaje de enlace de entrada (_in ^)dónde (d) es la dimensión oculta. En primer lugar, una consulta de bonos globales ((_)) se obtiene a través de la atención aditiva, en la que un peso de atención aditiva ((_)) de cada vector de enlace se calcula, multiplicado por su vector de consulta de enlace correspondiente ((_)) y resumidos juntos. A continuación, la interacción entre la consulta de enlace global y los vectores clave de enlace ((_)) se lleva a cabo mediante productos elementales. De manera similar, una clave de enlace global ((_)) se obtiene realizando atención aditiva y se emplea para transformar los vectores de valor de enlace en productos de elementos. Por último, se proyectan los vectores de interacción clave-valor resultantes, sumados a las consultas de enlace ((_)) a través de una conexión de salto, luego normalizado por una normalización de capa [23] para generar la salida de atención de enlace final (_in ^).

Atención del átomo

En la fase de incrustación de átomos, construimos una capa de autoatención de varios cabezales en los vectores de átomos agregados, lo que permite que el modelo se centre más en los átomos o los entornos locales que son más relevantes para las propiedades objetivo. En lugar de utilizar la atención aditiva, seleccionamos la red Transformer original que utiliza la atención de producto punto escalado como nuestro componente básico para la atención atómica. La motivación de esta elección se debe principalmente a la encapsulación de funciones adicionales. Concretamente, debido a las restricciones arquitectónicas, la mayoría de las redes basadas en gráficos solo funcionan en gráficos moleculares donde los átomos o enlaces están incrustados con vectores de características que contienen las propiedades químicas correspondientes. Con la inclusión de escalas atención del producto punto en los átomos, nuestro modelo puede incorporar características adicionales a nivel de gráficos que contienen información sobre las relaciones espaciales y electrostáticas entre pares de átomos, proporcionando así una perspectiva más completa de la topología molecular durante el modelado.

Como se define en el archivo adicional 1: Tabla S4, la capa de atención atómica con 6 cabezas de atención toma los mensajes atómicos agregados ((_in ^)) como entrada, donde (METRO) es el número de átomos y (d) es la dimensión oculta. Para cada cabeza de atención, se agrega un tipo de matriz de características interatómica adicional a la matriz de interacción de clave de consulta como un término de sesgo. Específicamente, el (_) y (_) tome las matrices de adyacencia de las moléculas como entradas, lo que incorpora la información de conectividad de las moléculas en el modelo. El (_) y (_) incluir las distancias topológicas de los pares de átomos de los conformadores generados por RDKit a los pesos de atención. El (_) y (_) encapsule la matriz de Coulomb, que representa la interacción electrostática entre los átomos en el modelo. Antes de importarlas al modelo, las matrices de características se normalizan mediante la normalización de puntuación Z y se escalan mediante (lambda)un hiperparámetro utilizado en esta arquitectura.

Configuraciones experimentales

Conjuntos de datos de referencia y métricas de evaluación

Como una extensión de nuestro marco anterior para modelar conjuntos de datos químico-genéticos a gran escala, llevamos a cabo la evaluación del rendimiento del ABT-MPNN propuesto en los perfiles de interacción químico-genética de los medicamentos de Johnson et al. [24]que incluyen 47.217 moléculas pequeñas contra cientos de Tuberculosis micobacteriana cepas mutantes (nombradas por el gen regulado a la baja). La propiedad de inhibición del crecimiento de una molécula en cada Tuberculosis M. La cepa mutante se midió mediante la prueba estadística (puntuación Z) obtenida a partir de los resultados experimentales [24]. Cuanto más pequeño es el puntaje Z, más pronunciado es el efecto inhibidor del crecimiento de la molécula pequeña en el Tuberculosis M. cepa mutante. Luego agrupamos los perfiles de interacción químico-genética en grupos de genes identificando primero Tuberculosis M. homólogos de H37Rv en Escherichia coli K12 según sus productos génicos. Luego, se calculó la similitud semántica del gen del proceso biológico para los homólogos y se realizó un agrupamiento jerárquico. [25]. Después de la agrupación a nivel de genes, 13 distintos Tuberculosis M.Se formaron grupos de genes y el valor objetivo para cada grupo de genes se obtuvo encontrando la mediana de la puntuación Z de los genes en ese grupo. Además de entrenar modelos de regresión con puntajes Z continuos, construimos tareas de clasificación binaria para cada uno de los 13 grupos de genes con un criterio de clase igual a -4, donde el puntaje Z <-4 se consideró inhibidor del crecimiento o activo (1), o de otra manera inactivo (0). Para este conjunto de datos (Tabla 2), empleamos una división aleatoria para dividir los datos en subconjuntos (conjunto de entrenamiento, conjunto de validación y conjunto de prueba) por la proporción de 80:10:10. El error cuadrático medio (RMSE) se usó como métrica para la regresión y el área bajo la curva de recuperación de precisión (AUPRC) se usó para la clasificación, ya que el conjunto de datos binarizados está muy desequilibrado (el porcentaje promedio de etiquetas positivas en los grupos es del 4 %). .

Tabla 2 El resumen de los conjuntos de datos moleculares seleccionados

Además, realizamos la predicción de las propiedades moleculares utilizando 4 puntos de referencia moleculares de clasificación y 4 de regresión de MoleculeNet [26] (Tabla 2). Seguimos las recomendaciones de MoleculeNet [26] para seleccionar estrategias de división de datos y métricas de evaluación, que se basaron en el contenido de cada conjunto de datos y trabajos anteriores. La división Scaffold se empleó en el conjunto de datos de VIH, mientras que el resto usó la división aleatoria de forma predeterminada. El área bajo la curva característica operativa del receptor (AUROC) se aplicó a los 4 conjuntos de datos de clasificación. RMSE se calculó para tareas de regresión en ESOL, FreeSolv y Lipofilia, mientras que el error absoluto medio (MAE) se aplicó a QM8.

Modelos de referencia

Realizamos evaluaciones comparativas de ABT-MPNN frente a 6 métodos de referencia que cubren arquitecturas de ML superficiales y profundas. Estos incluyen (1) bosque aleatorio (RF) [27] con huellas dactilares binarias de Morgan como entradas; (2) red feed-forward (FFN) entrenada con descriptores químicos normalizados. Como nuestro modelo se derivó del marco MPNN, también informamos el rendimiento de (3) la red neuronal de paso de mensajes (MPNN) [8] y (4) la red neuronal de paso de mensajes dirigidos (D-MPNN) [19] en los resultados Además, comparamos nuestro modelo con otras dos redes neuronales gráficas de última generación: (5) DeeperGCN [28] y (6) método de aprendizaje de representación molecular mejorado con geometría (GEM) [29]para demostrar el poder de nuestro enfoque propuesto.

Detalles de implementacion

El RF se implementó con 500 árboles basados ​​en huellas dactilares binarias de Morgan ((r=2); (bits=2048)). El FFN contenía una capa densa con 1400 neuronas antes de la capa de salida y se alimentó con 200 descriptores químicos normalizados. Para mejorar el rendimiento de los modelos, los hiperparámetros de los modelos se optimizaron mediante la optimización bayesiana. [30] con el mismo presupuesto de optimización (30 épocas en 20 iteraciones) en la misma división de datos. Para nuestro modelo propuesto, optimizamos los cuatro hiperparámetros enumerados en la Tabla 3.

Tabla 3 Optimización bayesiana para hiperparámetros en ABT-MPNN

Los modelos se optimizaron con el optimizador de Adam y se determinaron los parámetros óptimos como aquellos con la puntuación de rendimiento más alta en el conjunto de validación durante el entrenamiento. Empleamos una validación cruzada (CV) quíntuple en las divisiones de datos particionados e informamos la media y la desviación estándar de las métricas. El ABT-MPNN usó PyTorch [31] como el marco de aprendizaje profundo y fue desarrollado en base al paquete Chemprop por Yang et al. [32].

Fuente del artículo

Deja un comentario