Un método de predicción de propiedades moleculares basado en huellas dactilares utilizando el modelo BERT | Revista de quimioinformática

El marco del marco MPP basado en FP-BERT se muestra en la Fig. 1. El método MPP propuesto en este documento consta de dos partes: el modelo FP-BERT preentrenado a la izquierda; y la red neuronal para las tareas de predicción posteriores a la derecha. Para entrenar previamente el FP-BERT, una gran cantidad de moléculas compuestas sin etiquetar en forma de SMILES se convierten en un ECFP [19] de radio 1 (como se muestra en la Fig. 1 en la parte superior izquierda) usando el RDKit [21], y luego se obtiene una lista de identificadores de subestructura y oraciones moleculares mediante el generador de oraciones de huellas dactilares moleculares. En este documento, se construye un corpus que contiene 2 millones de oraciones moleculares y se alimenta al modelo BERT en una forma de aprendizaje autosupervisado para obtener un codificador FP-BERT preentrenado. En el modelo de predicción descendente, una red neuronal consiste en el FP-BERT preentrenado como codificador de entrada, la capa CNN, una capa de agrupación máxima global y una capa totalmente conectada. La red se entrena de manera supervisada con el FP-BERT fijo de acuerdo con varias tareas de predicción de propiedades moleculares posteriores.

Figura 1
Figura 1

La arquitectura del modelo MPP basado en FP-BERT

Codificación molecular de huellas dactilares basada en un modelo de lenguaje

Inspirándonos en el aprendizaje autosupervisado en PNL, consideramos las subestructuras compuestas derivadas del algoritmo de Morgan como palabras y los compuestos como oraciones para construir un corpus de moléculas compuestas. Luego, este corpus se usa para pre-entrenar el modelo BERT. El modelo BERT preentrenado puede generar una representación incrustada de alta dimensión de la subestructura para cualquier compuesto. Por lo tanto, cualquier compuesto representado por subestructuras se convierte en una representación molecular en forma de vector, y las tareas posteriores, como la predicción de propiedades moleculares, se pueden completar aún más.

Generación de oración molecular

En PNL, cada oración consta de una secuencia de palabras. En química, cada molécula consta de un conjunto de subestructuras moleculares. Así, un compuesto puede entenderse como una oración, cada subestructura como una palabra, y la codificación de todo el compuesto puede obtenerse representando cada subestructura como un vector. Para enumerar las subestructuras en compuestos y codificarlos, primero usamos el algoritmo de Morgan [22] para generar huellas dactilares ECFP y extraer las subestructuras (es decir, «palabras») existentes en los compuestos y luego generar la oración molecular correspondiente para cada molécula. Seleccionamos aleatoriamente compuestos del E15 [23] conjunto de datos El conjunto de datos del compuesto E15 es el diverso subconjunto similar a un fármaco real del conjunto de datos ENA proporcionado por Enamine Corporation, y contiene 15,5 millones de moléculas y sus representaciones SMILES.

La representación SMILES inicial de un compuesto es una cadena ASCII S= “(s_1 s_2 s_3 cdots s_n) «, dónde (si) ((i in \)) pueden ser números arábigos, letras inglesas y símbolos especiales. Estas características en la cadena SMILES se utilizan para representar átomos o enlaces químicos en el compuesto. Por ejemplo, una representación SMILES de 1-nitropropano es CCCN(=O)=O, donde ‘(‘ y ‘)’ indican el principio y el final de la rama, ‘=’ representa un doble enlace y ‘C’, ‘N’ y ‘O’ denotan el átomo de carbono, el átomo de nitrógeno y el átomo de oxígeno, respectivamente.

En este artículo, el algoritmo se usa para generar la huella dactilar ECFP correspondiente a partir de la representación de SMILES para construir la oración molecular. [19, 22]. La idea principal es tomar cada átomo (si) en la secuencia de SONRISAS como centro y encontrar fragmentos subestructurales (s_) y (s_) con radio 0 y radio 1 en la estructura molecular. (s_) contiene la información del átomo, mientras que (s_) contiene la información del nodo vecino. Entonces, las dos subestructuras (s_) y (s_) generado por el átomo (si) se asignan a los identificadores de subestructura correspondientes (a_i^0) y (a_i^1), respectivamente. Además, todos los identificadores de subestructura se clasifican según el orden de cada átomo en la cadena SMILES y el radio de la subestructura para obtener una secuencia de identificadores de átomos. L=[(a_1^0,a_1^1,a_2^0,a_2^1, cdots , a_p^0, a_p^1)]dónde (a_i^0), (a_i^1) ((yoen ) 1, 2, (cdots), pags) son enteros de 4 bytes y pags representa el número de átomos en la secuencia SMILES. L es la oración molecular de la molécula, y su proceso de generación se muestra en la Fig. 2. Los pasos específicos del algoritmo de generación anterior se muestran a continuación.

El proceso de generación de oraciones moleculares tiene tres etapas secuenciales.

1. A cada átomo (excepto los átomos de hidrógeno y los enlaces a los átomos de hidrógeno) se le asigna inicialmente un identificador entero de longitud fija (a_i^0) que es hash de las propiedades del átomo i y sus bonos adjuntos. Un número entero puede considerarse como un índice de una cadena de bits virtual, y un bit de la cadena virtual indica la existencia o existencias de una subestructura o subestructuras. La función hash se utiliza para asignar propiedades atómicas de tamaño arbitrario a identificadores enteros de tamaño fijo para mejorar la eficiencia del almacenamiento. El conjunto de propiedades consta de propiedades, como el número atómico, el número de átomos pesados ​​adyacentes (átomos que no son de hidrógeno) del átomo central, el número de átomos de hidrógeno adyacentes del átomo central, la carga formal y un atributo adicional: si el átomo es una parte del anillo. Estos identificadores enteros se recopilan para formar el conjunto de huellas dactilares inicial (L^0) = (\);

2. El conjunto de identificadores enteros se actualiza iterativamente. En la primera iteración, se emparejan las subestructuras centradas en los átomos iniciales con radio 1. Entonces el identificador entero (a_j^1) Para el jLa subestructura se captura mediante hashing y todos los identificadores recién generados se agregan al conjunto de huellas dactilares. Los identificadores para la iteración 1 contienen información sobre los vecinos inmediatos de cada átomo. En el titeración, el identificador para el kª subestructura con radio t se actualiza a (a_k^t)y el identificador generado para cada subestructura se agrega al conjunto de huellas dactilares de la última iteración para formar un nuevo conjunto de huellas dactilares (L^t=\);

3. El proceso de actualización itera hasta que el radio de la subestructura alcanza un umbral específico, luego se eliminan los identificadores duplicados o equivalentes. Finalmente, de acuerdo con el orden atómico en las SONRISAS canónicas y los radios de las subestructuras, ordene todos los identificadores en el conjunto de huellas dactilares para obtener la oración molecular L.

Descripción previa al entrenamiento de BERT

El preentrenamiento autosupervisado de este estudio se lleva a cabo utilizando corpus respectivos que contienen millones de compuestos sin etiquetar que se procesan de acuerdo con el método de generación de oraciones moleculares introducido en 2.1.1, lo que da como resultado 3352 identificadores de átomos (palabras). El diccionario utilizado en este trabajo tiene un total de 3357 palabras. Además de estos identificadores de átomos, también contiene cinco palabras especiales [PAD], [UNK], [CLS], [SEP]y [MASK]. Cada molécula del corpus es una oración compuesta de identificadores de subestructura. Estas oraciones moleculares se utilizan como vectores de incrustación de palabras en la secuencia de entrada del modelo BERT, y los vectores de incrustación de segmentación y los vectores de incrustación de posición se concatenan en la secuencia de entrada. Estos tres vectores de incrustación se envían al codificador de Transformer para aprender la representación del compuesto. El módulo más importante de BERT es el mecanismo de autoatención. El mecanismo de autoatención ajusta el peso de cada palabra en la secuencia de entrada para obtener un vector de representación global que contiene el contexto.

Figura 2
Figura 2

La generación de oraciones moleculares.

En este documento, la tarea de pre-entrenamiento de FP-BERT es un modelado de lenguaje enmascarado (MaskedLM), que enmascara aleatoriamente una parte de las palabras en la oración de entrada e intenta predecir esas palabras enmascaradas. Como se muestra en la Fig. 3, la tarea MaskedLM cubre aleatoriamente hasta el 15% de las palabras en cada oración compuesta de subestructuras en el corpus de entrenamiento e intenta predecir aquellas palabras que están cubiertas. Para esas palabras cubiertas, las siguientes tres estrategias son adoptado:

  1. 1.

    Reemplace la palabra enmascarada con [MASK] con 80% de probabilidad;

  1. 2.

    Reemplace la palabra enmascarada con una palabra aleatoria con una probabilidad del 10%;

  1. 3.

    Sigue igual con un 10% de probabilidad.

La tarea de preentrenamiento MaskedLM puede hacer que el modelo FP-BERT dependa más de la información contextual para predecir las palabras enmascaradas, lo que le da al modelo un cierto grado de capacidad de corrección de errores. [24].

Una vez que se completa el proceso de preentrenamiento, tomando como entrada la oración molecular de cualquier compuesto, el modelo FP-BERT genera la representación codificada de la molécula. La salida del modelo es una lista del vector de estado (T_i in ^H) correspondiente a cada subestructura compuesta, donde H representa el tamaño oculto y (i in \). Todos los vectores de subestructura forman la representación codificada T=[(T_1,T_2,cdots ,T_n)] del compuesto

Fig. 3
figura 3

Procedimientos previos a la formación para BERT

Modelo de predicción de propiedades moleculares

Después de obtener la representación molecular adecuada, se puede construir un modelo de predicción para predecir las propiedades moleculares. Las CNN pueden capturar las características locales de los datos en forma de cuadrícula y se han aplicado con éxito en el campo del procesamiento de imágenes y el procesamiento del lenguaje natural. En este artículo, construimos un modelo de predicción de propiedades moleculares basado en el marco CNN. Este modelo de predicción basado en CNN se compone principalmente de una capa convolucional unidimensional, una capa de agrupación máxima global y una capa totalmente conectada.

Primero, usamos una red neuronal convolucional 1D para realizar la extracción de características en el vector de representación compuesto obtenido por el modelo BERT de acuerdo con

$$begin&o_ = Conv1d(x_ circledast w_) end$$

(1)

dónde (x_ in ^) representa la representación molecular aprendida, norte representa el número de tokens en la secuencia de entrada, (circledast ) representa la operación de convolución, (w_) representa los parámetros a ser aprendidos, y (o_) representa la salida después de pasar por la red convolucional 1D. Además, después de la capa de convolución, usamos ReLU como función de activación.

Después de la extracción de funciones por parte de CNN, función máxima (o_) se puede seleccionar de (o_) por la operación de agrupación máxima para lograr la reducción de la dimensionalidad y el intercambio de parámetros.

Finalmente, la red completamente conectada genera los resultados de predicción de las propiedades moleculares del compuesto de acuerdo con

$$begin&y = mathbf (mathbf _ cdot mathbf _ + _) end$$

(2)

dónde (w_) representa la matriz de parámetros de la capa completamente conectada, (b_) representa la desviación, F representa la función de activación de ReLU, y y representa los resultados de predicción del modelo CNN. En la tarea de clasificación, y es un vector one-hot, que representa si la molécula tiene la propiedad actual, y en la tarea de regresión, y es un número real, que representa el valor de la propiedad específica de la molécula.

Para la tarea de clasificación, usamos la función de pérdida de entropía cruzada para optimizar nuestro modelo de acuerdo con

$$begin &Pérdida = -frac sum _^ t_i cdot log y_i + (1-t_i) cdot log (1-y_i ) end $$

(3)

dónde (t_i) representa la verdadera etiqueta de la muestra i, (y_i) representa la probabilidad de que la muestra i se prevé que sea una muestra positiva, y norte representa el número de muestras.

Para la tarea de regresión, usamos la función de pérdida de error cuadrático medio para optimizar nuestro modelo de predicción de acuerdo con

$$begin&Pérdida = -frac sum _^ (y_i – t_i)^2 end $$

(4)

dónde (t_i) representa el valor real de la propiedad de la muestra i, (y_i) representa el valor predicho de la propiedad de la muestra iy norte representa el número de muestras.

Método de evaluación del rendimiento y configuración de hiperparámetros

En este artículo, el modelo de predicción de propiedades moleculares utilizó ReLU como función de activación. Para los conjuntos de datos de clasificación, el rendimiento de predicción del modelo se evaluó utilizando ROC-AUC, que representa el área bajo la curva característica operativa del receptor. El proceso de cálculo de AUC se muestra a continuación,

$$begin &AUC = frac left[ sum _ rank_i – frac right] end$$

(5)

dónde METRO y norte representan el número de muestras positivas y negativas, respectivamente, y (rango_i) representa la clasificación de la puntuación de la muestra i entre todos norte muestras

Para conjuntos de datos de regresión, el rendimiento de predicción del modelo se evaluó utilizando el error cuadrático medio. El proceso de cálculo de RMSE se muestra de la siguiente manera:

$$begin &RMSE = sqrt end $$

(6)

dónde (t_i) representa el valor real de la propiedad de la muestra i, (y_i) representa el valor predicho de la propiedad de la muestra iy norte representa el número de muestras.

los (R^2) La métrica refleja la bondad del ajuste y se calcula sobre el conjunto de entrenamiento en el que RSS es la suma residual de cuadrados y TSS es la suma total de cuadrados, y () es la media de los valores predichos.

$$begin&R^2 = 1-RSS/TSS\&RSS = sum _^n(y_i-t_i)^2\&TSS = sum _^ n ( – t_i)^2 end$$

(7)

los (Q^2) La métrica refleja la bondad de la predicción y se calcula en el conjunto de prueba en el que PRENSA es la suma de cuadrados del error residual predictivo.

$$begin &Q^2 = 1-PRESS/TSS\&PRESS = sum _^ (y_i – t_i)^2 end $$

(8)

Fuente del artículo

Deja un comentario