MDDI-SCL: predicción de interacciones farmacológicas multitipo a través del aprendizaje contrastivo supervisado | Revista de quimioinformática

conjuntos de datos

En este estudio, utilizamos dos conjuntos de datos con el número de muestras en una escala diferente. El primer conjunto de datos (Dataset1) es el conjunto de datos de referencia que Deng et al. recogido [20]. El conjunto de datos 1 contiene 572 medicamentos con 74 528 DDI por pares, que están asociados con 65 tipos de DDI. Cada medicamento en Dataset1 tiene cuatro tipos de características: subestructuras químicas, objetivos, vías y enzimas, que se extraen de DrugBank. [39]. El segundo conjunto de datos (Dataset2) es el conjunto de datos del estudio de Lin et al. [21]. El conjunto de datos 2 contiene 1258 medicamentos con 323539 DDI por pares, que están asociados con 100 tipos de DDI. Cada fármaco en Dataset2 tiene tres tipos de características: subestructuras, dianas y enzimas.

Representación de características de drogas

Cada tipo de característica de un fármaco corresponde a un conjunto de descriptores, por lo que un fármaco puede representarse mediante un vector de características binario, y su valor (1 o 0) indica la presencia o ausencia del elemento correspondiente.

Estos vectores de características tienen una alta dimensionalidad con valores de la mayoría de las dimensiones siendo 0. Por lo tanto, representamos el vector de características de un fármaco por el perfil de similitud, que se genera por la similitud del fármaco A contra cada uno (es decir, el fármaco B) en el resto de fármacos en el conjunto de datos [18]. La similitud de Jaccard se calcula mediante la siguiente ecuación,

$$mathbfmathbfmathbfmathbfmathbfmathbfmathbfleft(mathbf,mathbfright)=fracmathbfcap mathbfright=frac mathbf cap mathbfright$$

(1)

donde A y B son vectores de bits originales de dos fármacos; |A∩B| es el número de elementos en la intersección de A y B; |UnB| es el número de elementos en la unión de A y B.

Según la similitud de Jaccard, en Dataset1, cada característica de tipo de un fármaco se representa como un vector de 572 dimensiones. Por lo tanto, cada fármaco con cuatro tipos de características está representado por un vector de 4 x 572 dimensiones. De forma similar, cada fármaco se representa como un vector de 3 x 1258 dimensiones en Dataset2.

Codificador de características de medicamentos y pérdida de error cuadrático medio

El módulo codificador de características de medicamentos incluye principalmente capas de autoatención de cabezales múltiples y un codificador automático. Las capas de autoatención de varios cabezales pueden centrarse en características más importantes del fármaco [40, 41]y además, el codificador automático realiza una reducción de la dimensionalidad de las características [42, 43]. En consecuencia, se pueden obtener mejores representaciones de fármacos de menor dimensión a través del módulo codificador de características de fármacos. Usamos la pérdida de error cuadrático medio para actualizar los parámetros del módulo codificador de características.

Mecanismo de autoatención multicabezal y autocodificador

La descripción detallada del mecanismo de autoatención de cabezales múltiples y el codificador automático se proporciona en el archivo adicional 1 [41]. En el modelo, las características ocultas obtenidas a través de las capas de autoatención de varios cabezales se indican como DA1 y DB1 para un par de fármacos (es decir, el fármaco A y el fármaco B), como se muestra en la figura 1A. El codificador de autoencoder tiene dos capas lineales. Los vectores de salida de la primera capa lineal se denominan DA2 y DB2, y los vectores de salida de la segunda capa lineal se denominan DA3 y DB3.

Error medio cuadrado

El error cuadrático medio se usa comúnmente como función de pérdida de regresión, que calcula la diferencia cuadrática promedio entre los valores observados y predichos. En nuestro modelo, MSE es la suma de las distancias al cuadrado entre el vector de características del fármaco y el vector de salida del decodificador dividido por la dimensionalidad de la característica. El MSE se calcula mediante la siguiente fórmula,

$$mathrm=frac$$

(2)

dónde fea_dim es la característica dimensionalidad de la droga, valori es el valor de cada dimensión del vector de características del fármaco, valori~ es el valor de cada dimensión del vector de salida del decodificador.

Fusión de características latentes de fármacos y pérdida contrastiva supervisada

El módulo de fusión de características latentes de fármacos incluye principalmente dos submódulos: fusión de características multiescala y reducción de dimensionalidad de características latentes. El submódulo de fusión de características multiescala puede combinar simultáneamente las características de bajo nivel y las características de alto nivel de un par de fármacos, y el submódulo de reducción de la dimensionalidad de las características puede fusionar aún más las características latentes y reducir la dimensionalidad de las características. La función de pérdida de aprendizaje contrastiva supervisada se utiliza para actualizar los parámetros del módulo de fusión de características latentes de fármacos.

Submódulo de fusión de características multiescala

Un par de fármacos contiene dos fármacos (es decir, el fármaco A y el fármaco B). A través del módulo codificador de características del fármaco se obtienen tres características latentes del fármaco A: DA1, DA2 y DA3, como se muestra en la figura 1A. De manera similar, podemos adquirir tres características latentes del fármaco B: DB1, DB2 y DB3. DA1 y DB1 son características de bajo nivel, que normalmente contienen información más detallada pero también más ruido. [44, 45]. DA3 y DB3 son características de alto nivel. Normalmente, las funciones de alto nivel tienen más información semántica y menos ruido, pero pierden mucha información detallada. [45,46,47,48]. Por lo tanto, para integrar mejor las ventajas de las funciones de bajo y alto nivel, concatenamos DA1 y DB3, DA2 y DB2, DA3 y DB1 para representar un par de fármacos, respectivamente. Luego, ingresamos las características concatenadas en la capa completamente conectada para obtener las características del par de fármacos fusionados FD1, FD2 y FD3, como se muestra en la Fig. 1B.

Submódulo de reducción de dimensión de características latentes

Cuando la red neuronal se vuelve profunda, se puede usar la conexión residual para evitar el problema del gradiente de fuga [ 49 ]. En este submódulo, la salida (DA3 y DB3) del codificador y la salida (FD1, FD2 y FD3) del submódulo de fusión de características multiescala se concatenan como entrada en el submódulo de reducción de dimensionalidad de características latentes, que principalmente incluye capas de autoatención de varios cabezales y capas lineales. El número de neuronas para cada capa lineal es la mitad de la capa anterior. La autoatención de cabezales múltiples se ha introducido en detalle en la sección «Mecanismo de autoatención de cabezales múltiples y codificador automático». El vector de salida del submódulo de reducción de dimensionalidad de características latentes se denomina CFV, como se muestra en la Fig. 1B.

Pérdida contrastiva supervisada

El aprendizaje contrastivo incluye el aprendizaje contrastivo no supervisado y el aprendizaje contrastivo supervisado. Las características latentes de las muestras obtenidas por aprendizaje contrastivo no supervisado tienen la siguiente propiedad: las características de las muestras de la misma fuente son más similares, mientras que las características de las muestras de diferentes fuentes son más diferentes. [50]. Sin embargo, una desventaja significativa del aprendizaje contrastivo no supervisado es que no considera la correlación de características entre muestras de diferentes fuentes pero que pertenecen a la misma clase. Para superar este inconveniente del aprendizaje contrastivo no supervisado, se propone el aprendizaje contrastivo supervisado. Las características latentes de las muestras obtenidas por aprendizaje contrastivo supervisado tienen la siguiente propiedad: las características de las muestras que pertenecen al mismo tipo son más similares, mientras que las características de las muestras de diferentes tipos son más diferentes. [31, 51].

Teniendo en cuenta que la tarea de predicción de tipo DDI es una tarea de clasificación multiclase, el aprendizaje contrastivo supervisado es más competente para esta tarea. En consecuencia, nuestro modelo emplea aprendizaje contrastivo supervisado. La función de pérdida del aprendizaje comparativo supervisado en nuestro modelo se puede calcular mediante la siguiente fórmula,

$$^=fracsum_^_^$$

(3)

$$_^=fracsum_^frac$$

(4)

dónde nortetamaño del lote es el número de muestras en cada lote, yi es la etiqueta de clase de la muestra iy yj es la etiqueta de clase de la muestra j. norteyo es el número de muestras de clase yi en el mismo lote. simulador es una función que mide la similitud de dos vectores, como la similitud del coseno. CFViCFVjCFVk son el vector de características latentes, que son el vector de salida del submódulo de reducción de dimensionalidad de características latentes de la muestra i, jy krespectivamente. τR+ es un parámetro de temperatura escalar. De acuerdo con las fórmulas anteriores, para hacer la yoiestafa pérdida menor, el valor de sim(CFVi, CFVj) será más grande Entonces los vectores ocultos CFVi y CFVj debe ser mas parecido. CFVi y CFVj son los vectores latentes de las muestras del mismo tipo, por lo que las características latentes de las muestras del mismo tipo son más similares.

Pérdida de clasificación y predicción DDI multitipo

El módulo emplea dos capas completamente conectadas para predecir los tipos de DDI, y la cantidad de neuronas en la segunda capa completamente conectada es la cantidad de tipos de DDI. La predicción del tipo DDI es una tarea de clasificación de varias clases y el tamaño de la muestra de cada clase no está equilibrado. Dado que la pérdida focal puede resolver parcialmente el problema del desequilibrio de la muestra [21]usamos pérdida focal [52] y pérdida de entropía cruzada como nuestras funciones de pérdida de clasificación. En detalle, elegimos la pérdida de entropía cruzada como nuestra función de pérdida de clasificación en el primer tercio de los pasos de entrenamiento y aplicamos la pérdida focal como nuestra función de pérdida de clasificación en los últimos dos tercios de los pasos. Por lo tanto, la función de pérdida total del modelo es la siguiente:

$$mathrm=_(mathrm,^)+_(mathrm,mathrm)+_(mathrm,^)$$

(5)

dónde X es el vector característico del par de fármacos, X ~ es el vector de salida del decodificador, CFV es el vector de salida del submódulo de reducción de dimensionalidad de características latentes, yes la etiqueta de clase de la muestra, y y~ es el valor predicho de la muestra. yoMSE es la función de pérdida MSE, yoestafa es la función de pérdida de aprendizaje contrastiva supervisada y yoclase es la función de pérdida de clasificación. yoclase se compone de la pérdida de entropía cruzada en el primer tercio de los pasos de entrenamiento y la pérdida focal en los últimos dos tercios de los pasos.

Para evitar el sobreajuste, se implementa la estrategia de suavizado de etiquetas. [53]. Para problemas de clasificación múltiple, el vector de etiqueta de clase a menudo se convierte en un vector único. Sin embargo, el vector one-hot puede debilitar la capacidad de generalización del modelo y dar como resultado un ajuste excesivo. El suavizado de etiquetas utiliza el parámetro de suavizado para agregar ruido a la codificación one-hot, lo que hace que el modelo tenga menos confianza en sus predicciones. Por lo tanto, puede resolver parcialmente el problema del sobreajuste.

Utilizamos la función de activación de unidad lineal de error gaussiano y el optimizador Radam [54]. La capa de abandono y la capa de normalización por lotes se colocan entre las capas completamente conectadas [55].

Fuente del artículo

Deja un comentario