Predicción a gran escala de acantilados de actividad utilizando métodos de aprendizaje automático y profundo de complejidad creciente | Revista de quimioinformática

Conjuntos de datos compuestos

Las clases de actividad de los compuestos se extrajeron de la base de datos ChEMBL (versión 29) [16] basado en los siguientes criterios: masa molecular inferior a 1000 Da, puntaje de confianza objetivo de 9, tipo de relación de interacción ‘D’ y disponibilidad de un valor de potencia especificado numéricamente. Solo ki o kd las mediciones se consideraron como anotaciones de potencia. Cada clase de actividad constaba de compuestos calificados con actividad informada frente a un objetivo individual. Además de los criterios de selección basados ​​en compuestos indicados anteriormente, se requería que las clases de actividad cumplieran los criterios de análisis de AC, como se especifica a continuación. Se ensamblaron un total de 100 clases de actividad. Sus objetivos y composición se informan en Archivo adicional 1: Tabla S1.

Definición de precipicio de actividad

Criterio de similitud estructural

Como representación intuitiva de compuestos estructuralmente análogos con pequeñas modificaciones químicas, se aplicó el formalismo MMP. Una MMP está formada por un par de compuestos que comparten una estructura central común y se distinguen por sustituyentes en un solo sitio. Un AC basado en MMP, denominado MMP-cliff, se definió como un MMP con una gran diferencia de potencia entre los compuestos participantes (como se detalla más adelante) [17]. Para el análisis de CA, se generaron MMP con el algoritmo de fragmentación molecular computacionalmente eficiente introducido por Hussain y Rea [18] usando una implementación previamente reportada [19]. Para la generación de MMP, se permitía que un sustituyente constara de un máximo de 13 átomos distintos de hidrógeno y se requería que la estructura del núcleo fuera al menos dos veces más grande que un sustituyente. La diferencia máxima en átomos que no son de hidrógeno entre los sustituyentes intercambiados se fijó en ocho átomos que no son de hidrógeno. [17]. Se desecharon las MMP generadas que tenían un núcleo con menos de 10 átomos distintos de hidrógeno.

Criterios de diferencia de potencia dependiente de la clase de actividad

La mayoría de los análisis y predicciones de CA informados anteriormente aplicaron una diferencia constante de 100 veces en la potencia como criterio, independientemente de las clases de compuestos en estudio. [20]. Sin embargo, el análisis de las distribuciones de potencia compuesta en muchas clases de actividad ha demostrado que una diferencia de potencia de 100 veces solo puede servir como un criterio aproximado para la definición de CA [21]. En su lugar, a partir de las distribuciones de potencia compuesta dependiente de la clase, las diferencias de potencia estadísticamente significativas que califican para los AC se determinaron como la potencia compuesta media por clase más dos desviaciones estándar, lo que arrojó criterios de diferencia de potencia variable dependiente de la clase más realistas. [21], como también se aplica aquí. Además, para equilibrar los efectos de límite dependientes de la diferencia de potencia en la predicción de CA, solo las MMP con una diferencia de potencia de menos de diez veces (∆paquetei

Superposición de compuestos en pares moleculares emparejados

Diferentes MMP de una clase de actividad pueden compartir compuestos individuales. Cuando los MMP se dividen aleatoriamente en conjuntos de entrenamiento y prueba, los MMP con superposición compuesta pueden aparecer en ambos conjuntos, lo que da lugar a una gran similitud entre dichas instancias de entrenamiento y prueba. En consecuencia, la superposición de compuestos entre las MMP de entrenamiento y de prueba provoca una forma de «fuga de datos», lo que favorece la detección basada en la similitud de las MMP con compuestos compartidos. [12]. Para abordar la influencia de los fenómenos de fuga de datos en el rendimiento del modelo, generamos diferentes particiones MMP para entrenamiento y pruebas en presencia o ausencia de fuga de datos. En condiciones de «fuga de datos posiblemente incluida», los MMP de 100 clases de actividad se dividieron aleatoriamente en conjuntos de entrenamiento (80 %) y de prueba (20 %). Por el contrario, en condiciones de «exclusión de fuga de datos», se aplicó un enfoque de validación cruzada avanzada (AXV) [8]. En consecuencia, para cada clase de actividad, se seleccionó aleatoriamente un conjunto de reserva del 20 % de los compuestos antes de que se generaran las MMP para toda la clase. Si ninguno de los compuestos de una MMP estaba presente en el conjunto reservado, la MMP se asignaba al conjunto de entrenamiento. Si ambos compuestos de MMP (que forman la MMP) estaban contenidos en el conjunto reservado, la MMP se asignaba al conjunto de prueba. Si uno de los compuestos de MMP estaba presente en el conjunto reservado, el MMP se omitió de los conjuntos de entrenamiento y prueba. Para las predicciones en condiciones de «exclusión de fuga de datos», se seleccionaron 42 clases de actividad que produjeron al menos 20 CA para garantizar una derivación y evaluación significativas del modelo.

representación molecular

huellas dactilares

Huellas dactilares de conectividad extendida con diámetro de enlace 4 (ECFP4) [22] se utilizaron para representar las MMP. Como modificación, se omitieron las características con diámetro de enlace 1 para reducir los conjuntos de características y enfatizar las contribuciones de las características con diámetros de enlace más grandes. Los identificadores de características se clasificaron en orden ascendente y se asignaron a los bits de huellas dactilares en el mismo orden para evitar la colisión de características y maximizar la cantidad de características que contribuyen a la predicción de CA. Las huellas dactilares se generaron por separado para el núcleo y la transformación química de una MMP. Para la transformación, se generaron dos huellas dactilares, una que registra características únicas de los sustituyentes intercambiados y otra que registra características comunes. Luego, las huellas dactilares del núcleo, las características únicas de los sustituyentes y las características comunes de los sustituyentes se concatenaron para producir una única huella dactilar de MMP. [7]. En consecuencia, la longitud de la huella dactilar dependía de cada clase de actividad. Los cálculos de huellas dactilares de MMP se realizaron con scripts internos de Java y Python basados ​​en el kit de herramientas OEChem [23].

Gráfico condensado de representación de reacción.

Para los cálculos de redes neuronales, las MMP también se representaron como un solo gráfico aplicando el enfoque de gráfico de reacción condensado (CGR). [8, 24]. El formalismo CGR se concibió originalmente para combinar gráficos de reactivos y productos basados ​​en una superposición de componentes invariantes [24]. El CGR resultante forma un gráfico completamente conectado en el que cada nodo representa un átomo y cada borde un enlace. En una CGR, el núcleo compartido de una MMP y los dos sustituyentes intercambiados forman una pseudomolécula. Aquí, los subgráficos que representan los sustituyentes de los compuestos MMP débil y altamente potente se conectaron al núcleo a través de un enlace simple y un enlace hipotético de orden cero, respectivamente. La representación de pseudomoléculas de las MMP se generó utilizando un script interno de Python y RDKit [25].

Aprendizaje automático

Se aplicaron cuatro enfoques de aprendizaje automático basados ​​en huellas dactilares para la predicción de CA, incluidos SVM, aumento de gradiente extremo (XGB), RF y una red neuronal totalmente conectada (FCNN). Además, se utilizó una red neuronal de paso de mensajes (MPNN) que implica el aprendizaje de representaciones a partir de gráficos. Para FCNN y MPNN, se generaron dos modelos distintos sobre la base de diferentes representaciones moleculares (ver más abajo). Como controles, kSe llevaron a cabo cálculos del vecino más cercano (kNN), incluidos 1NN y 5NN, en los que se evaluó la similitud utilizando el núcleo MMP que se describe a continuación.

Para cada clase de actividad y método de aprendizaje automático, se derivaron tres modelos independientes con validación cruzada interna triple para optimizar los hiperparámetros. El rendimiento del modelo fue promedio en tres ensayos independientes.

FCNN y MPNN se implementaron utilizando PyTorch [26] y todos los demás modelos que utilizan scikit-aprender [27]. Los hiperparámetros de los modelos se optimizaron usando Optuna biblioteca [28], como se informa en el archivo adicional 1: Tabla S2 (para los parámetros restantes, se utilizaron los ajustes predeterminados). Para cada modelo, la búsqueda de hiperparámetros con Optuna se realizó 100 veces.

Máquinas de vectores soporte

SVM es un método de aprendizaje supervisado que tiene como objetivo derivar un hiperplano que separa instancias de entrenamiento con diferentes etiquetas de clase al maximizar el margen del hiperplano. [29]. SVM puede intentar una clasificación no lineal en espacios de características de mayor dimensión con la ayuda de funciones del núcleo. Aquí, el núcleo MMP [5] se utilizó que representa un producto de dos núcleos Tanimoto individuales [30] para determinar la similitud del núcleo y del sustituyente, respectivamente. El parámetro ‘class_weight’ se estableció en ‘equilibrado’. El hiperparámetro C se seleccionó mediante la búsqueda en cuadrícula del rango de valores [(mathrmleft(-2right),) (mathrm2]) dividido en 10 intervalos iguales.

Bosque aleatorio

RF es un método de aprendizaje automático supervisado basado en un conjunto de árboles de decisión generados a partir de instancias de entrenamiento elegidas al azar mediante arranque [31]. Las etiquetas de clase de las instancias de prueba se predicen mediante un voto mayoritario sobre los árboles de decisión individuales. El parámetro ‘class_weight’ se estableció en ‘equilibrado’.

Impulso de gradiente extremo

XGB también emplea un conjunto de árboles de decisión generados de forma iterativa mediante el aumento de gradiente [32] tal que cada árbol de decisión minimizó el error residual de un modelo anterior. XGB es una extensión computacionalmente eficiente del aumento de gradiente que se logra al paralelizar la construcción del árbol de decisión.

Redes neuronales

Red neuronal completamente conectada

Una FCNN consta de una serie de perceptrones conectados almacenados en varias capas. Cada perceptrón recibe señales de la capa anterior que se transforman en valores escalares mediante una función de activación. En este estudio, se implementaron dos FCNN distintos utilizando diferentes representaciones de entrada, incluida una sola huella digital de MMP (FCNN) o los tres componentes separados de huellas dactilares centrales y sustituyentes (FCNN_sep). Las huellas dactilares de MMP se convirtieron en probabilidades de formación de AC. El número de nodos en capas ocultas se redujo monótonamente. En FCNN_sep, los componentes de huellas dactilares individuales se enviaron a varias capas ocultas y las huellas dactilares de salida se concatenaron en un solo vector, que se envió a capas ocultas posteriores y se transformó en la probabilidad de formación de CA utilizando la capa softmax. El número de nodos en capas ocultas tanto para subestructuras individuales como para vectores de características concatenadas también se redujo monótonamente. La Unidad Lineal Rectificada (ReLU) [33] se utilizó como función de activación, a excepción de la capa final. La entropía cruzada binaria con factor de equilibrio ponderado por la proporción de muestras negativas a positivas se utilizó como función de pérdida para el optimizador de Adam [34]. La tasa de aprendizaje fue facilitada por optim.lr_scheduler.StepLR en PyTorch. Para el planificador, el parámetro gamma se estableció en 0, mientras que el tamaño de paso era un hiperparámetro optimizado. El tamaño del lote se estableció en 128 si el número de MMP en un conjunto de entrenamiento era superior a 128; de lo contrario, se configuró al tamaño del conjunto de entrenamiento. Los pasos de entrenamiento se realizaron durante 50 épocas durante la búsqueda de hiperparámetros y durante 100 épocas durante el ajuste utilizando los parámetros preferidos.

Red neuronal de paso de mensajes

MPNN es un enfoque de red neuronal gráfica que convierte un gráfico molecular de entrada en un vector de características. Durante el entrenamiento de MPNN, un vector de características de cada átomo se fusiona iterativamente con información de sus átomos y enlaces vecinos para minimizar la función de pérdida. Las características iniciales de cada átomo y enlace se enumeran en el archivo adicional 1: Tabla S3. Los vectores de características transformados de cada átomo se fusionan en un solo vector enviado a una red neuronal completamente conectada con varias capas ocultas que producen una probabilidad de salida. Aquí, una arquitectura MPNN previamente implementada [35] propuesto originalmente por Tang et al. [36] se utilizó. En analogía con FCNN y FCNN_sep, se generaron dos MPNN distintos en función de un solo CGR como entrada (MPNN) o tres subgráficos separados que representan el núcleo y los sustituyentes de MMP, respectivamente (MPNN_sep). En el último caso, los vectores de características para cada subestructura se calcularon individualmente y luego se concatenaron en un solo vector como entrada para la red neuronal completamente conectada. La función de activación, la función de pérdida, el optimizador, el programador del optimizador, el tamaño del lote, las épocas y el número de cálculos de búsqueda de hiperparámetros se establecieron como se informó para FCNN.

Medidas de desempeño

Para evaluar el desempeño de los diferentes modelos, precisión balanceada (BA) [37]recuperación, precisión y coeficiente de correlación de Matthew (MCC) [38] fueron determinados.

Fuente del artículo

Deja un comentario