Análisis de conjuntos de datos
Se recopiló un total de 1248 datos, incluidos 643 datos de sustrato y 605 datos de no sustrato. El sustrato se marcó como un compuesto positivo etiquetado como “1”, y el no sustrato se consideró como un compuesto negativo etiquetado como “0”. Para verificar la confiabilidad de los datos, y-Randomization [30] se aplicó para aleatorizar la etiqueta (“0” o “1”) de los datos y ver si se pueden obtener modelos. Podemos encontrar que el modelo aleatorio es peor que el modelo original, como se muestra en el archivo adicional 1: Fig. S2, que indica que nuestros datos son confiables. En total, se recopilaron 652 reacciones catalizadas por UGT de la literatura y todas las reacciones se guardaron como SMIRKS. 536 SMIRKS se dividieron como conjunto de entrenamiento para entrenar el modelo WLN, 57 SMIRKS se dividieron como conjunto de validación para seleccionar el mejor modelo y 59 SMIRKS se dividieron como conjunto de prueba para evaluar el mejor modelo.
Como se muestra en la Fig. 3, utilizamos un análisis de componentes principales (PCA) bidimensional basado en la huella dactilar de Morgan para explorar la distribución del espacio químico de los diferentes conjuntos de datos. Calculamos el coeficiente de Tanimoto en base a la huella dactilar de Morgan[31] para calcular la similitud de nuestros datos recopilados para explorar más a fondo la diversidad química. Como se muestra en la Fig. 3A y C, realizamos análisis PCA de datos de sustrato/no sustrato y datos SOM, respectivamente. En general, la distribución de todo el conjunto de prueba y el conjunto de validación estuvo aproximadamente dentro del alcance del espacio químico del conjunto de entrenamiento, lo que indicó que nuestro modelo podría predecir la estructura del conjunto de prueba. También calculamos la similitud de Tanimoto entre el conjunto de entrenamiento y el conjunto de prueba para el modelo de sustrato/sin sustrato y el modelo SOM, como se muestra en el archivo adicional 1: Fig. S3. Como se muestra en el archivo adicional 1: Fig. S3A y B, la mayoría de los datos en el conjunto de prueba tenían datos similares en el conjunto de entrenamiento. Además, el valor promedio de las similitudes máximas generales de Tanimoto entre los datos en el conjunto de prueba y el conjunto de entrenamiento fue de 0,561 para el modelo de sustrato y de 0,541 para el modelo SOM, lo que respaldó aún más la conclusión de que nuestro modelo podría predecir las estructuras del conjunto de prueba. Los histogramas de distribución de frecuencia de similitud para los productos químicos del modelo de sustrato/no sustrato y el modelo SOM se muestran en las figuras 3B y D. Como se muestra en las figuras 3B y D, la similitud de Tanimoto entre los compuestos se distribuyó principalmente entre 0 y 0,4. La similitud promedio de Tanimoto del conjunto de datos de sustrato y no sustrato fue de 0,123 y la similitud promedio de Tanimoto de la sustancia con sitios metabólicos conocidos por enzimas UGT fue de 0,110, lo que indica que los compuestos utilizados en nuestra investigación eran estructuralmente diversos.

El espacio químico de los datos. A Análisis PCA de datos de sustrato y no sustrato basados en huellas dactilares de Morgan; B Similitud de Tanimoto de los datos de sustrato y no sustrato basados en huellas dactilares de Morgan; C análisis PCA de los datos para el modelo SOM basado en las huellas dactilares de Morgan; D Similitud de Tanimoto de los datos para el modelo SOM basado en las huellas dactilares de Morgan
Rendimiento del modelo de predicción de sustrato
Rendimiento de la validación cruzada diez veces
Se utilizaron cinco métodos tradicionales de aprendizaje automático combinados con cinco huellas dactilares y descriptores fisicoquímicos para predecir si el fármaco es el sustrato de las enzimas UGT. Realizamos una validación cruzada de diez veces y una búsqueda en cuadrícula para encontrar los mejores parámetros y el modelo de ML tradicional óptimo. Se optimizaron algunos parámetros importantes para el modelo ML tradicional. Se aplicó la búsqueda en cuadrícula para encontrar los mejores parámetros, aunque no se ajustaron todos los parámetros. Ajustamos los parámetros en función de trabajos publicados anteriormente. [32]. El modelo GNN busca hiperparámetros mediante optimización bayesiana sobre datos de entrenamiento. La lista de parámetros que se ajustaron para los modelos ML tradicionales se mostró en el archivo adicional 1: Tabla S7. Los parámetros ajustados de cada modelo de ML tradicional se mostraron en Archivo adicional 1: Tabla S8, y los parámetros ajustados de cada modelo GNN se enumeraron en la Tabla S9. El rendimiento del conjunto de entrenamiento se enumeró en la Tabla S10. El rendimiento de la validación cruzada de diez veces se muestra en las Figs. 4 y 5. Como se muestra en el rendimiento del conjunto de entrenamiento y la validación cruzada de diez veces, encontramos que el modelo no se sobreajustaba y tenía buena robustez.

El valor AUC de cinco métodos de aprendizaje automático (SVM, RF, NN, LR, ET) en diferentes bits (512, 1024 y 2048 bits) de cuatro tipos de huellas dactilares moleculares (AtomPairs, Morgan, RDKit y TopoTorsion) en cruz de diez veces -validación para el modelo de predicción de sustrato

El rendimiento de los 10 modelos principales seleccionados a partir de una validación cruzada de diez veces para el modelo de predicción del sustrato. (El nombre de los métodos incluye el tipo de funciones y el tipo de métodos de aprendizaje automático).
La huella digital MACCS se fijó en 166 bits, pero las otras cuatro huellas digitales tenían diferentes tamaños. Los resultados de AUC en 512, 1024 y 2048 bits se muestran en la Fig. 4. En general, las huellas dactilares de 512 bits no son tan buenas como las de 1024 y 2048 bits, excepto por la huella dactilar de Morgan. Las huellas dactilares AtomPairs y Morgan tuvieron un mejor rendimiento que las huellas dactilares RDKit y Topological Torsions. La huella dactilar de Morgan se desempeñó mejor entre las cuatro huellas dactilares moleculares. Resultó que los modelos de bosques aleatorios y árboles extremos funcionaron bien, ya que ambos son modelos de conjunto basados en árboles.
De acuerdo con el rendimiento de la validación cruzada de diez veces, seleccionamos los 10 mejores modelos en función del valor de MCC, que se muestra en la Fig. 5. El rendimiento de otros modelos se muestra en el Archivo adicional 1: Tabla S11, y el MCC los valores para todos los modelos se distribuyeron entre 0,320 y 0,678, lo que indicó una gran variación en el rendimiento del modelo. Como se muestra en la Fig. 5, encontramos que los modelos basados en la huella digital MACCS y los descriptores fisicoquímicos tuvieron un mejor rendimiento. Todos los 10 modelos principales tienen un buen rendimiento predictivo y los valores promedio de AUC estaban por encima de 0,88. Los 3 modelos principales fueron Descriptor_ET (MCC = 0,678, AUC = 0,905, ACC = 0,837, SE = 0,865, SP = 0,807), Descriptor_RF (MCC = 0,673, AUC = 0,907, ACC = 0,835, SE = 0,858, SP = 0,811 ) y MACCS_ET (MCC = 0,665, AUC = 0,888, ACC = 0,832, SE = 0,850, SP = 0,812).
Rendimiento del conjunto de prueba
Para explorar más a fondo el rendimiento de los modelos, entrenamos modelos ML tradicionales y modelos GNN para obtener el modelo óptimo a través del rendimiento de la validación cruzada de diez veces y luego predijimos los resultados en el conjunto de datos de prueba para evaluar estos modelos. El rendimiento de los 10 modelos principales en el conjunto de datos de prueba se enumeró en la Tabla 2 y los resultados de los modelos restantes se enumeraron en el Archivo adicional 1: Tabla S12 y, como se muestra en los resultados, todos los modelos tenían una buena capacidad de generalización en la prueba. establecer. El rendimiento de los modelos top_3 basados en una validación cruzada de diez veces en el conjunto de prueba fue Descriptor_ET (MCC = 0,628, AUC = 0,883, ACC = 0,815, SE = 0,891, SP = 0,736), Descriptor_RF (MCC = 0,616, AUC = 0,889, ACC = 0,811, SE = 0,859, SP = 0,760) y MACCS_ET (MCC = 0,616, AUC = 0,859, ACC = 0,815, SE = 0,859, SP = 0,769), respectivamente. Como se muestra en la Tabla 2, los 10 modelos principales tenían una buena capacidad de generalización en el conjunto de prueba, y los valores de AUC de los 10 modelos principales en el conjunto de prueba también estaban por encima de 0,85.
Rendimiento de los modelos de consenso
Para mejorar la estabilidad y robustez, construimos modelos de consenso. De acuerdo con el rendimiento de la validación cruzada de diez veces, seleccionamos los 10 modelos principales como se muestra en la Fig. 5. Combinamos n modelos de los 10 modelos principales para construir modelos de consenso y 1023 modelos de consenso totalmente construidos. De acuerdo con el valor de MCC en el conjunto de prueba, seleccionamos los 3 modelos de consenso principales que se enumeran en la Tabla 3. El modelo de consenso principal 1 fue el modelo combinado Descriptor_SVM, Descriptor_ET, MACCS_RF, AttentiveFP_attentivefp y Morgan_ET_1024. En comparación con el modelo único que se muestra en la Tabla 2, el modelo de consenso top-1 tuvo un mejor rendimiento (MCC = 0,682, AUC = 0,898).
Para explorar más a fondo la justificación del modelo de consenso, intentamos construir un modelo de consenso solo con el modelo ML tradicional o GNN. El mejor modelo de consenso construido solo con modelos ML tradicionales se combinó Descriptor_SVM, MACCS_RF, MACCS_SVM y Morgan_ET_1024. El mejor modelo de consenso construido solo con modelos de ML tradicionales (AUC = 0,886, MCC = 0,674) funcionó mejor que el mejor modelo único (AUC = 0,883, MCC = 0,628), mientras que funcionó peor que el modelo de consenso top-1 (AUC = 0,898 , MCC = 0,682), y el modelo tardó 0,67 s en predecir el conjunto de prueba en 64 CPU. El mejor modelo de consenso construido solo con modelos GNN se combinó con MPNN_canonical y AttentiveFP_attentivefp (AUC = 0,877, MCC = 0,633), que incluso funcionó peor que el mejor modelo GNN único (AUC = 0,877, MCC = 0,647), y el modelo dedicó 17,37 s a predecir el conjunto de prueba en 64 CPU.
Curiosamente, el modelo de consenso que combina modelos ML tradicionales y GNN (AUC = 0,898, MCC = 0,682) puede mejorar el rendimiento que el mejor modelo de consenso construido solo por modelos ML tradicionales (AUC = 0,886, MCC = 0,674) o GNN. Finalmente, elegimos el modelo de consenso top-1 (que se muestra en la Tabla 2) como modelo de predicción de sustrato. Los 10 mejores modelos gastaron entre 0,06 y 5,26 s en la predicción del conjunto de prueba en 64 CPU, mientras que el modelo de consenso top 1 tardó 9,54 s.
Rendimiento del modelo de predicción SOM
Aplicamos el modelo WLN, que es un método GNN desarrollado por Coley para predecir los SOM de las enzimas UGT.
Varias iteraciones y tamaño de datos
Para el modelo de predicción SOM, ajustamos los parámetros, incluido el tamaño del lote, la tasa de aprendizaje y las capas de iteración mediante la búsqueda de líneas. Como se muestra en la Fig. 6, entrenamos nuestro modelo en diferentes iteraciones, tasas de aprendizaje y tamaños de lote para encontrar los parámetros óptimos y el modelo óptimo. Como se muestra en la Fig. 6A, entrenamos nuestro modelo en diferentes iteraciones para obtener nuevas características atómicas. Descubrimos que el modelo obtendría mejores resultados cuando los tiempos de iteración fueran uno. Lo que podemos ver en la Fig. 6B es que la tasa de aprendizaje tiene un gran impacto en el rendimiento del modelo. Establecimos la tasa de aprendizaje en 0,0001, 0,0003, 0,001 y 0,003, que eran los valores comunes de la tasa de aprendizaje. Mientras tanto, debido a que el tamaño de nuestros datos no es grande, no consideramos el tamaño de lote grande y establecemos el tamaño de lote en 10, 16, 20, 32 y 64. Desde la perspectiva de la tasa de aprendizaje, cuando se establece la tasa de aprendizaje a 0.0001, el modelo se comporta peor. Descubrimos que el modelo obtendría un mejor resultado cuando la tasa de aprendizaje se estableciera en 0.001 y el tamaño del lote se estableciera en 20. Como se muestra en la Fig. 6C, entrenamos nuestro modelo en diferentes tamaños de datos. Cuando los datos del conjunto de entrenamiento eran tan pequeños como 50, el resultado de la precisión del top 1 aún puede llegar a más de 0,75, lo que demuestra el poderoso rendimiento predictivo del método WLN. A medida que aumentaba la cantidad de datos en el conjunto de entrenamiento, la precisión de los primeros 1, 2 y 3 primeros del modelo aumentaba gradualmente. Cuando la cantidad de datos excedía los 200, el valor de la precisión top-1 podría alcanzar más de 0,8. La configuración final de los parámetros de WLN se enumeró en el archivo adicional 1: Tabla S13.

A El rendimiento de la precisión top-k en diferentes iteraciones de paso de mensajes (n_layers = 1, 2, 3, 4, 5); B Se emplearon diferentes tamaños de lote (10, 16, 20, 32, 64) y tasa de aprendizaje (0,0001, 0,0003, 0,001, 0,003) para entrenar el modelo de predicción SOM; C se utilizó la precisión top-1, top-2 y top-3 para evaluar y comparar todos estos modelos
Resultados del modelado y comparación con modelos existentes
En el presente trabajo, aplicamos el método WLN para predecir los SOM de las enzimas UGT. Usamos el conjunto de datos de validación para una parada anticipada. Para comparar nuestro modelo con otros, predijimos el SOM de nuestras moléculas en el conjunto de pruebas de SOMP, FAME3, XenoSite y el trabajo de Cai. Los resultados de nuestro modelo con el modelo anterior se muestran en la Tabla 4.
Como podemos ver en la Tabla 4, la precisión de top-1, top-2 y top-3 de nuestro modelo global fue mejor que las demás. El trabajo de SOMP, XenoSite y Cai predijo específicamente el SOM para reacciones catalizadas por UGT, mientras que FAME3 no fue específico para la glucuronidación, y este modelo puede hacer predicciones más generales sobre el metabolismo de fase II. Esta puede ser una de las razones por las que FAME3 fue inferior a nuestro modelo. La métrica más importante de los resultados es la precisión top-1, ya que la mayoría de los sustratos tienen solo un SOM para las reacciones catalizadas por UGT, y la precisión top-1 de nuestro modelo alcanzó 0,898. Podemos predecir con precisión todos los sitios posibles de metabolismo de las enzimas UGT en las 2 posiciones principales, por lo que nuestra precisión de los 2 principales puede llegar a 1,00 en el conjunto de prueba, lo que muestra el poderoso rendimiento de predicción de nuestro modelo.
La información estadística para los tres conjuntos de datos de cuatro tipos de reacciones catalizadas por UGT (AlOH, ArOH, COOH, Nitrógeno) se enumeró en la Tabla S14. Calculamos las métricas en diferentes tipos de reacciones catalizadas por UGT. Descubrimos que el rendimiento del modelo de AlOH (Top-1 Acc = 1,000), ArOH (Top-1 Acc = 0,900), COOH (Top-1 Acc = 0,882) y Nitrógeno (Top-1 Acc = 0,750) era diferente. Como muestran los resultados, se desempeñó mejor en los tipos de grupos hidroxilos que en otros.
La Figura 7 presenta algunos ejemplos de las principales SOM posibles de enzimas UGT predichas por nuestro modelo, SOMP y FAME3. Por ejemplo, la Fig. 7D mostró el SOM predicho por tres modelos de Irbesartan [33], que es un antagonista del receptor de angiotensina II y se usa para tratar la hipertensión. La glucuronidación de irbesartán es una de las principales vías de eliminación. En comparación con los otros dos modelos, nuestro modelo puede predecir con mayor precisión el sitio donde puede ocurrir la reacción de glucuronidación, lo que es más útil para proporcionar información valiosa para la optimización estructural y mejorar las propiedades farmacocinéticas de los medicamentos.

Algunos ejemplos (por ejemplo, compuestos A–G) de los primeros resultados de predicción de diferentes modelos (nuestro modelo, SOMP, FAME 3, XenoSite, el trabajo de Cai) en el conjunto de prueba para el modelo de predicción SOM