Las entropías de Shannon basadas en notaciones de cadenas de moléculas son descriptores útiles para las predicciones de propiedades
Hay algunas ventajas de usar la reducción numérica de una molécula en forma de descriptores SEF, como (i) representación numérica única de cada molécula: facilita la sensibilidad a la estereoquímica, así como un cambio mínimo en el valor numérico con cambios estructurales de la molécula (Archivo adicional 1: Tabla S2), (ii) baja correlación con otros descriptores: las entropías de Shannon tienen una correlación más baja con otros descriptores estándar (Archivo adicional 1: Fig. S1). Por lo tanto, una combinación de tales descriptores podría usarse en aplicaciones específicas, (iii) uso específico del objetivo/problema: la facilidad de estimación de diferentes descriptores de Shannon permite un uso optimizado del conjunto de descriptores para el rendimiento específico del objetivo del modelo de aprendizaje automático. En general, los descriptores del marco de Shannon satisfacen varios criterios para una aplicación exitosa en problemas de tipo QSAR [20, 27].
Probamos el rendimiento del modelo de red neuronal profunda para problemas de tipo regresión utilizando las siguientes métricas: (i) MAPE (error porcentual absoluto medio), (ii) R2 de ajuste y (iii) MAE (error absoluto medio) o RMSE (error cuadrático medio) dependiendo del objetivo. Para predecir la mitad de las concentraciones inhibitorias máximas o IC50 valores de moléculas de unión (en formato pCheMBL) al inhibidor de la vía del factor tisular de la proteína (Tabla 1), diseñamos una red neuronal profunda compuesta principalmente de MLP con 4 capas. Entre los 3382 puntos de datos de este conjunto de datos, 2705 puntos de datos se usaron para entrenamiento y 677 puntos de datos se usaron para validación o prueba en las mismas condiciones. Observamos una mejora media del 25,5% en MAPE en IC50 predicción de moléculas de unión cuando se usó una combinación de peso molecular (MW), entropías de Shannon basadas en cadenas SMILES, SMARTS e InChiKey en comparación con solo MW como descriptor (Fig. 1a, archivo adicional 1: Fig. S2a y archivo adicional 1: Tabla S3). Sin embargo, en este caso, la mayor mejora comparativa en las métricas de predicción se observó cuando el marco de Shannon estaba compuesto por entropías de Shannon y fraccionarias de Shannon basadas en SMILES (Fig. 1a). Observamos una mejora promedio del 56,5 % solo en MAPE en comparación con el caso anterior con entropías de Shannon basadas en cadenas SMILES, SMARTS e InChiKey (Archivo adicional 1: Fig. S2a y Archivo adicional 1: Tabla S3). El rendimiento del modelo en este caso también superó al modelo basado en kNN (Archivo adicional 1: Tabla S3 y “Métodos”).

Las entropías de Shannon basadas en tokens estándar y caracteres derivados de una representación de cadena de moléculas son descriptores eficientes para predicciones de propiedades basadas en redes neuronales profundas. a Comparación del rendimiento de la red con la adición de diferentes entropías de Shannon en el conjunto de descriptores. CI50 los valores del inhibidor de la vía del factor tisular se predijeron y analizaron utilizando MAPE, MAE y R2 de métricas de ajuste. El conjunto de descriptores que contenía entropías de MW, Shannon y Shannon fraccional extraídas de SMILES mostró el mejor rendimiento en comparación con otros descriptores en el gráfico de radar triangular. b Mejora acumulativa del rendimiento de la red utilizando los descriptores de Shannon representados en el gráfico de radar. El objetivo era BEI normalizado en PM de ligandos para el inhibidor de la ruta del factor tisular, es decir, en forma de BEI/MW. El conjunto SEF que contiene MW, Shannon (SMILES) y Shannon fraccional (SMILES) mostró el mejor desempeño comparativo en todas las métricas. C Comparación del enfoque directo de un solo recipiente frente al tándem para predecir IC50 valores de moléculas a la proteína inhibidora de la vía del factor tisular. El enfoque en tándem primero predijo BEI como un paso intermedio y luego predijo IC50 valores con mayor precisión con el BEI como entrada. El modelo se basó en redes neuronales profundas basadas en MLP y todas las métricas de predicción se promediaron en al menos 5 ejecuciones independientes. Los factores de escala de las métricas se enumeraron en el archivo adicional 1: Tabla S3
Además, usamos el conjunto de datos anterior para predecir el índice de eficiencia de unión (BEI) de las moléculas de ligando (ligandos BEI) como objetivo siguiendo el mismo modelo. En este caso, observamos el mejor rendimiento al usar una combinación de MW, entropía de Shannon basada en cadenas SMILES (o SMILES Shannon) y entropías fraccionarias de Shannon basadas en la entropía total como SMILES Shannon (Fig. 1b, Archivo adicional 1: Fig. S2b y Archivo adicional 1: Tabla S4). Las mejoras promedio en la predicción de objetivos fueron 64%, 62% y 25% en MAPE, MAE y R2 de ajuste (%), respectivamente en comparación con solo MW como descriptor. Se observó que el conjunto de descriptores SEF que comprende SMILES Shannon y Shannon fraccional, en principio, mostró un rendimiento similar o mejor en comparación con otros descriptores moleculares estándar como las huellas dactilares de Morgan y también superó el modelo de aprendizaje automático basado en kNN. La predicción de la red fue aún más precisa cuando se usó el SEF para predecir el BEI objetivo que las huellas dactilares de Morgan como descriptores (Archivo adicional 1: Fig. S2c y Archivo adicional 1: Tabla S4). Después de esto, encontramos una mejora adicional del rendimiento de la red cuando se usaron tanto el marco de Shannon como las huellas dactilares de Morgan como descriptores moleculares. La sinergia entre los descriptores provocó una disminución promedio en MAPE ~ 42% en comparación con el caso cuando solo se usaron las huellas dactilares de Morgan. Tenga en cuenta que el MW se utilizó como descriptor base en todos los casos mencionados anteriormente solo con fines de comparación y se obtuvo un rendimiento similar con los descriptores SEF sin utilizar el MW (Archivo adicional 1: Tabla S4).
Ahora es obvio que la predicción de IC50 de las moléculas del conjunto de datos podría llevarse a cabo de manera secuencial paso a paso: (i) primero prediciendo ligandos BEI con alta eficiencia usando SEF, y (ii) luego usando los ligandos BEI como descriptor junto con SEF para finalmente predecir IC50 de moléculas de ligando (Fig. 1c y Archivo adicional 1: Tabla S5) con mayor precisión. Las características SEF optimizadas consistieron en SMILES Shannon y entropías fraccionarias de átomos de Shannon basadas en SMILES. Este enfoque en tándem mejoró la precisión de predicción general en comparación con varios métodos de tipo de un solo recipiente que predijeron el IC50 de moléculas directamente utilizando el MW y las características SEF correspondientes. El r2 de ajuste (%) fue del 99% para el caso en tándem.
Las entropías de Shannon aumentan el rendimiento como descriptores en modelos de aprendizaje automático de regresión y clasificación
Para evaluar la aplicabilidad del enfoque de entropía de Shannon a otros conjuntos de datos, probamos la predicción de las constantes de inhibición o Ki valores (formato pCheMBL) de moléculas de ligando que podrían unirse a la proteína factor de coagulación humano 11 (o F11). El conjunto de datos contenía 618 puntos de datos, entre los cuales se usaron 525 valores para entrenamiento y 93 valores para prueba. Nuestro objetivo era lograr una mejora acumulativa en el rendimiento de la red mediante el uso de varias funciones SEF como descriptores, incluida la información de frecuencia de enlace. La frecuencia de enlace se refiere a la ocurrencia de tipos de enlaces de la molécula como estimaciones de frecuencia (Archivo adicional 1: Tabla S6 y “Métodos”). En promedio, la R2 de ajuste (%) se mejoró en un 82,4 % cuando se utilizó como descriptores la combinación de MW, entropías de Shannon basadas en SMILES, SMARTS, InChiKey, Shannon fraccional e información de frecuencia de enlace en comparación con solo MW y entropía de Shannon basada en SMILES (Fig. 2a y Archivo adicional 1: Tabla S6). El uso de la función de frecuencia de enlace también permitió que SEF rivalizara con el rendimiento del modelo de aprendizaje automático basado en kNN. Esta observación también demuestra la importancia de la información de frecuencia como descriptor molecular.

El aumento de rendimiento acumulativo de los problemas de tipo regresión o clasificación se logró utilizando los descriptores SEF. a Comparación del rendimiento de la red con la adición acumulativa de diferentes entropías de Shannon en el conjunto de descriptores. Los valores de Ki de las moléculas de unión al factor de coagulación humano 11 se analizaron utilizando la métrica R2 fuera de él (%). b La adición de la entropía de Shannon (SMILES) al conjunto de descriptores que consta de MW y BEI de ligandos (ligandos BEI) mejoró el rendimiento general de la red neuronal profunda. Los factores de escala de las métricas se enumeraron en el archivo adicional 1: Tabla S6. C El aumento acumulado en ROC_AUC y la precisión de la clasificación de toxicidad del conjunto de datos de mutagenicidad de Ames mediante la adición acumulativa de diferentes descriptores basados en la entropía de Shannon. Los conjuntos de descriptores utilizados fueron 1. Shannon (SMILES), 2. fraccionario Shannon (SMILES), 3. fraccionario Shannon (InChiKey), 4. Shannon (SMILES) + Shannon (SMARTS) + Shannon (InChiKey) + Shannon fraccional (InChiKey) + frecuencia de enlace, y 5. Otros descriptores + Shannon (SMILES) + Shannon fraccional (SMILES). Los otros descriptores se enumeraron en el archivo adicional 1: Tabla S8. Todas las métricas de predicción se promediaron en al menos 5 ejecuciones independientes
La mejora de la eficiencia de la predicción de la red con la entropía de Shannon también se logró cuando se utilizó ‘ligandos BEI’ como uno de los descriptores (Fig. 2b). Para predecir Ki valores del conjunto de datos mencionado anteriormente, BEI es posiblemente una de las características más útiles. Cuando se utilizó la entropía de Shannon basada en SMILES junto con MW y BEI de ligandos en el conjunto de descriptores, el rendimiento de la red mejoró en todas las métricas (Fig. 2b y Archivo adicional 1: Tabla S7). Probamos este modelo entrenado con el fármaco anticoagulante Milvexian que tiene un K informadoi de 0,11 nm [28]. Estos datos no estaban presentes en el conjunto de datos de entrenamiento. Al consultar nuestro modelo con Milvexian como entrada, la predicción de Ki de Milvexian fue ~ 0,15 nM, que estaba cerca del valor informado.
El conjunto de datos de mutagenicidad de Ames se utilizó para evaluar el rendimiento de los descriptores SEF en modelos de tipo de clasificación [29]. El conjunto de datos contenía 6506 puntos de datos utilizables que se dividieron en 5530 datos de entrenamiento y 976 datos de prueba. Aquí también nuestro objetivo fue observar mejoras acumulativas en dos métricas: (i) ROC_AUC (área bajo la curva para la característica operativa del receptor) y (ii) precisión mediante el uso de diferentes entropías de Shannon como descriptores. El aumento de rendimiento promedio fue el más alto en ambas métricas cuando se utilizó una combinación de entropías de Shannon y fraccionaria de Shannon como características del descriptor (Fig. 2c, caso 4) en comparación con solo la entropía de Shannon basada en SMILES (Fig. 2c, caso 1 ). En este caso, las entropías fraccionarias de Shannon de los átomos se evaluaron a partir de la entropía de Shannon basada en la cadena InChiKey. Sin embargo, un modelo de clasificación basado en kNN superó al modelo de clasificación basado en MLP utilizando solo los descriptores SEF (Archivo adicional 1: Tabla S8). Por lo tanto, se evaluó un conjunto de otros descriptores que podrían funcionar en combinación con SEF para generar un mejor rendimiento que el modelo basado en kNN (Archivo adicional 1: Tabla S8). La mejora del rendimiento del modelo (ROC_AUC ~ 0,88 y precisión ~ 0,8) se logró cuando los descriptores combinados (archivo adicional 1: Tabla S8), se estimaron utilizando el paquete rdkit y el codificador MHFP [30]se utilizaron junto con el conjunto de descriptores SEF.
También evaluamos el rendimiento de una red híbrida utilizando una combinación de modelos MLP y CNN en los conjuntos de datos de mutagenicidad pCheMBL F11 y Ames. La parte MLP de la red se entrenó con las características SEF discutidas para los conjuntos de datos respectivos, es decir, una combinación de entropías de Shannon basadas en SMILES, SMARTS, cadenas InChiKey y entropías fraccionarias de Shannon basadas en SMILES en el caso del conjunto de datos anterior (Archivo adicional 1: Tabla S9). En la parte MLP de la red del conjunto de datos posterior, usamos los descriptores mencionados anteriormente (Archivo adicional 1: Tabla S8). La parte CNN de la red se entrenó con imágenes bidimensionales de moléculas construidas a partir de sus respectivas cadenas SMILES en el caso de ambos conjuntos de datos. Encontramos un rendimiento comparable entre los modelos con solo redes neuronales profundas basadas en MLP y MLP híbrido y redes neuronales profundas basadas en CNN para ambos conjuntos de datos (Archivo adicional 1: Fig. S3a, b), lo que implica que no hay sinergia ni ganancia de rendimiento al usar MLP híbrido y modelos basados en CNN.
Los modelos de conjunto MLP y GNN que utilizan entropías de Shannon son sinérgicos para mejorar la precisión de predicción de las propiedades moleculares
Para generalizar aún más la aplicabilidad del enfoque de entropía de Shannon, utilizamos otro conjunto de datos que consiste en valores de coeficiente de partición (logP) de moléculas de ligando que podrían unirse a la proteína de unión a p53 Mdm2. El conjunto de datos contenía 440 puntos de datos, de los cuales se realizaron 374 divisiones de entrenamiento y 66 de prueba para evaluar la utilidad de SEF utilizando el modelo basado en MLP. Se obtuvo una mejora significativa del rendimiento al usar la entropía fraccionaria de Shannon basada en SMILES (Fig. 3a y Archivo adicional 1: Tabla S10). Por ejemplo, R.2 de ajuste (%) aumentó de 33,72 ± 4,43 a 73,78 ± 4,58 simplemente incorporando la entropía fraccionaria de Shannon en el conjunto de descriptores. Se logró una mejora adicional en las métricas de rendimiento mediante la incorporación de la entropía de Shannon basada en SMILES en el conjunto de descriptores anterior (Fig. 3a).

Ensemble modelos de redes neuronales profundas basadas en arquitectura MLP y GNN utilizando los descriptores SEF para aumentar la precisión de predicción de las propiedades moleculares. a Comparación del rendimiento del modelo de la red neuronal profunda basada en MLP con la adición acumulativa de diferentes entropías de Shannon al conjunto de descriptores. Las predicciones de los valores del coeficiente de partición (logP) de las moléculas de unión a la proteína de unión a p53 Mdm2 se analizaron en el diagrama de radar triangular. Una combinación de entropías de MW y Shannon basada en SMILES Shannon y Shannon fraccional (SMILES) mostró el mejor rendimiento comparativo (guión azul). b El modelo GNN tridimensional (3D) (basado en GCN) funcionó mejor que el modelo GNN bidimensional (2D) (basado en GCN) en las mismas condiciones de entrenamiento y prueba. Cuando se utilizó SMILES Shannon como una función de nodo adicional, el rendimiento de 3D GNN mejoró aún más. C El modelo híbrido de arquitecturas MLP y 3D GNN funcionó mejor que el modelo individual basado en MLP o 3D GNN con el mismo conjunto de características de nodo basadas en la entropía de Shannon. La conexión relevante fue (- 2, – 4) de las capas MLP. d Esquema de la arquitectura de red híbrida MLP-GNN que utilizó las conexiones (− m, − n) de las capas MLP al modelo denso y final, respectivamente. Los factores de escala de todas las métricas se enumeraron en el archivo adicional 1: Tabla S10 y todas las métricas de predicción se promediaron en al menos 5 ejecuciones independientes
Extendiendo el marco de Shannon a los GNN, primero usamos un modelo GNN simplificado compuesto por nodos que representan la masa atómica y la entropía fraccionaria de Shannon (basada en SMILES) de los átomos de una molécula. Se utilizó una matriz de elementos de la tabla periódica que cubre el conjunto de datos como entrada para estimar la frecuencia de ocurrencia y la entropía fraccionaria de Shannon de ese átomo en particular (“Métodos”). Las características de borde eran simplemente conectividad de enlace y los pesos de borde eran orden de enlace normalizado. Definimos este modelo como GNN 2D (bidimensional) ya que no se utilizó información 3D (tridimensional) o conformacional en las características de los nodos de los gráficos. Usamos una red GCN usando el paquete StellarGraph [31] para implementar el modelo GNN.
Comparamos los resultados del modelo 2D GNN con el modelo 3D GNN donde se utilizó información 3D de la densidad local de los átomos basada en la distancia por pares correspondiente al confórmero de energía más bajo (Archivo adicional 1: Fig. S4). Este descriptor topológico se utilizó junto con la masa atómica y las entropías fraccionarias de Shannon (basadas en SMILES) como características del nodo. Como se esperaba, hubo una mejora significativa en el rendimiento con el modelo 3D GNN en comparación con el modelo 2D GNN (Fig. 3b). Se logró una mejora adicional en el rendimiento del modelo 3D GNN, por ejemplo, ~ 10% de mejora en MAPE cuando se utilizó la entropía de Shannon basada en SMILES como característica de nodo junto con las características anteriores del conjunto de descriptores (Fig. 3b).
A diferencia del caso de los modelos híbridos basados en MLP y CNN, observamos una mejora en el rendimiento a partir de una sinergia entre los modelos de red neuronal profunda basados en MLP y 3D GNN. El híbrido de arquitectura MLP y 3D GNN pudo funcionar mejor que el modelo MLP o 3D GNN en las mismas condiciones de entrenamiento y prueba (Fig. 3c). Esto se debió en parte a que la salida de la red individual, es decir, las salidas de los modelos MLP y GNN se ensamblaron y pasaron a través de una red neuronal profunda para entrenar el conjunto de datos de manera más eficiente. También se observó una mejora de rendimiento similar para los modelos que contienen arquitecturas híbridas MLP y 2D GNN (archivo adicional 1: Fig. S5a).
Investigamos más a fondo la dependencia del rendimiento del modelo en las conexiones de red entre las arquitecturas MLP y GNN. Definimos el modelo final como parte del modelo híbrido después de las capas densas finales (Fig. 3d). Si bien la salida de las capas GNN al modelo final se mantuvo constante, omitimos algunas capas finales de la red MLP para conectarnos al modelo final y observamos que el rendimiento general de la predicción de propiedades mejoró (Fig. 3d). Por ejemplo, se encontró que conectar (−2, −4) capas de la rama MLP al modelo híbrido final era más preciso para predecir que conectar (−2, −3) capas al modelo final (Archivo adicional 1: Fig. S5b). Del mismo modo, la conexión de (- 2, – 3) capas predijo con mayor precisión que la conexión de (- 2, – 2) capas (Archivo adicional 1: Tabla S10). Aquí, ‘− 1’ se refiere a las capas densas finales, ‘− 2’ se refiere a la capa anterior a la densa y así sucesivamente. El formato de notación utilizado, por ejemplo, (− m, − n) se refiere a los números de capa de la red MLP conectada a la capa densa y al modelo final, respectivamente. Específicamente, ‘− m’ se refiere a la salida de la capa MLP a la capa densa para estimar la salida para ajustarse al modelo final y ‘− n’ se refiere a la salida de la capa MLP como una de las entradas al modelo final ( Fig. 3d y archivo adicional 1: Fig. S6). La otra entrada al modelo final fue la salida de la penúltima capa de la red GNN que se mantuvo constante como se mencionó anteriormente. Esta estrategia de ajustar las entradas al modelo híbrido final de una de sus redes constituyentes (MLP, por ejemplo) para mejorar el rendimiento de predicción general se aplicó a arquitecturas que utilizan GNN 2D y 3D con resultados consistentes (Archivo adicional 1: Tabla S10) .
Sin embargo, cabe señalar que un modelo kNN optimizado podría competir con el rendimiento de los modelos MLP y GNN combinados en la predicción de los valores logP. Descubrimos que solo las arquitecturas de conjunto de 3D GNN, donde (- 2, – 4) capas de MLP estaban conectadas, podían sobresalir en el rendimiento demostrado por el modelo kNN (Archivo adicional 1: Tabla S10). La arquitectura de conjunto de redes neuronales basadas en 3D GNN y MLP que utilizan los descriptores SEF también superó al modelo kNN cuando se utilizaron un conjunto de datos diferente (CHEMBL4691) y valores objetivo (pCheMBL) (archivo adicional 1: tabla S10).
Los descriptores SEF en diferentes conjuntos de datos probados para modelos de regresión rivalizaron con las huellas dactilares de Morgan y los descriptores SHED en rendimiento
Para demostrar la aplicabilidad de los descriptores SEF en diferentes conjuntos de datos y modelos, los probamos en varios conjuntos de datos utilizando (a) una arquitectura de red neuronal profunda que compara los descriptores de Morgan, SEF y SHED (Tabla 2) y (b) una arquitectura de conjunto de bosque aleatorio que compara Morgan, SEF , SHED, un híbrido de Morgan y SEF e híbrido de los descriptores SHED y SEF (Cuadro 3). La línea de base kNN para cada conjunto de datos también se proporciona como comparación. La Tabla 2 enumera los valores MAE de los modelos de referencia kNN y también la comparación mencionada en (a). Utilizamos principalmente la entropía de Shannon y las entropías fraccionarias de Shannon basadas en la representación SMILES como características de SEF en los modelos de redes neuronales profundas. Como señalaron Janela y Bajorath [23], también encontramos que un modelo kNN simple podría rivalizar con los modelos basados en arquitectura neuronal profunda usando diferentes descriptores (Tabla 2 y Archivo adicional 1: Tabla S11). Sin embargo, entre las arquitecturas basadas en redes neuronales, los modelos basados en descriptores SEF funcionaron mejor en los diferentes conjuntos de datos probados (Archivo adicional 1: Tabla S11).
Se obtuvieron resultados similares cuando se usaron modelos de regresión de bosque aleatorio para comparar diferentes descriptores mencionados en (b). Notamos dos aspectos interesantes de los descriptores SEF al comparar diferentes conjuntos de datos usando el modelo de bosque aleatorio: (i) otros modelos basados en descriptores (Morgan y SHED) podrían funcionar mejor cuando se usan en combinación con descriptores SEF (Archivo adicional 1: Tabla 3 y archivo 1: Tabla S12) y (ii) los modelos basados en descriptores SEF fueron computacionalmente más rápidos en las mismas condiciones en los conjuntos de datos probados, excepto en el caso del objetivo CHEMBL3713062. En este caso, el peso molecular promedio de las moléculas de unión fue mayor en comparación con otros conjuntos de datos. Utilizamos un conjunto optimizado de características para construir los descriptores SEF según el conjunto de datos específico utilizado en los modelos de regresión de bosque aleatorio (archivo adicional 1: tabla S13). En el contexto de los conjuntos de datos utilizados, los modelos de conjuntos de bosques aleatorios basados en SEF también superaron a todos los demás modelos basados en descriptores y modelos kNN, en comparación (Archivo adicional 1: Tabla S12).
También investigamos el rendimiento de los descriptores SEF en comparación con otros descriptores mediante la combinación aleatoria de valores objetivo del conjunto de datos para algunos casos (archivo adicional 1: tabla S14) utilizando los modelos de bosque aleatorio. Observamos resultados bastante similares cuando se utilizó un espacio objetivo de estructura aleatoria en comparación con el espacio original. Los valores de desviación estándar fueron mayores en los casos aleatorizados en comparación con el original.