Marco basado en inteligencia artificial para una selección de aciertos optimizada en la detección virtual | Revista de quimioinformática

La integración de arquitecturas impulsadas por el espacio químico y proteico puede conducir simultáneamente a la identificación (por el módulo CS) y la optimización (por el módulo PS) de moléculas exitosas, logrando el marco A-HIOT, que significa herramienta de optimización e identificación automatizada. El A-HIOT utiliza múltiples bibliotecas R para desarrollar algoritmos de conjuntos apilados y DNN.

El A-HIOT implementa un marco de conjunto apilado impulsado por CS (módulo CS) que comprende RF y XGB como estudiantes base y DNN como súper estudiante, donde el peso de cada modelo base se ha considerado una variable aleatoria para el espacio químico. El algoritmo de conjunto dentro del A-HIOT no hereda la naturaleza probabilística, lo que nos permite explorar de manera efectiva la integración de bibliotecas R para obtener la mejor precisión y especificidad del modelo predictivo. Cabe señalar que las características deben ser diversas para que su información (características) no obstaculice la capacidad del modelo predictivo. La ingeniería de características es un requisito principal del módulo CS para lograr un rendimiento satisfactorio, la interpretabilidad del modelo predictivo y superar la dimensionalidad.[60]. Las características moleculares heredan valores cuantitativos calculados de estructuras moleculares que quizás se correlacionen con la actividad biológica de la estructura respectiva; las características unidimensionales (1D) y bidimensionales (2D) se pueden calcular fácilmente y son interpretables y comprensibles[71, 72]. El espacio de características inicial consta de 63 clases (archivo adicional 7: tabla S2) que se preprocesaron aún más según la sección de métodos para generar un conjunto de datos listo para ML, junto con una dimensionalidad rígida. El conjunto de datos de entrada final consta de 674 características relacionadas con 38 clases.

La simulación de acoplamiento establece patrones de interacción entre la proteína objetivo y las moléculas hit/lead identificadas; Las huellas dactilares dependientes de la interacción nos permiten ensamblar el marco de DNN impulsado por PS. Los DNN producen un modelo predictivo que puede clasificar moléculas de manera efectiva al unirse con números de interacción., se volvieron a clasificar y las moléculas con mejor rendimiento se seleccionaron como moléculas clave/de éxito optimizadas. El conjunto ponderado y el marco predictivo de DNN dependientes de huellas dactilares de interacción producen una canalización in silico simple, hasta ahora sólida, para eliminar la incertidumbre al tiempo que se logra la identificación de clientes potenciales y una mejor selección durante la optimización de clientes potenciales. Luego evaluamos los módulos CS y PS del A-HIOT en la sección correspondiente y se realizó la comparación.

Rendimiento del módulo CS de A-HIOT y comparación

Establecimos una generalización apilada[73] conjunto y constituyó el módulo CS de identificación de aciertos (Fig. 3a) para el marco A-HIOT. El conjunto apilado especula el promedio ponderado de cada modelo consistente del marco del conjunto, y un súper alumno ajusta los pesos sobre el espacio de características (fi) al integrar estos modelos. El rendimiento del marco de conjunto apilado impulsado por CS se llevó a cabo de tal manera que, en primer lugar, se implementó una validación cruzada de diez veces para validar el conjunto de datos y evaluar la eficiencia de predicción. Se seleccionó un subconjunto aleatorio del 10% del conjunto de datos de entrenamiento, denominado conjunto de datos de evaluación interna; el resto se implementó para el entrenamiento del modelo. El modelo de conjunto apilado impulsado por CS se entrenó y evaluó internamente, incluidas las matrices de precisión, sensibilidad, especificidad y AUC-ROC.

Fig. 3
figura 3

a Arquitectura del módulo de espacio químico para la identificación de hits/lead. El primer módulo de A-HIOT identifica moléculas hit/lead enfatizando el espacio químico (CS). Aquí, según el concepto, las estructuras químicas de los inhibidores conocidos de la proteína CXCR4 se recolectaron, se transformaron en vectores característicos y se preprocesaron para lograr un conjunto de datos legibles por máquina. El espacio químico aprovecha el bosque aleatorio (RF), el impulso de gradiente extremo (XGB) y las redes neuronales profundas o los algoritmos de aprendizaje profundo (DNN/DL) para construir un modelo de clasificación predictivo. Combinamos estos modelos distintivos en el conjunto apilado donde RF y XGB sirven como estudiantes de nivel 0, reciben datos de entrada como vectores de características, entrenan h1… ht modelos predictivos y producir z1…zt predicciones Las predicciones de nivel 0 sirven como entrada para el alumno de nivel 1 que es DNN (H). El algoritmo de nivel 1 se denomina metal-aprendiz. los wb (b= 1,…,B) indica los pesos asignados a los alumnos base, h(X) (ht(X)…hT(X )) indica los vectores base-alumno, y εes el error de distribución normal. Los verdaderos aspectos positivos producidos por el marco de conjunto apilado impulsado por CS fueron los clientes potenciales/aciertos identificados porque el marco aprendió las instancias de características representativas similares a inhibidores que dieron como resultado un modelo de pronóstico de clasificación de alto rendimiento. Este paso garantiza la reducción del conjunto de datos enorme y complejo a uno significativo que aún exige una mayor optimización. Por lo tanto, el marco de conjunto apilado impulsado por CS en el marco A-HIOT logra la identificación de aciertos y se representa aquí como el anillo rojo. b Flujo de trabajo del módulo espacial de proteínas para la optimización de hits/leads. El segundo módulo de espacio proteico (PS) del A-HIOT optimiza las moléculas hit/lead enfatizando los patrones de interacción proteína-ligando. Inicialmente, la estructura de la proteína se obtiene y se explora en busca de sitios de unión potenciales, residuos de unión dentro del bolsillo de unión. Además, el conjunto de datos equilibrado recopilado del espacio químico comprende verdaderos positivos y verdaderos negativos. Los patrones de interacción se establecen entre la proteína y las moléculas identificadas empleando simulación de acoplamiento. Las huellas dactilares binarias para cada complejo proteína-ligando se calculan para evaluar el patrón de unión. Estas huellas digitales sirven como entrada de red neuronal profunda y un modelo predictivo sólido (marco de DNN impulsado por PS). Los verdaderos positivos producidos por el modelo se concatenaron aún más junto con la puntuación del perfil de interacción proteína-ligando (PLIP) (di) y reclasificados siguiendo el umbral de interacción vinculante. Las moléculas recolectadas implementadas en el marco A-HIOT denominadas conductores optimizados se representan como el anillo azul. Hemos ideado este módulo utilizando CXCR4 como una proteína de caso en estudio. los (D) representa el conjunto de datos listo para DNN donde la salida de DNN F ((alfa)) para el modelo de clasificación. Concatenación adicional con (di) dado βque produjo moléculas de impacto optimizadas

El conjunto de datos de vectores de características (Ec. 1) se utilizó por primera vez como datos de entrada. Luego, los marcos de aprendizaje base realizaron una validación cruzada de diez veces (CV) y los datos de salida de CV se sirvieron como datos de entrada para el súper alumno (nivel-1h) estructura. El conjunto apilado logró una precisión de 0,948 para la evaluación interna (conjunto de pruebas internas), junto con una sensibilidad de 0,961, una especificidad de 0,988 y un AUC del 98,8 %.

Comparamos el módulo CS de A-HIOT con tres algoritmos de clasificación individuales diversos, a saber, RF, XGB y DNNs/DL. En primer lugar, el modelo de RF obtuvo una precisión de 0,826, una especificidad de 0,891 y un AUC del 89,1 % para el rendimiento del entrenamiento (Archivo adicional 2: Fig. S1, Archivo adicional 8: Tabla S3) para evaluación interna (conjunto de pruebas). En segundo lugar, usamos el XGB, para la evaluación interna, el marco XGB clasifica con una precisión de 0.809, y se encontró que la especificidad era 0.761 y 81.2% AUC respectivamente, y se muestra en (Archivo adicional 3: Fig. S2, Archivo adicional 9 : Tabla S4) En tercer lugar, utilizamos DNN que emplean ajuste de hiperparámetros basados ​​en cuadrículas para profundizar en los algoritmos respectivos para obtener los mejores resultados de clasificación. El mejor modelo estableció una precisión de 0,902, una sensibilidad máxima de 0,896, una especificidad de 0,923 y AUC-ROC para la evaluación interna fue del 91,4 %, AUC respectivamente, para el conjunto de datos de evaluación interna y se muestra en (Archivo adicional 4: Fig. S3, Archivo adicional 10: Tabla S5). En general, se puede concluir con conjuntos de datos de validación cruzada de diez veces, el módulo CS de A-HIOT funcionó mucho mejor que ML/DNN individual en términos de mayor precisión, especificidad y AUC.

También evaluamos cada marco en el pequeño conjunto de datos de validación independiente, rigurosamente para determinar el rendimiento de la clasificación, el aprendizaje de características y la identificación de aciertos/clientes potenciales. El RF informó un sobreajuste mínimo ya que obtuvo una precisión de 0,726 y una tasa de especificidad de 0,747, XGB se desempeñó bien al brindar una precisión de 0,789 y una especificidad de 0,816, DNN decepcionó al recibir una tasa de especificidad de 0,782 y un sobreajuste nominal. En comparación con los marcos individuales, el marco de módulo de conjunto apilado CS obtuvo una precisión de 0,867 y 0,967 especificidad en el pequeño conjunto de datos de validación independiente e identificó 35 moléculas hit/lead (Fig. 4), mostrando un rendimiento comparativo en la Tabla 3. Se encontró que el conjunto apilado mejora el rendimiento de la clasificación en comparación con el marco individual.

Figura 4
Figura 4

Aciertos identificados por el marco de conjunto apilado impulsado por CS a partir de un pequeño conjunto de datos de validación independiente. El conjunto apilado de A-HIOT del espacio químico condujo a la mejor identificación de 35 moléculas de impacto para un objetivo en particular (en el caso del receptor CXCR4). El módulo CS entrenado de A-HIOT probado en pequeños conjuntos de datos de validación independientes (56 moléculas) predijo la mayoría de los éxitos pertenecientes al sistema de anillos aromáticos, en particular, el anillo de imidazol, que es el principal inhibidor del receptor CXCR4, justificó sus buenas medidas de rendimiento en comparación a algoritmos de aprendizaje automático individuales

El motivo del rendimiento superior del módulo de conjunto apilado CS de A-HIOT en comparación con otros algoritmos ML/DNN individuales es la obtención de resultados adecuados para un objetivo en particular (35, Fig. 4); que podrían ser probablemente potentes inhibidores de CXCR4. Los estudios 3D-QSAR del receptor CXCR4 (PBD ID:3OE6, 3ODU) son bien conocidos y ampliamente empleados en la literatura. El ligando unido que se encuentra en los estudios de estructura PDB y relación estructura-actividad (SAR) muestra que los constituyentes estructurales críticos, los requisitos principales para ser un ligando deseado para CXCR4 se compone de: a) sistemas de anillos de imidazol, imidotizoles o bencimidatiazol que ayudan en la interacción con residuos de aminoácidos D97, E288 y D193 del sitio de unión de CXCR4; b) un resto de nitrógeno protonado ayuda en la interacción con D97 y E288; c) uno o más restos alifáticos que serían un sistema de anillo de seis, siete u ocho miembros para una unión óptima con los residuos del sitio de unión W90, H113 e Y116. El sistema de anillo aromático esencial u óptimo podría considerarse como: (i) quinazolina, (ii) purina, (iii) naftaleno e (iv) indolilo[74]. Las observaciones en pequeños conjuntos de datos de validación independientes revelaron los éxitos predichos correctamente pertenecientes al sistema de anillos aromáticos, en particular el imidazol, que es el requisito principal para ser un inhibidor de CXCR4 que justificó las buenas medidas generales de rendimiento del módulo CS de A-HIOT en comparación con individual Algoritmos ML/DNN (Fig. 5). El marco de conjunto apilado impulsado por CS alcanzó una tasa de clasificación equilibrada (BCR) significativa de 0,8. Recolectamos moléculas de TP y TN para crear un conjunto de datos equilibrado para el siguiente paso, es decir, el módulo espacial de proteínas.

Figura 5
Figura 5

El rendimiento de clasificación del marco de conjunto apilado impulsado por CS. El marco de apilamiento recopila predicciones no correlacionadas de clasificadores base, lo que fortalece diversas predicciones y reduce el sobreajuste en el modelo predicho final. Los resultados de las pruebas internas y la validación independiente del modelo de pronóstico se evaluaron por área bajo la curva-características operativas del receptor (AUC-ROC). En este documento, los gráficos AUC-ROC ilustran el rendimiento de clasificación aumentado logrado mediante el marco de apilamiento en lugar de implementar un algoritmo de clasificación específico. Para la evaluación interna, el superestudiante designado (DNN) ha obtenido un AUC-ROC del 98,8 % (a) mientras que los alumnos de base RF y XGB lograron el 88,6 % (b) y 79,6% (C) AUC-ROC, respectivamente. El modelo de pronóstico entrenado y probado administrado para identificar aciertos de un pequeño conjunto de datos de validación independiente ha logrado un AUC-ROC notable del 83,90 % para el marco apilado (d). Por el contrario, los estudiantes base, RF y XGB obtuvieron un 81,80 % (mi) y 80,82% (F) AUC-ROC. Las gráficas AUC-ROC de rendimiento de referencia para el conjunto apilado impulsado por CS obtuvieron un 90,2 % (gramo) y los alumnos de base RF y XGB obtuvieron un 82,2% (h) y 81,3% (i). Nuestros resultados de la implementación de diferentes algoritmos de aprendizaje automático y profundo sugirieron que si alguno de los algoritmos no puede manejar bien los datos de entrada, el súper alumno podría manejar las tareas de clasificación y datos. A partir del conjunto de datos independiente, el módulo CS de A-HIOT identificó 35 moléculas de éxito que requieren una mayor optimización según la estructura del receptor y se considerarán como entrada para el módulo PS de A-HIOT

Cavidad proteica y análisis de patrón de interacción para PS

Antes de evaluar el módulo PS (Fig. 3b) de A-HIOT, queremos aclarar en detalle el uso de un objetivo, es decir, CXCR4. Hemos elegido la proteína del receptor CXCR4, que en sí misma es un regulador esencial del espionaje del sistema inmunitario y la homeostasis de la inflamación, y su estructura se ha investigado junto con el antagonista unido IT1t y el péptido cíclico CVX15.[75,76,77]. Recuperamos la estructura cristalina de la proteína en el estado unido con el antagonista IT1t y llevamos a cabo un mapeo de farmacóforos, también llamado medidas geométricas del bolsillo activo. Las características del farmacóforo, incluidos los donantes de enlaces de hidrógeno, los aceptores de enlaces de hidrógeno y los sitios hidrofóbicos, se recopilaron e integraron con una definición de bolsillo activo (Fig. 6a-d). El bolsillo activo comprende lo siguiente: (a) los residuos de aminoácidos críticos que abarcan el bolsillo activo eran W94, D97, W102, V112, Y116, R183, I185, C186, D187 y E288 pertenecientes al dominio 7tmA_CXCR4 de la familia CXCR4; (b) otros residuos de aminoácidos que contribuyeron a la unión del ligando fueron C28, Y45 (pertenecientes al dominio N-terminal de CXCR4), V96, F93, Y121, R188, F248, Y256, I286 y F292 con referencia cruzada mediante búsqueda de dominio conservado (Búsqueda de CD)[78]. La evaluación de bolsillo funcional determina el número probable de interacciones entre proteínas y moléculas de fármaco/ligando y se justifica mediante el análisis del patrón de interacción entre el complejo CXCR4-IT1t, el ligando estándar que se encuentra en la estructura PDB, y se propuso un valor umbral para el número de interacciones; según nuestra hipótesis, el número de interacciones por complejo proteína-ligando fue de 9 a 12 (Fig. 6e).

Figura 6
figura 6

Investigación y cuantificación de bolsillo de unión para la proteína diana. La evaluación del bolsillo de unión y la designación de residuos de aminoácidos cruciales es vital para la actividad farmacológica de las moléculas responsables. En este documento, mostramos la investigación de bolsillo vinculante y el diseño de cuantificación. Primero recuperamos la estructura 3D de CXCR4 (a) proteína de la base de datos PDB y ligando unido (PDB ID: 3ODU). La estructura CXCR4 se sometió al programa Cavity para evaluar el bolsillo de unión de ligando vacante (rojo) y los puntos de cuadrícula (violeta) como se representa en b y C. Para la cuantificación de los residuos de unión, Pocket v3 utilizó los resultados del programa Cavity como entrada, lo que da como resultado la ubicación de los residuos de aminoácidos (d) junto con los tipos probables de interacción. Las esferas de color azul simbolizan el donante de enlaces de hidrógeno, el rojo es el aceptor de enlaces de hidrógeno y el rosa representa los residuos de interacción hidrofóbica. En resumen, los residuos activos comprenden el bolsillo de unión activo para la proteína CXCR4 (mi) junto con la ubicación del residuo. La información generada servirá como evaluación para la evaluación del marco de DNN impulsado por PS de A-HIOT con otros algoritmos de aprendizaje automático.

Además, el experimento de simulación de acoplamiento generó diversos patrones de interacción junto con 10 poses y se seleccionó primero la pose superior con las mejores interacciones. El perfil de interacción para el conjunto de datos complejo se llevó a cabo mediante la implementación de PLIP, que designó la interacción que acompaña al tipo de interacción de cada ligando y complejo. El perfil de interacción explica que W94, D97, W102, R183, R188, F248, Y256, E288 y F292 son residuos de aminoácidos críticos que desempeñan funciones esenciales para la función de la proteína. W94 tiene apilamiento de pi e interacciones hidrofóbicas; D97 forma enlaces de hidrógeno, interacciones hidrofóbicas y puentes salinos; E288 forma interacciones hidrofóbicas, enlaces de hidrógeno y puentes salinos; R188 forma enlaces de hidrógeno e interacciones pi-cation; además, W102 forma interacciones hidrofóbicas. La información generada servirá como evaluación para la evaluación del marco de DNN impulsado por PS de A-HIOT con otros algoritmos de aprendizaje automático.

Rendimiento del módulo PS de A-HIOT y comparación

El recuento de huellas dactilares de Klekota-Roth calculado (4860) para el conjunto de datos de complejos de proteínas y ligandos que calcula fragmentos o subestructuras imperativos para un conjunto de datos determinado con vitalidades biológicas refinadas y se prepara como entrada para el marco DNN impulsado por PS. El enfoque de huellas dactilares se implementó para la recuperación de la interacción, aumentando el poder predictivo del marco de DNN. El entrenamiento que utiliza datos de huellas dactilares se compone de información de actividad biológica codificada por subestructura imperativa.[79]. El marco de DNN aprende características cruciales que emplean IBL y establece el modelo predictivo entrenado, además de usar un conjunto de pruebas internas, la evaluación de clasificación (X’ ) y el modelo predictivo obtuvo una precisión de 0.819, AUC-ROC de 81.2%, sensibilidad de 0.913 y especificidad de 0.824 durante el proceso de clasificación. La molécula clasificada de los TP en X’ fueron junto con el puntaje PLIP para lograr una matriz sensible de moléculas, y luego reclasificados según el umbral del descriptor de farmacóforo definido (9–12).

También llevamos a cabo la validación del marco de DNN impulsado por PS utilizando el pequeño conjunto de datos de validación independiente que se compara en la Tabla 2. Para el conjunto de datos de validación, obtuvo una precisión de 0,859, un AUC-ROC del 88,4 % (Fig. 7a–c), una sensibilidad de 0,872 y una sensibilidad de 0,822 especificidad, donde la sensibilidad denota la tasa de verdaderos positivos (TP) y los TP fueron los aciertos optimizados junto con el ligando estándar IT1t unido en el archivo PDB (Fig. 8a-c). Encontramos cuatro aciertos optimizados con mejor rendimiento a partir de un pequeño conjunto de datos de validación independiente.

Tabla 1 Resumen de los conjuntos de datos moleculares utilizados en este estudio
Tabla 2 Rendimiento de clasificación de DNN controlados por PS: la comparación del rendimiento de clasificación del marco DNN/DL controlado por PS para la optimización de hits/lead empleando el módulo PS
Figura 7
figura 7

La comparación de rendimiento del marco de trabajo de las DNN impulsadas por PS. El marco de DNN impulsado por PS entrenado con un conjunto de datos de huellas dactilares binarias codifica la información del patrón de interacción proteína-ligando, y el modelo de pronóstico clasifica el conjunto de datos sin etiquetar siguiendo la información del patrón de interacción. Los gráficos AUC-ROC muestran el rendimiento de clasificación obtenido por el marco de DNN impulsado por PS para el conjunto de datos de huellas dactilares binarias para evaluación interna 81,2% (a), para el pequeño conjunto de datos de validación independiente 88,4% (b) y para el conjunto de datos de referencia 89,8% (C)

Figura 8
figura 8

La representación de hits optimizados por módulo PS. Los verdaderos positivos (TP) identificados a partir del módulo impulsado por PS de A-HIOT se descodificaron en ID de moléculas, se fusionaron con la puntuación PLIP (di) y se clasificaron, observando el umbral propuesto para el perfil de interacción de unión de CXCR4. los βilustra la puntuación de clasificación final para cada molécula de ligando sometida a optimización; a muestra los patrones de interacción de CXCR4 y los residuos de aminoácidos participantes con su ligando estándar (IT1t); b acumula las cuatro moléculas (CHEMBL129, CHEMBL452868, CHEMBL461358 y CHEMBL518501) del conjunto independiente administrado para optimizar los patrones de interacción de acoplamiento y C detalla los tipos de interacción y el patrón de formación de enlaces

Debido a la falta de disponibilidad de métodos, el rendimiento de clasificación del marco de DNN basado en PS se comparó con el marco individual, es decir, los algoritmos RF y XGB para optimizar la selección de aciertos/clientes potenciales. Los vectores de características de huella digital binaria sirvieron como conjunto de datos de entrada como Eq. 7. En primer lugar, el algoritmo de RF utilizado para la evaluación interna (conjunto de prueba interno, X’) donde obtuvo una precisión de 0,802, una sensibilidad de 0,754, una especificidad de 0,821 y un AUC del 80,1 %. En segundo lugar, XGB se utilizó para la evaluación interna donde obtuvo una precisión de 0,806, una sensibilidad de 0,786, una especificidad de 0,813 y un AUC de 81,2. El RF mostró una especificidad mínima (0,488) y cierto sobreajuste al obtener un AUC grande (82,2%) junto con una precisión de 0,614 y una sensibilidad de 0,724 para la tarea de clasificación. De manera similar, XGB obtuvo una pequeña cantidad de especificidad (0.534), baja precisión (0.631), AUC insuficiente (69.9%) junto con una buena sensibilidad 0.763. Las moléculas mejor clasificadas identificadas por el módulo PS de A-HIOT fueron hits/leads optimizados de acuerdo con el mapeo de farmacóforos propuesto que revela la interacción, así como los recuentos de subestructuras que interactúan. Además, el módulo PS es la fusión de la cavidad de proteína establecida y los perfiles de patrones de interacción proteína-ligando que fueron impulsados ​​por el marco de DNN en el módulo PS del marco A-HIOT para la optimización de aciertos/clientes potenciales que justificó su rendimiento superior en comparación con los ML individuales ( RF/XGB) (Fig. 7d–i; Tabla 4).

Rendimiento de A-HIOT para la identificación y optimización de aciertos/clientes potenciales en un conjunto de datos de referencia

Para garantizar la capacidad de generalización del A-HIOT, llevamos a cabo un análisis de rendimiento para el marco del módulo CS y PS para la identificación y optimización de aciertos/clientes potenciales a partir de un conjunto de datos de referencia que comprende una mezcla de moléculas activas y señuelos contra la familia de receptores GPCR como se menciona en el sección de materiales y métodos.

El módulo CS logró un AUC del 90,2 % (fig. 5) y cumplió notablemente la tarea de clasificación, manteniendo el equilibrio entre sensibilidad (0,921) y especificidad (0,987); adicionalmente, la precisión (0,962) de todo el modelo, que se muestra en la Tabla 3. La sensibilidad satisfactoria (medida de identificación de aciertos/clientes potenciales (TP)) y especificidad (medida de eliminación de aciertos/clientes potenciales falsos (TN)) traduce el poder predictivo de Marco de conjunto apilado impulsado por CS. Comparamos el rendimiento de referencia entre los algoritmos de clasificación de ML individuales, que se muestra en la Tabla 3, y observamos la mayor precisión del marco de conjunto apilado impulsado por CS sobre los tres marcos individuales como caso de rendimiento similar del pequeño conjunto de datos independiente.

Tabla 3 Comparación del rendimiento del marco Stacked Ensemble basado en CS y Benchmark para el módulo CS: la comparación del rendimiento del marco Stacked Ensemble basado en CS y Benchmark con algoritmo ML individual

El módulo PS obtuvo un AUC de 89,8% (Fig. 7) y una precisión de 0,899 junto con una sensibilidad y especificidad de 0,902 y 0,924 (Tabla 4), respectivamente, demostrando la efectividad del uso de la interacción dactilar así como la precisión del predictivo modelo en la optimización de hits/leads identificados. La concatenación del perfil de interacción nos ayudó a seleccionar moléculas hit/lead optimizadas. Por lo tanto, las ventajas de utilizar tanto CS como PS en el marco A-HIOT brindan a los investigadores una mayor precisión para encontrar pistas optimizadas para un receptor en particular con un conjunto mínimo de falsos positivos (FP).

Tabla 4 Comparación de rendimiento del marco de DNN basado en PS con otros algoritmos de ML: la comparación del rendimiento de referencia del marco de DNN/DL basado en PS para la optimización de hits/lead empleando el módulo PS

Rendimiento de A-HIOT para la identificación y optimización de hits/lead en el receptor de andrógenos (AR): estudio de caso

Para determinar la capacidad de identificación y optimización de aciertos de A-HIOT para cualquier receptor, irrelevante para CXCR4, elegimos AR para un estudio de caso separado. El AR es un tipo de receptor nuclear, también conocido como receptor nuclear subfamilia 3, grupo C, miembro 4 (NR3C4) y es activado por la testosterona. Los AR participan significativamente en el cáncer de próstata por lo que se utilizan antiandrógenos para tratar el mismo.

El entrenamiento del módulo CS de A-HIOT demostró un rendimiento de clasificación satisfactorio al lograr un AUC del 86,4 % (Fig. 9a, b) junto con una sensibilidad equilibrada de 0,845 y una especificidad de 0,902. Además, la precisión de 0,867 del modelo entrenado. En comparación con la clasificación y la potencia de identificación de aciertos/clientes potenciales del conjunto de datos de prueba, el módulo CS de A-HIOT logró un AUC del 86,8 %, una sensibilidad de 0,892, una especificidad de 0,886 y una precisión de 0,882, como se muestra en la Tabla 5. La sensibilidad (medida de identificación de aciertos/clientes potenciales (TP)) y la especificidad (medida de eliminación de aciertos/clientes potenciales falsos (TN)) traduce el poder de identificación de aciertos/clientes potenciales del módulo CS de A-HIOT. El módulo CS identificó 126 moléculas activas y 752 inactivas y comprende la entrada del conjunto de datos para el módulo PS de A-HIOT.

Figura 9
figura 9

La comparación de rendimiento de A-HIOT en AR: estudio de caso. La evaluación interna se realizó empleando una división aleatoria del conjunto de datos de entrenamiento en proporciones de 7:3 y un gráfico AUC-ROC (a) demuestra un rendimiento de entrenamiento del 86,4 % para el módulo CS y el conjunto de datos de prueba independiente obtuvo un AUC-ROC del 86,8 % (b), que traduce la clasificación satisfactoria y la capacidad de identificación de hits/leads. Se utilizó un enfoque similar en el módulo PS para la evaluación interna en el que el enfoque obtuvo un 87,9 % de AUC-ROC que se muestra en (C) y para el conjunto de datos de prueba independiente se obtuvo un 90,2 % de AUC-ROC que se muestra en (d). El rendimiento excepcional si el módulo PS dicta el poder de A-HIOT para la optimización de hits/leads

Tabla 5 Comparación de rendimiento de los módulos CS y PS de A-HIOT en el receptor de andrógenos (AR): la comparación de rendimiento de los módulos CS y PS de A-HIOT para la evaluación interna e independiente de aciertos/aciertos optimizados utilizando el receptor de andrógenos

El conjunto de datos de entrenamiento para el módulo PS consta de 303 moléculas y el conjunto de datos de prueba tiene 878 moléculas. El conjunto de datos listo para ML se preparó según el protocolo del módulo PS mediante el cálculo del recuento de huellas dactilares de la subestructura Klekota-Roth de la interacción proteína-ligando (huellas dactilares binarias). El entrenamiento del módulo PS logró un AUC del 87,9 % junto con una sensibilidad de 0,823 y una especificidad de 0,894. El modelo entrenado obtuvo una precisión de 0,852 que dicta la eficacia de todo el modelo. En comparación, cuando el modelo entrenado se aplicó al conjunto de datos de prueba y obtuvo un AUC del 90,2 %, una sensibilidad de 0,862, una especificidad de 0,924 y una precisión de 0,919 (Fig. 9c, d). El módulo PS informó puntuaciones más altas de AUC y especificidad que definen la suficiencia de A-HIOT para la eliminación correcta de señuelos o aciertos falsos y la recuperación de aciertos optimizados verdaderos. Los TP se extrajeron y concatenaron junto con las puntuaciones del perfil de interacción proteína-ligando y se clasificaron según el umbral de interacción (6–8). Recuperamos ocho moléculas hit/lead optimizadas.

Deja un comentario