Análisis exploratorio de datos
En esta sección, realizamos el análisis de espacio químico para caracterizar los patrones entre compuestos activos e inactivos. Inicialmente, el espacio químico general se visualizó en función de MW frente a ALogP. Además, se emplearon los descriptores Ro5 para comparar los compuestos activos e inactivos. Ro5 determina la similitud farmacológica de los compuestos en función de sus propiedades moleculares, incluidos MW (< 500), ALogP (< 5), nHAcc (< 10) y nHDon (< 5) [62]. La visualización del espacio químico MW en función de ALogP se muestra en el archivo adicional 1: Fig. S1. La mayoría de los compuestos se agruparon dentro del rango de PM de 200 a 500 Da con un ALogP entre 1 y 6. Además, el archivo adicional 1: la Fig. S2 muestra la distribución de compuestos activos e inactivos según los descriptores Ro5. Se observó que los compuestos se adhirieron al criterio Ro5 con un PM menor a 500 Da, ALogP menor a 5, y nHBDon y nHBAcc menores a 10. El análisis estadístico computado a través de Mann-Whitney tu prueba reveló una diferencia significativa (pag< 0,001) entre los compuestos activos e inactivos en términos de PM. La mayoría de los compuestos activos tenían un PM más bajo (347,15 ± 85,69) que los compuestos inactivos (364,13 ± 87,57), como se observa en los valores medios de los diagramas de caja en el archivo adicional 1: Fig. S2. De manera similar, los valores de nHBAcc de 3,32 ± 2,07 y 3,62 ± 2,01 fueron significativamente diferentes entre los compuestos activo e inactivo, respectivamente. Sin embargo, los valores de ALogP para compuestos activos (3,71 ± 1,14) e inactivos (3,92 ± 1,38) fueron solo ligeramente significativos. Además, tanto los compuestos activos como los inactivos tenían valores de nHBDon similares, que no eran estadísticamente significativos.
Además, el éxito clínico de un compuesto depende de varios factores, incluida su complejidad molecular, que está determinada por propiedades como la aromaticidad, la cantidad de anillos, los centros quirales, los anillos fusionados, los grupos funcionales y la cantidad de enlaces giratorios. [54]. Estas propiedades, a su vez, pueden afectar eventos biológicos cruciales como la solubilidad, la biodisponibilidad oral y la toxicidad. [55]. En este estudio, analizamos cuatro descriptores: ARR, nCIC, RBN y nBnz, para determinar la complejidad molecular de los compuestos estudiados y compararlos entre los grupos activos e inactivos. Archivo adicional 1: la Fig. S3 muestra un diagrama de caja de estos descriptores. Nuestros resultados indican que los compuestos activos poseen una relación ARR más baja, menos enlaces giratorios y anillos tipo benceno en comparación con los compuestos inactivos, y estas diferencias son estadísticamente significativas (pag< 0,001).
Resultados generales de predicción de diferentes algoritmos de ML y descriptores moleculares
En esta sección, realizamos un análisis comparativo de 156 clasificadores de ML entrenados con 13 algoritmos de ML y 12 descriptores moleculares. El desempeño de cada clasificador se evaluó en base a pruebas independientes y de validación cruzada de diez veces. Como se mencionó anteriormente, el clasificador de ML que tenía el MCC de validación cruzada más alto se consideró el modelo con mejor rendimiento. Figura 2 y archivo adicional 1: las tablas S2–S4 muestran el rendimiento de todos los clasificadores ML desarrollados aquí. Notamos que los cinco clasificadores de ML más poderosos consistieron en LGBM-Circle, ET-Circle, SVMRBF-PubChem, LGBM-PubChem y SVMRBF-Hybrid con MCC respectivos de 0.758, 0.755, 0.752, 0.752 y 0.752. Mientras tanto, el archivo adicional 1: la tabla S4 muestra que los tres principales descriptores importantes fueron Hybrid, Circle y PubChem con un MCC promedio respectivo de 0,701, 0,698 y 0,695. Curiosamente, los cinco principales clasificadores de ML se desarrollaron a partir de estos importantes descriptores. Esto indica que Hybrid, Circle y PubChem podrían ser más importantes para la predicción de antagonistas de AR en comparación con los descriptores moleculares restantes. Según los resultados de la validación cruzada, LGBM-Circle se indicó como el modelo con mejor rendimiento, mientras que este modelo tenía un MCC de 0,752 con un ACC de 0,876 y un AUC de 0,938 en términos de la prueba independiente. Por otro lado, RF-Hybrid proporcionó el MCC más alto de 0,834 con ACC de 0,917 y AUC de 0,935 en términos de la prueba independiente. Esta evidencia indica que los modelos basados en características únicas no pueden proporcionar un rendimiento estable en los conjuntos de datos AR-TRN y AR-IND.

Valores de MCC de 156 modelos de referencia en términos de validación cruzada de diez veces (A) e independiente (B) pruebas
Evaluación del rendimiento de DeepAR
Con el fin de mejorar el rendimiento estable de la predicción de antagonistas de AR, integramos varios clasificadores de ML para desarrollar un metamodelo mediante el uso de la estrategia de apilamiento. Específicamente, empleamos el modelo CNN junto con el vector de características 156-D para la construcción del metamodelo (DeepAR). Como se ve en las tablas 2 y 3, DeepAR logra un MCC de 0,762 y 0,823 en términos de los conjuntos de datos AR-TRN y AR-IND, respectivamente. Sorprendentemente, DeepAR proporcionó ACC de 0,911, Sn de 0,897, Sp de 0,927 y AUC de 0,945 en el conjunto de datos AR-IND. Además, comparamos su rendimiento con el de otros metamodelos entrenados con algoritmos 13 ML y el mismo vector de características 156-D. En la Tabla 2, observamos que DeepAR, mRF y mLGBM lograron un rendimiento similar y superaron a otros metamodelos en términos de MCC de validación cruzada con un rango de 0,762 a 0,770. En el caso de los resultados de las pruebas independientes, ACC y MCC de DeepAR fueron 2.34 y 4.63–4.80 % más altos que mRF y mLGBM (Tabla 3).
DeepAR es capaz de mejorar el rendimiento predictivo
Para mostrar que nuestro DeepAR propuesto es mejor que otros clasificadores de ML convencionales, diseñamos dos conjuntos de análisis comparativo. Para el primer análisis comparativo, comparamos el rendimiento de DeepAR con modelos basados en una sola característica. Como se puede ver en la Tabla 4, DeepAR logró un mejor rendimiento general en comparación con el mejor modelo basado en una sola característica (es decir, LGBM-Circle) en términos de ACC, Sp, MCC y AUC en AR-TRN y AR- conjuntos de datos IND. En el conjunto de datos AR-IND, MCC, ACC y Sp de DeepAR fueron 7,10, 3,53 y 3,66 % más altos que el LGBM-Circle, respectivamente. Además, también comparamos el rendimiento de DeepAR con clasificadores ML entrenados con los 12 descriptores moleculares en el segundo análisis comparativo. Archivo adicional 1: las tablas S5, S6 muestran que el MCC más alto en términos de la prueba de validación cruzada de diez veces se logra mediante MLP (denominado MLP-All en este documento). Al comparar con MLP-All en el conjunto de datos AR-IND, DeepAR exhibió mejores MCC, ACC, Sn y Sp con un aumento respectivo de 4.74, 2.34, 2.30 y 2.44 % (Fig. 3 y Tabla 4). En conjunto, estos resultados confirmaron la capacidad predictiva de DeepAR para mejorar el rendimiento de predicción de AR. Además, sus altos valores de Sp y MCC revelan que el DeepAR propuesto podría identificar con precisión los compuestos AR activos de una gran cantidad de compuestos que se encuentran en varias bases de datos públicas.

Comparación de rendimiento de DeepAR con LGBM-Circle y MLP-All en Main-TRN (A, B) y Principal-IND (C, D) conjuntos de datos. Resultados de predicción de StackPR con los cinco principales modelos de referencia en términos de MCC, Sn, Sp y MCC (A, C). Curvas ROC y valores AUC de StackPR con los cinco mejores modelos de referencia (B, D)
Aplicación de DeepAR para caracterizar antagonistas de AR
En este documento, el popular marco SHAP [70] implementado por Lundberg y Lee [63] se utilizó para revelar qué características son beneficiosas para DeepAR. Específicamente, las características que contribuyen al impacto global de los compuestos activos e inactivos se indican mediante valores SHAP positivos y negativos, respectivamente, donde los valores SHAP positivos y negativos indicados en las escalas positivas y negativas tienen un gran impacto para las subestructuras compuestas activas e inactivas, respectivamente. Las figuras 4A y B muestran que las cinco funciones importantes mejor clasificadas para DeepAR consisten en KNN-CKDExt, KNN-Hybrid, MLP-CKD, MLP-Circle y MLP-CKDExt. Vale la pena señalar que el modelo LGBM-PubChem ocupó el puesto número 11. Este modelo se considera interpretable debido a su utilización de descriptores de huellas dactilares de la subestructura de PubChem, que son conocidos por su interpretabilidad. Por lo tanto, empleamos este modelo junto con el marco SHAP para proporcionar una mejor comprensión de las subestructuras potenciales de los antagonistas de AR. Como se ve en la Fig. 4C, D junto con la Tabla 5, seis de las veinte características informativas principales involucran cuatro que contienen nitrógeno (es decir, PubChemFP821, PubChemFP419, PubChemFP800 y PubChemFP338) y dos características aromáticas (es decir, PubChemFP797 y PubChemFP777). Esto indica que los compuestos con nitrógeno y características aromáticas representan subestructuras que tienen una gran influencia en el antagonismo de AR. Explorar más a fondo la descripción de las características de PubChem (Tabla 5), proporciona una idea de que las características que contienen nitrógeno pertenecen a norte-metilciclohexanamina y un grupo ciano. Estos andamios se observan como parte de una subestructura activa en los antagonistas AR ampliamente estudiados bicalutamida, apalutamida, enzalutamida y darolutamida donde el grupo ciano del resto benzonitrilo se ha identificado como una interacción clave involucrada en la unión de aminoácidos en el LBD [8]. Además, las fracciones heterocíclicas que contienen nitrógeno constituyen el 75 % de los medicamentos actualmente disponibles en el mercado aprobados por la FDA, ya que muestran perfiles farmacológicos anticancerígenos. [8, 64, 65].

Importancia de las características de DeepAR (A, B) y LGBM-PubChem (C, D) clasificados por valores SHAP basados en el conjunto de datos de entrenamiento. A, C Magnitud y dirección de la contribución de cada característica a la predicción del modelo de antagonistas AR. B, D Valores SHAP absolutos medios, donde los valores SHAP positivos y negativos influyen en las predicciones hacia muestras positivas y negativas, respectivamente
Aplicación de DeepAR para la identificación a gran escala de nuevos antagonistas de AR
En esta sección, empleamos DeepAR para calcular las probabilidades de 3811 compuestos con el fin de determinar los compuestos más potenciales que tienen actividad contra AR. La Tabla 6 enumera los diez compuestos principales con las puntuaciones de probabilidad más altas de ser antagonistas de AR, mientras que el Archivo adicional 1: la Fig. S4 muestra las estructuras de los compuestos. Además, realizamos acoplamiento molecular para discernir el modo de unión y las afinidades de unión de los compuestos. Como se mencionó anteriormente, el sitio AF2 ofrece un objetivo de unión alternativo y, por lo tanto, la estructura cristalina de AR con el antagonista unido al sitio AF2 alostérico (PDBID: 2YHD) se utilizó para el estudio de acoplamiento. La tabla 6 muestra que CHEMBL3233070, CHEMBL3238281 y CHEMBL3233072 lograron puntajes de acoplamiento similares de -6,8, -6,9 y -6,7 kcal/mol, respectivamente. Para ser específicos, los rangos (probabilidad, puntaje de acoplamiento) de los tres compuestos principales, CHEMBL3233070, CHEMBL3238281 y CHEMBL3233072 fueron (5, 2), (9, 1) y (10, 3), respectivamente. Por lo tanto, estos tres compuestos fueron elegidos para una mayor investigación.
La Figura 5 muestra la estructura proteica de AR con los tres compuestos principales (Archivo adicional 1: Fig. S5) según lo determinado por acoplamiento. Las poses de unión de los compuestos acoplados en el sitio de unión de AF2 estaban flanqueadas por residuos de H3, H5 y H12. Tras la unión del agonista o antagonista, H12 sufre un cambio conformacional que modula la activación de AR. El análisis estructural ha revelado el papel de los residuos clave (es decir, Val716, Lys720, Met734, Ile737, Gln738, Met894 y Glu897) implicados en la unión de proteínas coactivadoras que muestran unión diferencial cuando se unen al antagonista en comparación con el agonista. El cambio estructural de H12 es un factor clave que impide que el sitio AF2 se una a la proteína coactivadora [15]. La Figura 6 ilustra los residuos implicados en la realización de contactos polares e hidrofóbicos entre el sitio alostérico AF2 y los tres compuestos superiores. Como puede observarse en la Fig. 6A, C, E, los tres compuestos forman enlaces de hidrógeno con Lys720, Gln733 y Gln738 con la excepción de CHEMBL3238281 que tiene un enlace de hidrógeno extra con Val713. Además, se observaron interacciones hidrofóbicas con los residuos Val713, Val716, Met734 e Ile737 para los tres compuestos con la excepción de CHEMBL3233070 que no formó una interacción hidrofóbica con Val713. Curiosamente, Val713 no se había observado previamente como un residuo involucrado en interacciones hidrofóbicas con el coactivador o el ligando antagonista (estructura cocristalina) de la proteína AR. Por lo tanto, el contacto de los tres compuestos principales con estos residuos puede contribuir al efecto antagónico general.

Pose acoplada superpuesta de AR (PDB ID: 2HYD) y los tres compuestos principales con mayores probabilidades según lo medido por DeepAR donde los colores verde, naranja y magenta representan la columna vertebral de carbono de CHEMBL3238281, CHEMBL3233070 y CHEMBL3233072, respectivamente

Vistas de primer plano de las interacciones de unión y el diagrama de cascada SHAP correspondiente de AR-CHEMBL3238281 (A) y (B), AR-CHEMBL3233070 (C) y (D) y AR-CHEMBL3233072 (mi) y (F). Las interacciones hidrofóbicas y del enlace de hidrógeno se muestran con líneas rectas y punteadas, respectivamente, mientras que los valores SHAP se muestran en colores rojo (valor alto) y azul (valor bajo), lo que influye en las predicciones hacia muestras positivas y negativas, respectivamente.
Yendo un paso más allá, aplicamos la combinación de diagramas de cascada LGBM-PubChem y SHAP en los diez compuestos individuales principales para dilucidar sus características que rigen las subestructuras para ser antagonistas de AR (Fig. 6 y archivo adicional 1: Fig. S5). La figura 6B, D, F muestra los diagramas de cascada SHAP de los tres compuestos principales. La contribución de cada valor de entrada, ya sea positivo o negativo, se destaca a través del diagrama de cascada SHAP hacia la plausibilidad general de que un compuesto sea un antagonista de AR. Como se puede observar, las tres características principales (es decir, PubChemFP821, PubChemFP419 y PubChemFP800) estaban presentes en todos los tres compuestos principales con un valor SHAP alto (color rojo) para todos los compuestos. Es de destacar que las tres características principales presentes en todos los compuestos también demostraron ser las tres características principales en las veinte características informativas principales mencionadas anteriormente (Fig. 3). Esto indica que PubChemFP821, PubChemFP419 y PubChemFP800 podrían ser características importantes de la subestructura por ser antagonistas de AR y pertenecen a 2-metilciclohexano-1-amina, grupo ciano y 3-metilciclohexano-1-amina (Tabla 5), respectivamente, que se han discutido en la sección anterior.
Al profundizar en las características de los compuestos individuales para investigar las estructuras de andamiaje subyacentes, se puede observar que los tres compuestos tienen una columna vertebral de indolina-4-carbonitrilo y difieren solo en sus cadenas laterales (Archivo adicional 1: Fig. S4). El resto del anillo de indol que forma parte del norteLos heterocíclicos se encuentran comúnmente en el medio ambiente natural y se han utilizado como componentes estructurales de muchos fármacos terapéuticos para el tratamiento de infecciones microbianas, cánceres e inflamación. [65]. Además de las tres características principales, PubChem342, PubChem299 y PubChem328 son características únicas que contribuyen a CHEMBL3238281, CHEMBL3233070 y CHEMBL3233072 respectivamente. Junto con estos, PubChem259 y PubChem308 correspondientes a los anillos cíclicos y al grupo hidróxido (OH), respectivamente, fueron características significativas presentes en los compuestos. PubChem342 pertenece al flurometano que está directamente relacionado con el grupo trifluorometilo (CF3) visto en CHEMBL3238281. La característica principal que contribuye al análogo de trifluorometilo permite la formación de enlaces de hidrógeno con Val713 en el sitio AF2 que está ausente en las interacciones de los otros dos compuestos (Fig. 6A, C, E). El 20-25% de los fármacos contienen flúor ya sea por fluoración directa o por incorporación de grupos funcionales fluorados. Se ha demostrado que la existencia de flúor en estos fármacos influye en los enlaces de hidrógeno y en las interacciones electrostáticas de los ligandos unidos. [66, 67]. Además, los moduladores selectivos de los receptores de andrógenos no esteroideos (SARM, por sus siglas en inglés) como Enobosarm, contienen un grupo CF3 y han sido acelerados por la FDA para el tratamiento de pacientes con AR-positivo, ER-positivo y receptor 2 del factor de crecimiento epidérmico humano. Cáncer de mama metastásico (HER2) negativo, según los datos del ensayo clínico de fase 3 ARTEST [68]. Además, la influencia del trifluorometilo puede deberse a su fuerte propiedad de extracción de electrones. [69,70,71].
La función PubChem299 corresponde a N–H, que es parte del anillo heterocíclico de pirrol que forma la subestructura de indol de CHEMBL3233070 (Archivo adicional 1: Fig. S4). Curiosamente, la fracción pirrol está presente en varios compuestos activos que exhiben propiedades anticancerígenas, antibacterianas, antiinflamatorias y antihipertensivas. [72]. Numerosas investigaciones sobre el potencial del pirrol y sus derivados como un andamio altamente activo se han explorado previamente. [73,74,75]. Además, estudios recientes relacionados con compuestos modificados con pirrol-imidazol han demostrado potencia contra los cánceres de próstata resistentes a la castración que se desarrollan a través de la resistencia a la terapia de depleción de andrógenos [76] y cánceres de próstata resistentes a la enzalutamida activados por un receptor hormonal nuclear alternativo como GR [77]. Por lo tanto, los compuestos que contienen esta subestructura privilegiada son prometedores para futuras investigaciones.
PubChem328 corresponde al bromuro de isopropilo que es un hidrocarburo halogenado. CHEMBL3233072 tiene un sustituyente de bromo como parte de su molécula. Aunque el sustituyente Br no interactúa directamente con los residuos en el bolsillo de unión de AF2 (Fig. 6E), todavía podría contribuir a través de contribuciones de parámetros atómicos (es decir, interacciones electrostáticas o de Van der Waals). Además, se demostró que la presencia de compuestos sustituidos con halógeno (Cl, F y Br) tiene una notable actividad inhibidora en comparación con los sustituyentes donantes de electrones, como se deduce de los estudios SAR. [78, 79]. Curiosamente, varias investigaciones han indicado la potencia de los derivados de moléculas pequeñas bromadas que han mostrado actividad anticancerígena hacia las células de cáncer de próstata y de mama sin mostrar ningún efecto viable sobre las células no cancerosas. [80,81,82]. Por lo tanto, los compuestos halogenados justifican una mayor investigación por su papel como posibles inhibidores de AR. En conjunto, el análisis de la importancia de las características basado en SHAP y sus contribuciones hacia los antagonistas de AR candidatos predichos por nuestro marco propuesto, brindan información útil sobre el diseño y desarrollo adicional de antagonistas de AR.
Servidor web DeepAR
En este documento, se ha construido un servidor web para nuestro modelo DeepAR propuesto para proporcionar a la comunidad científica una herramienta práctica que puede usarse ampliamente para realizar una identificación de alto rendimiento de los antagonistas de AR de manera económica. Precisamente, el compuesto químico de interés se ingresa como una notación SMILES en el servidor web DeepAR, después de lo cual se obtienen los resultados de la predicción. Una guía paso a paso sobre el uso del servidor web está disponible para su acceso en http://pmlabstack.pythonanywhere.com/about_DeepAR. Este servidor web fácil de usar está disponible en http://pmlabstack.pythonanywhere.com/DeepAR.