MORTAR: una aplicación de cliente enriquecido para la fragmentación de moléculas in silico | Revista de quimioinformática

MORTAR tiene como objetivo respaldar los flujos de trabajo para la fragmentación molecular in silico y el análisis de subestructuras, así como el desarrollo de nuevos métodos de fragmentación. La aplicación de cliente enriquecido de Java proporciona una interfaz gráfica de usuario para visualizar los resultados de fragmentación de compuestos moleculares individuales o conjuntos completos de moléculas. Admite realizar la fragmentación con un solo algoritmo de fragmentación o con una canalización que puede ser cualquier combinación de los algoritmos de fragmentación integrados. Además, MORTAR permite la integración directa de métodos adicionales de análisis de fragmentación y subestructura.

Pestaña de importación y moléculas

Se pueden importar compuestos moleculares individuales o conjuntos de moléculas a MORTAR desde varios formatos de archivo. Archivos de texto que contienen códigos SMILES y archivos de datos de estructura (SDF) [45] se puede utilizar para importar conjuntos de moléculas. Los compuestos moleculares individuales se pueden leer como Molfiles, donde se admiten V2000 y V3000 [45].

La Figura 3 representa el MORTERO Moléculas pestaña que muestra las estructuras de la base de datos de productos naturales COCO importada de un archivo SMILES. Se pueden explorar con una herramienta de paginación y ordenar por nombre en la tabla. Además, las moléculas se pueden seleccionar o deseleccionar para fragmentación.

Fig. 3
figura 3

Moléculas pestaña que muestra moléculas importadas de la base de datos COCONUT. La paginación permite navegar por todo el conjunto de datos importados. El trabajo de fragmentación con el algoritmo seleccionado (en este caso, el algoritmo Ertl para la identificación de grupos funcionales) se puede iniciar con el botón en la parte inferior izquierda

Se puede iniciar un único proceso de fragmentación con un algoritmo de fragmentación seleccionado con el botón en la esquina inferior izquierda. Está etiquetado con el algoritmo de fragmentación seleccionado, que se puede cambiar en un menú respectivo. El algoritmo Ertl para la detección de grupos funcionales se selecciona para el proceso de fragmentación en la Fig. 3. En su implementación MORTAR, devuelve los grupos funcionales identificados y los restos de alcanos resultantes como fragmentos de forma predeterminada.

La configuración de los algoritmos de fragmentación individuales y la aplicación MORTAR en general se pueden ajustar a través de diálogos separados (ver Figs. 4 y 2). La vista para la configuración de los algoritmos se amplía automáticamente para un nuevo algoritmo cuando se integra. Todos los ajustes se vuelven persistentes mediante archivos de texto basados ​​en líneas.

Figura 4
Figura 4

Diálogo para preferencias generales de MORTERO. Además de los ajustes para la GUI, como el número de moléculas por página, también se pueden realizar ajustes para importar conjuntos de moléculas y exportar resultados.

Resultados de fragmentación

Se abren dos nuevas pestañas cuando se completa un trabajo de fragmentación: Fragmentos pestaña y Elementos pestaña. Si se ejecutan varios trabajos de forma consecutiva, las dos pestañas de resultados se generan para cada uno de ellos y permanecen abiertas. El contenido de las vistas de resultados se puede exportar como archivo PDF o como archivo de texto en formato CSV. El archivo PDF contiene las estructuras 2D además de la información que se muestra como texto. Los fragmentos resultantes se pueden exportar como archivos SD, Mol o PDB. La biblioteca librepdf versión 1.3.26 [46] se utiliza para la exportación de PDF.

Pestaña Fragmentos

Él Fragmentos La pestaña visualiza los fragmentos resultantes. Similar a Moléculas pestaña, los fragmentos resultantes se muestran en varias páginas. Además de la representación SMILES y la estructura 2D de cada fragmento, una columna muestra una molécula original seleccionada al azar del fragmento correspondiente (ver Fig. 5). Él Frecuencia columna indica con qué frecuencia aparece el fragmento correspondiente en el conjunto fragmentado de moléculas. La columna Frecuencia de la molécula contiene el número de moléculas en las que aparece este fragmento. En la Fig. 5 se muestran los cinco fragmentos más frecuentes (grupos funcionales y remanentes de alcanos) resultantes del análisis del algoritmo Ertl de la base de datos de productos naturales COCONUT. El fragmento más frecuente es un grupo hidroxi conectado a un átomo de carbono alifático. Casi con la misma frecuencia, se detectó un solo átomo de carbono alifático o un grupo metilo, seguido de un grupo éter que es solo la mitad de frecuente. En cuarto lugar, existe un grupo hidroxi unido a un átomo de carbono aromático, ya que resulta, entre otros, de un fenol (el carácter aromático del átomo de carbono unido se indica en la representación SMILES del grupo, “[H]Oc”, mediante notación de letras minúsculas; esto corresponde a la representación del fragmento donde el átomo de carbono no está completamente saturado con átomos de hidrógeno). El quinto FG más frecuente es un grupo alqueno que aparece 165.396 veces. Los fragmentos se clasifican según su frecuencia absoluta en la Fig. 5. Si se clasificaran según su frecuencia molecular, la clasificación sería diferente con el grupo metilo en la parte superior. El número comparativamente alto de grupos hidroxi detectados en números absolutos en comparación con la frecuencia de la molécula significa que los productos naturales suelen tener múltiples sustituyentes de este tipo (3,3 en promedio, dividiendo la frecuencia por la frecuencia de la molécula). Un tipo de estructura que puede ser responsable de esta tendencia son los restos glucosídicos que se encuentran con frecuencia en los productos naturales. [30]. Los resultados de este análisis de prueba de concepto utilizando MORTAR concuerdan en general con un estudio sistemático análogo de frecuencias de grupos funcionales en productos naturales realizado por Ertl et al. [28].

Figura 5
Figura 5

Fragmentos pestaña con el grupo funcional generado y los fragmentos de alcanos de la base de datos COCONUT ordenados en orden descendente de frecuencia

Elementos pestaña

Él Elementos La pestaña también visualiza los resultados de un proceso de fragmentación. Aquí, sin embargo, los fragmentos se asignan a sus moléculas individuales del conjunto importado originalmente. Cada molécula se muestra con su nombre, su estructura 2D y las estructuras 2D de sus fragmentos, incluidas las frecuencias de aparición del fragmento respectivo en esta molécula (ver Fig. 6).

Figura 6
figura 6

Elementos pestaña con cinco moléculas de la base de datos COCONUT fragmentadas con ErtlFunctionalGroupsFinder y los fragmentos correspondientes incluyendo sus frecuencias en la molécula

Canalización

Además de ejecutar un único método de fragmentación, MORTAR ofrece la opción de ejecutar canalizaciones de fragmentación, que se pueden definir y ejecutar con cualquier combinación de los algoritmos de fragmentación integrados, donde cada algoritmo seleccionado puede tener su propia configuración individual. Él Configuración de canalización view (ver Fig. 7) proporciona una forma sencilla de crear una canalización agregando nuevos métodos a través de botones y cuadros de elección. Un ejemplo de aplicación simple de la funcionalidad de canalización es aplicar un paso de procesamiento de la Utilidad de eliminación de azúcar (SRU) para eliminar los restos glucosídicos terminales de las moléculas estudiadas, como suele hacerse en los análisis de espacio químico antes de otro paso de fragmentación para evitar redundancias.

Figura 7
figura 7

La vista de configuración de canalización muestra una canalización denominada «Pipeline» con tres métodos: primero, Sugar Removal Utility, segundo, Scaffold Generator y ErtlFunctionalGroupsFinder (algoritmo Ertl) como paso final. Los botones de engranaje a la derecha se pueden usar para ajustar la configuración de cada algoritmo. El más agrega otro paso del algoritmo y el menos elimina el último. La fragmentación se puede iniciar mediante el Fragmento botón

Un estudio de ejemplo más sofisticado para la funcionalidad de canalización de MORTAR está inspirado en el trabajo reciente de Peter Ertl para identificar los sustituyentes más comunes en productos naturales. [47]. Aquí, las estructuras de NP se desglicosilaron primero y los sustituyentes (anillo) se extrajeron recursivamente. Para configurar una tubería similar en MORTAR, el primer paso debe ser un procesamiento de la utilidad de eliminación de azúcar configurado para devolver solo agliconas de estructuras de entrada. El segundo paso sería una fragmentación de Scaffold Generator que solo devuelve cadenas laterales. Actualmente, MORTAR no incluye una fragmentación recursiva de las cadenas laterales, pero para fines de demostración, se puede elegir un procesamiento de algoritmo Ertl para extraer grupos funcionales de ellas. Esta canalización se muestra en la Fig. 7 y se describe con más detalle en el tutorial de MORTAR que se puede encontrar en GitHub [48]. La Figura 8 muestra los cinco grupos funcionales más frecuentes que resultan cuando esta tubería se aplica a las estructuras de productos naturales extraídas del COCO. El grupo funcional más frecuente identificado en las cadenas laterales del anillo es un éter o un grupo hidroxi (ambos pertenecen al mismo grupo porque los enlaces a los átomos del anillo se cortan sin preservar ninguna información). A continuación se muestra un grupo hidroxi conectado a un átomo de carbono alifático. en el representado Padre de muestra estructura en la fila 2, este grupo resulta del grupo éter que conecta la cadena lateral con el anillo. Cuando se escinde y se satura con hidrógeno, resulta un grupo hidroxi. El tercer grupo funcional es una funcionalidad de ácido carboxílico. La funcionalidad alqueno se identifica como el cuarto sustituyente frecuente, seguido de la funcionalidad éster.

Figura 8
figura 8

Fragmentos Pestaña que muestra los resultados del enfoque de fragmentación de tuberías desde arriba (ver Fig. 7). Los resultados de un enfoque de tubería se presentan de la misma manera que una fragmentación con un solo algoritmo

Vista de histograma

Para obtener una visión general de las frecuencias de los fragmentos, se puede crear un histograma con ambos tipos de frecuencia: la Frecuencia, que indica con qué frecuencia aparece el fragmento respectivo en el conjunto fragmentado de moléculas, o la Frecuencia de la molécula, que indica el número de moléculas en que se produce un fragmento. La Figura 9 muestra una vista de histograma de MORTAR de los diez fragmentos más frecuentes de la base de datos COCONUT fragmentada con ErtlFunctionalGroupsFinder en la configuración predeterminada (compárese con la Fig. 5). Los fragmentos se ordenan según sus frecuencias absolutas y también se pueden mostrar como una imagen de estructura 2D al pasar el cursor sobre la barra del fragmento deseado. La imagen de la estructura del fragmento se muestra en la esquina inferior derecha del histograma.

Figura 9
figura 9

Histograma de los diez grupos funcionales y remanentes de alcanos más frecuentes encontrados en COCO por ErtlFunctionalGroupsFinder. Se muestra la frecuencia absoluta de los fragmentos en el conjunto de fragmentos resultante

Rendimiento

Se realizaron instantáneas de rendimiento de MORTAR para diferentes procesos de fragmentación en dos sistemas de hardware diferentes. Para ello, en primer lugar se utilizó la base de datos COCONUT completa. El algoritmo de fragmentación empleado para la primera instantánea fue ErtlFunctionalGroupsFinder con la configuración predeterminada. En un portátil estándar con ocho núcleos de una CPU Intel(R) Core(TM) i7-8750H [49] y asignando 20 GB de memoria a la JVM, MORTAR tardó 100 segundos en descomponer las 406 747 moléculas de la base de datos COCONUT importadas como códigos SMILES en 35 791 fragmentos y postprocesarlos. En la misma máquina con la misma configuración, MORTAR necesitó 154 s para descomponer la base de datos COCONUT utilizando la Utilidad de eliminación de azúcar con la configuración predeterminada. Uso del generador de andamios (Configuración del tipo de fragmentación ajustado a ANDAMIO_SOLO, es decir, generar el andamiaje molecular de una estructura pero no diseccionarlo más; configuración predeterminada para el resto) con ocho núcleos en la máquina descrita anteriormente, MORTAR tardó 64 s en procesar COCONUT.

Uso de 12 núcleos de una CPU de estación de trabajo Intel(R) Xeon(R) Gold Processor 6254 [50] y 250 GB de memoria para la JVM dieron como resultado un tiempo de cálculo de 229 s para fragmentar las 2 136 187 moléculas de la base de datos ChEMBL30 [51, 52] en 62 722 fragmentos distintos utilizando ErtlFunctionalGroupsFinder con la configuración predeterminada. Con más de 24 subprocesos paralelizados, no se pudo lograr un mayor aumento del rendimiento.

Fuente del artículo

Deja un comentario