Generador de andamios: una biblioteca de Java que implementa funcionalidades de andamios moleculares en el kit de desarrollo de química (CDK) | Revista de quimioinformática

La biblioteca Scaffold Generator se implementó en la versión 17 de Java y se basa en el kit de desarrollo de química (CDK) versión 2.8. El código fuente disponible abiertamente se puede encontrar en GitHub: https://github.com/Julian-Z98/ScaffoldGenerator. Con Scaffold Generator, se pueden extraer diferentes representaciones de andamios de moléculas dadas, diseccionarlas en andamios principales de múltiples maneras y organizarlas en árboles y redes de andamios. Estos se pueden visualizar usando la biblioteca GraphStream versión 2.0 [53, 54].

Funcionalidades disponibles

Tipos de andamios

Las moléculas se pasan a Scaffold Generator como instancias que implementan la representación central de la estructura molecular de CDK, la IAtomContainer interfaz [55]. A partir de estos, se pueden extraer andamios moleculares de acuerdo con las diferentes definiciones de andamios disponibles. Estos incluyen el marco Murcko y la definición de scaffold utilizada en la mayoría de los enfoques establecidos, como HierS o el árbol de scaffold. Se basa en los marcos de Murcko, pero además incluye todos los átomos conectados al anillo o átomos enlazadores a través de dobles enlaces. [7, 10]. En Scaffold Generator, esto se ha extendido a todos los átomos conectados mediante enlaces no simples a átomos cíclicos o enlazadores. Los órdenes de enlace superiores a 2 se consideran raros en tales configuraciones, pero influyen en la hibridación y la configuración estructural del andamio tan fuertemente como los dobles enlaces exocíclicos o exoenlazadores. Otro aspecto crucial a considerar aquí es la accesibilidad sintética de los andamios representados que está significativamente influenciada por la presencia o ausencia de enlaces múltiples exocíclicos o exoenlazadores. Además, en Scaffold Generator están disponibles otras dos representaciones abstractas de andamios tomadas de Molecular Anatomy: estructura básica y estructura alámbrica básica [26]. También se han descrito definiciones de andamios abstractos similares en trabajos anteriores, como el marco gráfico de Bemis y Murcko (análogo al marco básico) o el sistema cíclico de arilo de Xu y Johnson (análogo al marco básico), pero el nombre se eligió aquí en analogía con la anatomía molecular. Un quinto tipo de andamio se denominó análogamente estructura metálica elemental. Aquí, todos los enlaces se resumen en enlaces simples, pero se conservan los heteroátomos (Fig. 1). Para la creación de andamios de todo tipo, el CDK MurckoFragmentador clase [52] se utiliza internamente y la estructura de Murcko extraída se procesa posteriormente de acuerdo con el tipo de andamio elegido, si es necesario. Si una estructura molecular dada no tiene anillos, no se puede extraer ningún andamio y un vacío IAtomContainer se devuelve la instancia.

Figura 1
Figura 1

Diferentes tipos de andamios disponibles en Scaffold Generator. A Estructura inalterada del agente antibiótico flucloxacilina (PubChem CID 21319). B Estructura de Murcko de flucloxacilina. C Andamio de flucloxacilina. D Estructura alámbrica elemental de flucloxacilina. mi Marco básico de la flucloxacilina. F Wireframe básico de flucloxacilina

Otra funcionalidad de Scaffold Generator es devolver los componentes básicos de los andamios, es decir, anillos y conectores, por separado. Las cadenas laterales terminales excluidas de la estructura del andamio también se pueden extraer (Fig. 2).

Figura 2
Figura 2

Disección de andamios en bloques de construcción. A Flucloxacilina con su marco de Murcko marcado en azul. B Anillos de flucloxacilina marcados en azul. Es importante señalar que el sistema de anillos fusionados de la derecha se dividiría en sus dos anillos constituyentes en el conjunto de estructuras devuelto por la rutina descrita de Scaffold Generator. C Enlazadores de flucloxacilina marcados en azul. D Cadenas laterales terminales de flucloxacilina marcadas en azul

Detección de timbre

Scaffold Generator disecciona los sistemas de anillos fusionados, es decir, anillos que comparten enlaces o átomos, en sus anillos separados constituyentes. Este es el caso no solo cuando se devuelven bloques de construcción de andamios, sino también para la generación de andamios principales (ver más abajo). Internamente, el CDK Ciclos.relevante El algoritmo del buscador de ciclos se emplea para la detección de anillos. Este algoritmo detecta la unión lógica de todos los conjuntos más pequeños de anillos más pequeños (SSSR, también base de ciclo mínimo, MCB) en la molécula dada [56, 57]. De esta forma, los sistemas de anillos fusionados no se detectan como una sola entidad, sino que sus ciclos constituyentes se detectan por separado. los Ciclos.relevante Se eligió el buscador de ciclos para que Scaffold Generator esté de acuerdo con la implementación original del árbol de andamios [7]. Pero en casos raros, este algoritmo de detección de ciclos identifica demasiados anillos en una molécula dada, definidos como más anillos que átomos en la estructura. Un ejemplo es el producto natural (NP) CNP0103752, tomado del COCO [58] base de datos (Fig. 3). Dado que el anillo superior que conecta los 11 anillos glucosídicos en la estructura se puede detectar en muchos caminos diferentes, Ciclos.relevante detecta 2059 anillos aquí. En casos como este, es decir, se detectan más anillos que átomos en la molécula, Scaffold Generator utiliza el algoritmo Ciclos.mcb en cambio, que identifica un solo conjunto de SSSR/MCB en lugar de la unión lógica de todos los posibles [56, 57]. En CNP0103752, detecta un número más útil para esta aplicación de 12 ciclos.

Fig. 3
figura 3

Anillos de CNP0103752 extraídos de COCO. El CDK Ciclos.relevante algoritmo identifica 2059 anillos aquí mientras Ciclos.mcb detecta 12

Eliminación del anillo

En las rutinas de generación de andamios principales (ver a continuación), solo los anillos que se adhieren a un conjunto de criterios se consideran para la eliminación en los pasos de disección individuales. El primer requisito es que un anillo debe ser terminal, es decir, su extracción no debe dar como resultado una estructura de andamio desconectada. Esto se verifica internamente eliminando todos los átomos y enlaces que constituyen el anillo respectivo del andamio, descartando las posibles cadenas laterales que estaban conectadas a él, por ejemplo, cuando se usa la definición estructural del andamio, y evaluando si la estructura no consta de múltiples partes desconectadas posteriormente. . Si lo hace, el anillo en cuestión no se considera terminal y, por lo tanto, no se puede quitar. Esta rutina de verificar los anillos terminales tiene dos consecuencias principales: los anillos internos que podrían eliminarse sin dar como resultado una estructura desconectada al convertir algunos de sus átomos y enlaces en estructuras enlazadoras todavía no se consideran terminales (Fig. 4a). En segundo lugar, la eliminación de anillos de un andamio no puede dar como resultado un sistema de anillos espiro creado artificialmente en Scaffold Generator (Fig. 4b). Dichos casos se describen en la publicación original del árbol de andamios. [7] y la quinta regla de priorización está destinada a prevenirlos si otros anillos pueden eliminarse primero. Pero son posibles en general y aparecerían en un conjunto de todos los andamios principales posibles. Debido a que la conversión de átomos de anillo en átomos enlazadores y la creación artificial de sistemas de anillo espiro no son químicamente intuitivas cuando se generan andamios principales, estas posibilidades han sido excluidas en Scaffold Generator.

Figura 4
Figura 4

Andamios padre imposibles en Scaffold Generator. A El dodecahidro-s-indaceno (PubChem CID 13214318), que representa un andamio de ejemplo, no se puede diseccionar de una manera que convierta los átomos del anillo anterior en átomos enlazadores en el andamio principal creado. B triciclo[7.2.1.01,6]dodecano (PubChem CID 12,758,808) que representa un andamio de ejemplo no se puede diseccionar de una manera que cree un andamio principal con un sistema de anillo espiro que no estaba allí en la molécula antes

Otro requisito para considerar la eliminación de un anillo es que debe contener al menos un átomo que no sea parte de otro anillo también. Este criterio se adopta de la publicación original del árbol de andamios. [7]. Aquí, los autores lo explican con el ejemplo del adamantano. Usando un algoritmo de detección de anillos que identifica la unión lógica de todos los SSSR en una estructura, aquí se identifican cuatro anillos y ningún átomo es parte de uno solo de ellos (comparar Schuffenhauer et al. [7] Esquema 2). Por lo tanto, la eliminación de un anillo no es posible porque sus átomos y enlaces que forman parte de otros anillos generalmente se conservan en las rutinas de eliminación de anillos del Generador de andamios. Por lo tanto, las estructuras como el adamantano no se diseccionan en absoluto.

Un caso similar de estructuras que no se pueden diseccionar son los sistemas aromáticos fusionados específicos, es decir, anillos aromáticos que comparten el mismo átomo con al menos otros dos anillos. Al eliminar un anillo aromático que comparte un enlace con otro anillo, Scaffold Generator convierte el enlace compartido en un enlace doble para preservar la hibridación correcta de los átomos anteriormente compartidos en el anillo restante. En arreglos donde el anillo aromático a eliminar comparte un átomo con al menos otros dos anillos, esta inserción de doble enlace no es posible sin violar las reglas de valencia. Tales estructuras no se diseccionan como consecuencia. Este comportamiento sigue el algoritmo de eliminación de anillos descrito en la publicación original del árbol de andamios (comparar Schuffenhauer et al. [7] Esquema 3). Pero Scaffold Generator hace una adición aquí: en el árbol de andamios original, esta inserción de doble enlace solo se realiza si un anillo aromático se fusiona con un anillo no aromático y se elimina el anillo aromático. En Scaffold Generator, también se hace si el anillo restante también es aromático. Esta adición se ha realizado para preservar las hibridaciones y la aromaticidad en el anillo restante y para garantizar que los sistemas de anillos aromáticos, si se pueden diseccionar, se descomponen en andamios principales que siempre se pueden representar como estructuras contribuyentes válidas (a diferencia de los híbridos de resonancia). Como consecuencia, Scaffold Generator no disecciona la mayoría de los sistemas de anillos aromáticos fusionados, por ejemplo, pireno. En estos sistemas, la mayoría de los anillos no se pueden eliminar sin alterar las hibridaciones y los órdenes de enlace en los restantes. Y dado que una disección parcial no parece razonable porque no produciría andamiajes parentales significativos, estas estructuras no se diseccionan en absoluto. Una posible extensión futura de Scaffold Generator podría ser una rutina que extraiga andamios originales significativos de sistemas aromáticos fusionados, por ejemplo, un anillo de benceno como andamio raíz de pireno y estructuras similares.

Otro sistema especialmente tratado son los anillos de tamaño tres que contienen un heteroátomo que comparte el enlace opuesto al heteroátomo con otro anillo (Fig. 5). Cuando se eliminan anillos como este, el enlace compartido se convierte en un enlace doble para producir la estructura precursora a la que probablemente se agregó el heteroátomo. Este caso especial se describe en la regla de priorización de la eliminación del primer anillo de Schuffenhauer et al. [7] pero es parte de la rutina general de remoción de anillos de Scaffold Generator. Esta desviación de la implementación original no influye en la generación de andamios principales de acuerdo con las reglas de priorización del árbol de andamios, pero es importante tenerla en cuenta para la generación enumerativa de todos los andamios principales posibles (consulte a continuación).

Figura 5
Figura 5

Eliminación de heterociclos de 3 miembros. Si el anillo de oxirano marcado en azul se elimina de himeyoshin (COCO CNP0151718) durante la generación del andamio principal, el enlace compartido con el anillo de ciclohexanona se convierte en un doble enlace

Andamios árboles y redes

Usando Scaffold Generator, los andamios moleculares extraídos se pueden diseccionar de diferentes maneras. El primero, como se describió anteriormente, es descomponerlo en los bloques de construcción que lo constituyen, es decir, anillos y enlazadores. Otra opción es la eliminación enumerativa que genera todos los andamios principales posibles. En cada paso de iteración, cada anillo que cumple con los criterios enumerados anteriormente se elimina por separado para producir el andamio principal resultante. Esto se repite hasta que solo quedan andamios de un solo anillo, o ya no se puede quitar ningún anillo. Estos andamios finales se denominan andamios raíz. Todos los andamios principales generados son subestructuras del andamio original. En la Fig. 6 se muestra un ejemplo de eliminación enumerativa. Esta rutina se puede aplicar a una molécula dada y devuelve una lista con todos los andamios principales posibles más el andamio original de la molécula. Los andamios principales generados varias veces en la eliminación enumerativa se devuelven solo una vez. Esta rutina de disección de andamios es la base para generar redes de andamios. El resultado de la disección de una sola molécula ya se puede representar como una red de andamios devolviéndolo como la estructura de datos correspondiente en lugar de una lista.

Figura 6
figura 6

Generación de andamios parentales enumerativos de flucloxacilina. Representación conceptual de la rutina de generación de andamiaje padre enumerativo aplicada al andamio de flucloxacilina (a la izquierda). Se crean todos los andamios principales posibles que se pueden crear a través de la eliminación de un anillo terminal. Marcadas en azul están todas las estructuras devueltas por la rutina, lo que indica que las estructuras que ocurren varias veces aún se devuelven solo una vez.

Scaffold Generator implementa las 13 reglas de priorización química que se aplican en la publicación original del árbol de andamios para seleccionar específicamente solo un andamio principal en cada paso de disección de andamios [7]. En principio, estas reglas se aplican para seleccionar solo una ruta de eliminación de anillos de todas las posibles que se persiguen en la eliminación enumerativa (compárese con la Fig. 6). Solo se han realizado algunos cambios menores a las reglas originales y las rutinas subyacentes, como se informó anteriormente. Además, la regla final de desempate se ha adaptado para usar representaciones únicas de SMILES [59, 60] como producido por el CDK, en lugar de los canónicos. A partir de una estructura molecular dada, Scaffold Generator puede generar una lista de todos los andamios principales resultantes de la rutina de disección de Schuffenhauer, más el andamio original (Fig. 7). Produce las estructuras que se pueden usar para construir un árbol de andamios en el segundo paso. Al igual que con las redes de andamios, también se puede construir un árbol de andamios a partir de una sola molécula.

Figura 7
figura 7

Generación de andamio padre de Schuffenhauer de flucloxacilina. Representación conceptual de la rutina de generación del andamio principal empleando las reglas de priorización de Schuffenhauer aplicadas al andamio de flucloxacilina (a la izquierda). Las reglas se utilizan para seleccionar solo un andamio principal de todos los posibles en cada paso de disección.

La funcionalidad principal de Scaffold Generator es la construcción de árboles y redes de andamios a partir de colecciones de moléculas dadas (Fig. 8). En el primer paso, la primera molécula de la colección dada se disecciona en sus andamios principales y el resultado se usa para construir el punto de partida de la estructura deseada. Una por una, las moléculas restantes también se descomponen y sus andamios originales y los andamios principales se agregan al árbol o red si aún no forman parte de él. Scaffold Generator implementa estructuras de datos que administran los nodos de gráficos que representan andamios y sus conexiones padre-hijo como bordes en árboles y redes de andamios. Ambos gráficos se subdividen en niveles con los andamios raíz en el nivel 0 y sus andamios secundarios en los niveles consecutivos. Las hojas están formadas por los andamios originales de las moléculas dadas. Pero es importante tener en cuenta que los niveles más bajos hasta las raíces también pueden contener andamios originales, por ejemplo, cuando las moléculas de un solo anillo son parte del conjunto molecular dado. Las rutinas de fusión que se emplean en la construcción de un árbol o red para agregarle más andamios también son accesibles después de que se hayan devuelto las estructuras finales.

Figura 8
figura 8

Red de andamios y árbol representados con la visualización GraphStream del generador de andamios. La red de andamios (a) y árbol de andamio (b) de diazepam (PubChem CID 3016) (1), bromazepam (PubChem CID 2441) (2) y zolazepam (PubChem CID 35775) (3) se muestran uno al lado del otro para una comparación directa (estructuras originales marcadas en azul). Los tres compuestos son diazepinenonas, una clase de ansiolíticos. El árbol de andamiaje identifica correctamente el anillo de diazepinenona como andamio de raíz de las tres estructuras. Pero la red de andamios también revela que el diazepam (1) comparte andamios principales de dos anillos con las otras estructuras, respectivamente. También muestra que el anillo de benceno es compartido por los tres compuestos también.

El árbol de andamios y las estructuras de red difieren en algunos aspectos: En los árboles de andamios, cada nodo tiene solo un nodo principal. Esto resulta de la disección del andamio de Schuffenhauer donde un andamio produce solo un andamio principal en cada paso. En las redes de andamios, por otro lado, un nodo puede tener varios padres, ya que un andamio generalmente produce varios andamios de padres en cada paso durante la eliminación enumerativa.

Otro aspecto distintivo de los árboles de andamios es que solo aquellas moléculas con sus andamios originales y sus andamios principales pueden combinarse en un árbol que comparte el mismo andamio raíz. Este es el andamio (generalmente un andamio de un solo anillo) que resulta como andamio principal en el paso final de la disección de Schuffenhauer. Está inequívocamente determinado por las reglas de priorización. Scaffold Generator compila los andamios generados de múltiples moléculas en una instancia de árbol de andamios si tienen el mismo andamio raíz. Si se proporcionan moléculas con andamios raíz diferentes en el conjunto de moléculas, se crearán varias instancias de árboles de andamios y se devolverán en una lista, denominada bosque de andamios en la nomenclatura de Scaffold Generator. En la construcción de redes de andamios, solo se necesita compartir un andamio principal, es decir, al menos un anillo, entre dos moléculas para poder combinarlas en una red. Pero la estructura de datos de la red de andamios de Scaffold Generator también es capaz de manejar múltiples gráficos desconectados de andamios en una instancia, a diferencia del árbol de andamios. estructura.

Las estructuras de datos de árbol y red pueden generar una representación de matriz de adyacencia de sí mismos que se puede utilizar para exportar o visualizar. Scaffold Generator ofrece una funcionalidad de visualización inicial para árboles y redes de andamios basada en la biblioteca GraphStream. Las dos estructuras se pueden visualizar como gráficos en una ventana de la aplicación Java Swing. Un algoritmo de diseño intenta colocar los nodos y los bordes de la forma más legible posible, pero se pueden realizar modificaciones en el diseño arrastrando los nodos. La pantalla también se puede acercar y mover mediante comandos de teclado. Algunas figuras de esta publicación se han creado usando la pantalla GraphStream del generador de andamios (Figs. 8 y 9). Si bien esta visualización fue útil durante el proceso de desarrollo para la inspección visual y la depuración, no se considera lo suficientemente poderosa para los casos de uso del mundo real y lo más probable es que no sea parte de una integración de CDK de Scaffold Generator. Una herramienta de visualización de la jerarquía de andamios que pudiera surgir de Scaffold Generator como un proyecto separado tendría que ser muy interactiva, es decir, que se pueda ampliar, arrastrar y contraer. Especialmente las redes de andamios tienden a crecer muy rápido con el número de moléculas incluidas. Por lo tanto, su visualización debe limitarse de manera integral, por ejemplo, solo visualizando islas de andamios activos como proponen Varin et al. [9]. Los árboles de andamio también pueden volverse grandes, pero tienen la ventaja de que uno puede mirar solo un árbol fuera del bosque a la vez, ya que están desconectados.

Figura 9
figura 9

Árbol de andamios con consideración de estereoquímica activada. El árbol Scaffold de (+)-talidomida (PubChem CID 75792, a la izquierda) y (-)-talidomida (PubChem CID 92142, a la derecha) con consideración de estereoquímica activada se muestra en la pantalla Scaffold Generator GraphStream. Si se desactivara la consideración de la estereoquímica en la construcción de árboles, ambos compuestos también compartirían el mismo andamio de dos anillos.

Cuando se construye un árbol o una red, un paso crucial es averiguar si un andamio ya forma parte de él. Este emparejamiento se realiza utilizando representaciones SMILES de los andamios. La configuración predeterminada es usar SMILES únicos con codificación de aromaticidad pero sin información estereoquímica. Esto se puede ajustar, por ejemplo, para incluir estereoquímica. Scaffold Generator generalmente retiene la información estereoquímica dada durante la creación y disección del andamio al transferir el CDK IStereoElement [61] objetos a las estructuras recién creadas. Pero esto solo funciona si todos los elementos que definen un grupo estéreo, es decir, átomos y/o enlaces, aún están presentes en las subestructuras generadas. Dado que en la mayoría de los casos las cadenas laterales definen la estereoquímica y la información estereoquímica a menudo no se proporciona o está incompleta en los conjuntos de datos moleculares, la consideración de la información estereoquímica dada en la construcción de árboles o redes se desactiva de forma predeterminada como se indicó anteriormente. Pero se puede habilitar para casos de uso donde sea relevante (Fig. 9). Otras características moleculares que generalmente se pueden tener en cuenta o no (según el caso de uso específico) para la determinación de la equivalencia entre dos estructuras en análisis quimioinformático son las formas tautoméricas o los estados de protonación, por ejemplo. La estandarización de estas estructuras, si es necesario, debe realizarse en un protocolo de conservación de datos que se aplica a las estructuras de entrada antes de pasarlas a Scaffold Generator.

Las instancias que representan nodos de andamios en los árboles y redes contienen información estructural sobre su andamio y tienen referencias a sus padres en las jerarquías. Además, conservan códigos SMILES de sus moléculas de origen, es decir, estructuras del conjunto de datos que poseen el andamiaje respectivo. Estos orígenes se subdividen en virtuales y no virtuales. Las moléculas de origen no virtual son aquellas que tienen el andamio del nodo como su andamio original, por ejemplo, su estructura de Murcko. Los orígenes virtuales, por otro lado, son moléculas que generan el andamiaje respectivo solo a través de la disección enumerativa o de Schuffenhauer, es decir, es uno de sus andamios originales. Este concepto ha sido introducido en Scaffold Generator basado en la definición de andamios virtuales descrita en la literatura. [29, 30]. Este término denota andamios que no están directamente en el conjunto de datos, sino que solo se identifican cuando se generan los andamios principales. Si un nodo de andamio solo tiene orígenes virtuales, es un andamio virtual en Scaffold Generator. Al analizar los resultados de una campaña de detección de alto rendimiento (HTS), los andamios virtuales pueden ser de particular interés si muchos de sus andamios secundarios exhiben bioactividad. Un próximo paso prometedor puede ser una segunda evaluación con una biblioteca más pequeña basada en este andamio porque la primera evaluación podría no haber incluido la verdadera estructura activa del andamio.

También se puede lograr una anotación de nodos de andamiaje en árboles o redes con, por ejemplo, datos de bioactividad a través de las moléculas de origen almacenadas. Una forma de hacer esto es depositar la representación SMILES (única) de las moléculas en el conjunto de datos estudiado vinculado a la anotación respectiva en una estructura de mapa. Una vez que se genera la jerarquía, sus nodos se pueden anotar comparando los códigos SMILES de la molécula de origen con el mapa de anotaciones compilado previamente. De esta manera, por ejemplo, los nodos del andamio podrían colorearse de acuerdo con la bioactividad. [7] o la visualización de la jerarquía limitada a los andamios activos [9] en una herramienta de visualización más avanzada como la propuesta anteriormente. Durante el desarrollo de Scaffold Generator, se decidió no mantener el original IAtomContainer instancias con sus estructuras y propiedades como referencias de origen a favor de solo sus representaciones SMILES para reducir el consumo de memoria de acceso aleatorio (RAM).

Manejo de aromaticidad

La información y detección de aromaticidad es relevante en múltiples funcionalidades de Scaffold Generator. Como se indicó anteriormente, cuando se elimina un anillo aromático, los enlaces que comparte con otros anillos se convierten en dobles enlaces en algunos casos para preservar las hibridaciones y la aromaticidad. Dado que esto no es posible en todas las configuraciones, la información de aromaticidad también es relevante en la determinación de anillos posiblemente removibles (ver arriba). Y, como resultado, muchos sistemas de anillos aromáticos fusionados, por ejemplo, pireno, no son diseccionados por Scaffold Generator.

La información sobre la aromaticidad también es significativa en dos de las 13 reglas de priorización del árbol de andamiaje para la determinación del andamio principal, a saber, la regla 7 «Un sistema de anillo completamente aromático no debe diseccionarse de manera que el sistema resultante ya no sea aromático») y la regla 11 » Para sistemas de anillos mixtos aromáticos/no aromáticos, conservar los anillos no aromáticos con prioridad”) [7]. La séptima regla hace que sea necesario generar todos los andamios principales posibles que se puedan producir mediante la eliminación de un anillo en el paso de disección dado y aplicar la determinación de aromaticidad a cada uno de ellos para evaluar si se perdió aromaticidad en los anillos restantes. Debido a que esto consume mucho tiempo de cálculo y la aromaticidad debe conservarse en la mayoría de los casos a través de la inserción de doble enlace, la aplicación de la séptima regla de priorización se puede desactivar individualmente en Scaffold Generator.

La determinación de la aromaticidad en CDK y, por lo tanto, en Scaffold Generator se lleva a cabo mediante Aromaticidad instancias [62] construido a partir de la combinación de un Donación de electrones modelo [63] y un Buscador de ciclos algoritmo [56]. El primero define qué tipos de átomos pueden aportar cuántos electrones al sistema aromático y el segundo determina los ciclos que pueden formarlos. Todos los modelos de aromaticidad en CDK siguen vagamente la regla heurística de Hückel [62]. Lo especifico Aromaticidad La instancia utilizada en Scaffold Generator se puede configurar porque los diferentes modelos son adecuados para diferentes aplicaciones.

Dado que varios pasos intermedios en la disección del andamio se basan en la información de aromaticidad de subestructuras específicas, se aplica una detección de aromaticidad inicial en la generación del andamio primario. Y nuevamente al final de un proceso de disección de andamios, se aplica una detección de aromaticidad final a todos los andamios principales generados para asegurarse de que la información de aromaticidad almacenada en los objetos de andamios esté de acuerdo con las estructuras devueltas. Este último paso podría dar lugar a casos en los que el mismo anillo no se detecta como aromático en un andamio principal más pequeño, sino en el andamio secundario más grande en el que es una subestructura. Esto se debe a que los algoritmos de búsqueda de ciclos que se emplean normalmente para la detección de aromaticidad no están basados ​​en SSSR/MCB, sino que también tienen en cuenta los ciclos que abarcan varios anillos de la molécula. Debe interpretarse en la forma en que el anillo en el andamio padre ganó aromaticidad en el andamio hijo a través de la combinación con otros anillos.

Una opción adicional es desactivar completamente la detección de aromaticidad en todas las rutinas de Scaffold Generator. Esto se implementó porque este proceso lleva mucho tiempo y hace que los resultados de las rutinas de disección del andamio dependan principalmente de modelos de aromaticidad heurísticos y específicos del kit de herramientas. Si está deshabilitada, la información de aromaticidad definida inicialmente en el se conservan las estructuras de entrada.

También se debe señalar aquí nuevamente que todos los modelos de aromaticidad en CDK se basan en la regla de Hückel, que es la heurística más utilizada para la determinación de aromaticidad pero no la única y tiene una larga lista de excepciones. Además, es solo un método de determinación heurística para el concepto de aromaticidad, que en sí mismo no está definido de manera única. [64,65,66,67].

Configuraciones y opciones

Las funcionalidades y rutinas de Scaffold Generator se pueden adoptar para varias aplicaciones mediante una variedad de configuraciones disponibles (Tabla 1). Se pueden elegir cinco definiciones de andamios estructurales diferentes para la extracción inicial del andamio y la disección del andamio (Fig. 1). La configuración predeterminada del modo andamio es utilizar el andamio, incluidos todos los átomos conectados directamente a anillos o enlazadores a través de enlaces no simples.

Tabla 1 Configuraciones y opciones de Scaffold Generator

Múltiples pasos en la disección de andamios y la construcción de árboles y redes de andamios requieren la prueba de equivalencia de estructuras moleculares. Estos incluyen la generación enumerativa de todos los andamios principales posibles para evitar duplicados y la identificación de andamios equivalentes al fusionar árboles o redes. En Scaffold Generator, esto se hace usando códigos SMILES únicos de CDK. Para permitir al usuario la definición de las características estructurales que se tienen en cuenta en estos pasos, por ejemplo, estereoquímica, isótopos o aromaticidad, el CDK Generador de sonrisas [68] instancia empleada se puede configurar externamente. De forma predeterminada, la estereoquímica y las masas atómicas no están codificadas, pero sí la aromaticidad. El conjunto Generador de sonrisas La instancia también se utiliza para crear códigos SMILES para moléculas de origen de un andamio respectivo almacenado en nodos de árboles y redes de andamios. Es importante señalar aquí que las características moleculares de las moléculas de entrada y los andamios resultantes (principales), como los estados de protonación o las formas tautoméricas, son tomadas por Scaffold Generator «tal cual», o más bien como se representan en la codificación SMILES elegida. La única excepción es la detección de sistemas aromáticos que se realiza en estructuras de entrada por defecto. Por lo tanto, los usuarios deben encargarse de preprocesar sus conjuntos de datos de entrada de acuerdo con sus necesidades específicas, por ejemplo, estandarizando formas tautoméricas y estados de protonación en todas las moléculas de entrada, antes de usar Scaffold Generator.

Otra opción es excluir o incluir la regla 7 de priorización de Schuffenhauer. Esta regla hace que sea necesario aplicar la detección de aromaticidad a diferentes andamios principales creados con fines de prueba. Este procedimiento requiere mucho tiempo y es posible que no conduzca a una decisión definitiva a favor de un andamio principal específico en la mayoría de los casos. Pero de forma predeterminada, está activado para estar de acuerdo con la implementación del árbol de andamios publicado originalmente. [7].

La detección de aromaticidad realizada en múltiples pasos de disección de andamios (ver arriba) se puede configurar eligiendo qué modelo de aromaticidad de CDK se empleará para este propósito. Por defecto, la aromaticidad se determina usando el Donación de electrones.cdk modelo y el Ciclos.cdkAromaticSet Algoritmo buscador de ciclos.

Además, la detección de aromaticidad se puede desactivar por completo en todas las rutinas para conservar la información de aromaticidad inicial de las estructuras de entrada y hacer que los resultados dependan menos de modelos de aromaticidad específicos. Si este es el caso, la regla 7 también se excluye automáticamente de las reglas de priorización de Schuffenhauer.

La quinta opción de Scaffold Generator se refiere al procesamiento posterior después de la eliminación del anillo: como se explicó anteriormente, en algunos casos se inserta un doble enlace cuando se elimina un anillo aromático para preservar la hibridación y la aromaticidad en los anillos restantes, si es posible. Como opción, esta inserción de dobles enlaces también se puede aplicar a sistemas no aromáticos siempre que haya dos sp2 átomos hibridados adyacentes a un enlace simple que previamente se compartió entre dos anillos. El enlace se convierte en un doble enlace si los dos átomos adyacentes perderían su sp2 hibridación debido a la eliminación del anillo y si es posible sin violar las reglas de valencia (Fig. 10).

Figura 10
figura 10

Armazón principal de 1,2,3,4,6,7-hexahidroisoquinolina dependiendo del valor establecido de las hibridaciones retenidas solo en el establecimiento de enlaces aromáticos. Cuando el anillo de ciclohexadieno se elimina de la 1,2,3,4,6,7-hexahidroisoquinolina (PubChem CID 89002720) en la generación del andamiaje principal, el enlace anteriormente compartido con el anillo de piperidina se convierte en un enlace doble si conservan solo las hibridaciones en la configuración de enlaces aromáticos se establece en falso. En este caso, siempre que sea posible se insertan dobles enlaces para preservar las hibridaciones atómicas en el anillo restante. Si la configuración se establece en verdadero, esto solo se hace cuando se elimina un anillo aromático. En este caso, no se inserta ningún doble enlace en el anillo de piperidina restante.

Arquitectura de software

La clase central de la biblioteca Scaffold Generator es AndamioGenerador. Cuando se instancian, todas las configuraciones disponibles se establecen en sus valores predeterminados (Tabla 1) y se pueden ajustar usando métodos de la clase. Se puede acceder a todas las funcionalidades principales de Scaffold Generator descritas anteriormente a través de una instancia del AndamioGenerador clase, es decir, generación de andamios, su descomposición en bloques de construcción, generación de andamios padre mediante disección enumerativa o de Schuffenhauer, y generación de árboles y redes de andamios. Las dos estructuras de jerarquía de andamios están representadas por una clase propia, respectivamente: AndamioÁrbol y AndamioRed. Ambos extienden la misma clase base, ScaffoldNodeCollectionBasepara funcionalidades básicas y gestionar nodos de andamio como TreeNode o Nodo de red instancias que provienen de la clase base abstracta ScaffoldNodeBase. Estas seis clases administran estructuras de andamios, relaciones padre-hijo de nodos de andamios y referencias de moléculas de origen. Los árboles y las redes se pueden atravesar y fusionar con instancias de la misma clase, respectivamente. Además, se puede comprobar la validez de los árboles de andamios, es decir, si todos los nodos tienen padres, excepto el nodo raíz, y si solo hay un nodo raíz. Las instancias de árbol y red de andamios también se pueden exportar como matrices de adyacencia junto con estructuras de andamios para cada nodo representado. Esto es utilizado por la clase. GraphStreamUtility para mostrar redes y árboles de andamios en una ventana de aplicación Java Swing interactiva con la biblioteca GraphStream.

La JUnit [69] clase de prueba AndamioGeneradorPrueba implementa pruebas automáticas para las rutinas básicas de Scaffold Generator, pruebas que emplean la visualización GraphStream de árboles y redes de andamios para la inspección visual, y ejemplos de código para la aplicación de Scaffold Generator. Otro conjunto importante de rutinas de prueba verifica si las reglas de priorización de Schuffenhauer implementadas en Scaffold Generator están de acuerdo con la implementación original, según los ejemplos proporcionados en la publicación del árbol de andamios. [7]. Además, la base de datos COCONUT se utiliza para probar las rutinas básicas en un gran conjunto de estructuras de productos naturales (NP).

La clase Prueba de rendimiento representa una aplicación de línea de comandos basada en Scaffold Generator que se puede utilizar para evaluar su velocidad computacional en un archivo de datos de estructura (SDF) determinado. Los resultados de COCONUT y DrugBank [70, 71] se presentan en la sección “Resultados y discusión”.

Fuente del artículo

Deja un comentario