Robustez bajo alteraciones de parámetros y dominios de problemas de métodos de optimización bayesianos para reacciones químicas | Revista de quimioinformática

Suzuki-Miyaura y datos de aminación de arilo

El algoritmo EDBO fue desarrollado originalmente [1] usando datos de dos reacciones diferentes. Los conjuntos de datos existentes sobre estas dos reacciones se utilizan en nuestro trabajo para investigar los cambios en la función de adquisición y los parámetros de tamaño de lote. La reacción Suzuki-Miyaura [13] es una reacción de acoplamiento cruzado entre un ácido borónico como el indazol y un organohaluro como la 6-bromoquinolina, con un catalizador de paladio. Esta reacción tiene importantes aplicaciones, siendo una de las más utilizadas en síntesis farmacéutica y química médica en general. [14]. En particular, las reacciones de Suzuki-Miyaura han sido el foco de un trabajo reciente sobre optimización utilizando métodos de aprendizaje automático, lo que ha provocado resultados positivos. [15] y más escéptico [16] comentario. El conjunto de datos estudiado consta de 5760 combinaciones de cinco variables: el par de reactivos, el ligando, el catalizador y la base presentes en la reacción. Por lo tanto, este es un problema de la búsqueda del alcance de la reacción, ya que las variables que se modifican para afectar el rendimiento de la reacción son fundamentales para la química de la reacción.

El segundo problema considerado es la reacción de aminación de Buchwald-Hartwig. [17], también con un catalizador de paladio. Esta es una reacción de acoplamiento cruzado de aminas y haluros de arilo para la síntesis de enlaces carbono-nitrógeno. También tiene muchas aplicaciones importantes en la síntesis de una amplia variedad de compuestos de importancia para la química médica y de materiales. [18]. Este es nuevamente un problema del alcance de la reacción: 4608 condiciones están disponibles en el conjunto de datos, que consisten en diferentes combinaciones del haluro de arilo o heteroarilo, el ligando de Buchwald, la base y el aditivo de isoxazol utilizados en la reacción.

Para los conjuntos de datos de aminación de arilo de Suzuki–Miyaura y Buchwald–Hartwig, los datos de la teoría funcional de la densidad (DFT) proporcionados en el repositorio EDBO Github (https://github.com/b-shields/edbo) se utilizó para la codificación numérica del espacio de búsqueda, según los resultados del documento que sugería que este formato minimizaba la pérdida del optimizador en el peor de los casos.

Tamaño del lote

Los autores del artículo de EDBO comentaron que la mejora esperada con un tamaño de lote de 5 funcionó igual de bien que la mejora esperada secuencial con el mismo presupuesto de experimento de 50. Entonces, después de verificar que el código provisto del artículo de EDBO funcionó correctamente en el Suzuki provisto y conjuntos de datos de Aryl Amination, deseábamos determinar en qué medida el tamaño del lote utilizado afectaba el rendimiento del optimizador, para un rango de diferentes tamaños. En particular, dado que un tamaño más grande significaba menos rondas de optimización (con un presupuesto experimental total similar) y más conjeturas en cada ronda, planteamos la hipótesis de que el rendimiento se degradaría a medida que aumentara el tamaño del lote.

Optamos por mantener el presupuesto experimental más o menos constante, cerca de 50. Esto implicó realizar los siguientes experimentos.

  • Tamaño de lote 3: 17 rondas de optimización (presupuesto 51).

  • Tamaño de lote 4: 12 rondas de optimización (presupuesto 48).

  • Tamaño de lote 5: 10 rondas de optimización (presupuesto 50).

  • Tamaño de lote 6: 8 rondas de optimización (presupuesto 48).

  • Tamaño de lote 7: 7 rondas de optimización (presupuesto 49).

  • Tamaño de lote 8: 6 rondas de optimización (presupuesto 48).

  • Tamaño de lote 9: dos experimentos separados, con 5 y 6 rondas de optimización (presupuestos 45 y 54 respectivamente). En los resultados a continuación, presentamos solo el resultado de las ejecuciones con presupuesto 54, ya que el rendimiento no pareció diferir significativamente entre los dos conjuntos de experimentos.

  • Tamaño de lote 10: 5 rondas de optimización (presupuesto 50).

Decidimos probar tres funciones de adquisición diferentes: EI, TS y Random (que correspondían a ignorar el modelo sustituto y, en cambio, elegir puntos al azar), para que sirvieran como control. Los resultados de la reacción de Suzuki se muestran gráficamente en la Fig. 2. Estos indican que no parece haber diferencias significativas en el rendimiento entre los tamaños de los lotes. Como ejemplo, usando la prueba t de Welch para comparar medias muestrales con IE secuencial, (p ​​> 0.05) para cualquier otro tamaño de lote cuando se continúa usando EI. EI supera consistentemente a TS, pero lo importante es que ambos métodos superan significativamente al control aleatorio ((p en todos los casos, utilizando la prueba t de Welch).

La figura 3 muestra el rendimiento del optimizador con diferentes tamaños de lote y funciones de adquisición para la reacción de arilización. Como antes, los resultados indican que el rendimiento no depende significativamente del tamaño del lote, y ambos métodos superan significativamente al control aleatorio. Curiosamente, Thompson Sampling supera ocasionalmente la mejora esperada para ciertos tamaños, lo que probablemente sea un artefacto del espacio de búsqueda de esta reacción en particular.

Figura 2
Figura 2

Gráfico del rendimiento promedio del optimizador (tomado como el rendimiento máximo observado después de una ejecución completa, promediado durante 50 ejecuciones), con error estándar en la media de las barras de error, para la reacción de Suzuki

Fig. 3
figura 3

Gráfico del rendimiento promedio del optimizador (tomado como el rendimiento máximo observado después de una ejecución completa, promediado durante 50 ejecuciones), con el error estándar en la media de las barras de error, para la reacción de Aril Aminación

Alteración del conjunto de experimentos iniciales.

Después de ver que el rendimiento del optimizador era sólido con respecto al tamaño del lote, pasamos a probar hasta qué punto era importante el conjunto inicial de experimentos dados al optimizador. La idea que exploramos fue restringir este conjunto para que se eligiera únicamente del 10% más bajo de los experimentos, ordenados por el rendimiento de la reacción. Estos se tomaron para la reacción de Suzuki-Miyaura, con un tamaño de lote de 5 y un presupuesto experimental de 50, y una función de adquisición de mejora esperada, con 50 ejecuciones completas realizadas. Estos resultados se muestran en la Fig. 4. Si bien el rendimiento promedio es muy similar, es interesante notar que el método del ‘10% inferior’ tenía cuartiles inferiores y superiores idénticos de (98,69%)lo que sugiere que el optimizador encontró constantemente el mismo máximo local con este método.

Figura 4
Figura 4

Diagramas de caja del rendimiento del optimizador para seleccionar del 10% inferior versus seleccionar normalmente para la reacción Suzuki-Miyaura con tamaño de lote 5, presupuesto experimental 50, función de adquisición de mejora esperada y 50 ejecuciones completas realizadas

Fotocatalizadores de iridio y reacciones de acoplamiento cruzado catalizadas por paladio

Tabla 1 Rendimiento del optimizador con diferentes funciones de adquisición en el conjunto de datos de fotocatálisis de Iridium

Probamos más el optimizador en dos conjuntos de datos invisibles, aún dentro del dominio de la optimización del rendimiento de la reacción. En primer lugar, analizamos un artículo que investigaba las constantes de velocidad asociadas con diferentes fotocatalizadores de iridio al convertir la luz en energía química para la síntesis orgánica o la fabricación química. [19]. El problema que se investiga aquí es la actividad catalítica relativa de los fotocatalizadores compuestos por iridio y diferentes combinaciones de ligandos C⌃N y N⌃N. Los fotocatalizadores considerados se construyen combinando uno de los 48 ligandos C⌃N con uno de los 24 ligandos N⌃N y, por lo tanto, consta de 1152 combinaciones en total.

A continuación, analizamos un artículo que investigaba una variante diferente de las reacciones de acoplamiento cruzado de carbono-nitrógeno catalizadas por paladio, en este caso, reacciones a temperatura ambiente en un solvente DMSO. [9]. En este conjunto de datos se varían cuatro entradas al alcance de la reacción: el electrófilo, el nucleófilo, el catalizador y la base. En total se consideran 6 electrófilos, 11 nucleófilos, 6 catalizadores y 8 bases, dando un espacio de búsqueda completo de 3168 combinaciones de reactivos y catalizadores. Sin embargo, el conjunto de datos proporcionado por el documento contiene 1536 combinaciones: solo se consideraron 32 de las 66 combinaciones posibles de electrófilo y nucleófilo, cada una de las cuales se combinó con las 48 combinaciones de catalizador y base. Esto plantea un nuevo desafío para el optimizador, ya que algunas configuraciones dentro del espacio de búsqueda están «no permitidas».

Para estos dos conjuntos de datos, las estructuras moleculares de los compuestos relevantes se proporcionaron visualmente en el documento sin las SONRISAS asociadas; para obtener esto, se dibujaron utilizando una herramienta en línea (http://www.cheminfo.org/flavor/malaria/Utilities/SMILES_generator___checker/index.html) que permitió la salida de las SONRISAS requeridas. Una vez obtenido esto, se utilizó la codificación de Mordred para calcular los descriptores moleculares.

Para probar el optimizador en los datos del fotocatalizador Iridium, usamos un presupuesto de experimento de 50, con un tamaño de lote de 5, y nuevamente comparamos la mejora esperada, el muestreo de Thompson y el control aleatorio con 50 ejecuciones completas de cada uno. Reportamos los resultados en la Tabla 1. EI encontró el máximo global en (46%) de las carreras realizadas y el segundo valor más alto en las restantes (54%). El rendimiento de TS fue ligeramente inferior, en (38%) y (56%) respectivamente, pero esto, sin embargo, se compara extremadamente bien con la función de adquisición aleatoria.

Las investigaciones sobre el conjunto de datos de reacciones de acoplamiento cruzado catalizadas por paladio se complicaron por la ausencia de algunas de las posibles configuraciones de reacción no incluidas en el conjunto de datos. Inicialmente, elegimos lidiar con esto dando a las combinaciones que ‘faltaban’ un recuento de área de 0. Nuevamente, usamos un presupuesto experimental de 50, con un tamaño de lote de 5, comparando la mejora esperada, el muestreo de Thompson y el control aleatorio. , con 50 tiradas completas de cada uno. Sin embargo, esto condujo a un rendimiento bastante bajo por parte del optimizador. Esto podría deberse a que las combinaciones faltantes se etiquetaron como 0, lo que interfirió con el modelo, especialmente si una combinación faltante estaba cerca de una óptima en el espacio de búsqueda.

Después de esto, el espacio de búsqueda se modificó para incluir solo las 1536 combinaciones presentes en el conjunto de datos, proporcionando manualmente las configuraciones permitidas. Los resultados de ambos enfoques se muestran en la Fig. 5. Como se indica en la figura, el enfoque revisado condujo a un rendimiento notablemente mejorado, lo que sugirió que EDBO manejó mal los «valores faltantes» en general y necesitaba que se le indicaran los puntos de dominio permitidos por adelantado.

Figura 5
Figura 5

Diagramas de caja para el conjunto de datos de acoplamiento cruzado catalizado por paladio. Las etiquetas «0 predeterminado» indican aquellas ejecuciones en las que las combinaciones faltantes se codificaron como 0. Tenga en cuenta que para la mejora esperada normal, el cuartil superior del conjunto de datos era igual a la mediana, por lo que no se dibujó una línea mediana adicional.

Proyecto de energía limpia de Harvard

Finalmente, después de probar exhaustivamente el optimizador en múltiples conjuntos de datos de rendimiento de reacción, decidimos ver cómo funcionaría en un tipo de problema de optimización muy diferente. El Proyecto de Energía Limpia de Harvard (CEP) [6] fue una selección computacional de más de dos millones de moléculas, con cálculos de química cuántica, para determinar sus valores teóricos de eficiencia de conversión de energía (PCE) para su uso en energía fotovoltaica orgánica. Esto era tanto cualitativa como cuantitativamente diferente a lo que se había estudiado antes, en el sentido de que intentábamos optimizar una propiedad física usando un solo grado de libertad (qué molécula estábamos probando) en lugar de variar múltiples parámetros para optimizar el rendimiento de la reacción. El conjunto de datos también incluye otras propiedades físicas, como la masa molecular, la densidad de corriente de cortocircuito y el voltaje de circuito abierto, pero no se usaron en nuestro trabajo ya que el método EDBO se basa en conjuntos más grandes de descriptores moleculares extraídos mediante los métodos que se describen a continuación. . El conjunto de datos completo era demasiado grande para cargarlo en una sola computadora, por lo que en su lugar tomamos una muestra aleatoria específica del conjunto de datos de tamaño 10,000 para investigarlo todo.

La codificación numérica del conjunto de datos de CEP planteó un desafío único, porque el espacio de búsqueda era unidimensional y el único factor era el producto químico fotovoltaico orgánico candidato. Esto contrastaba con los conjuntos de datos de rendimiento de reacciones multidimensionales que habíamos investigado anteriormente, cuyo tamaño procedía de la multiplicación de combinaciones de diferentes factores y no de un solo factor con miles de posibilidades. Por lo tanto, la codificación de Mordred fue prohibitivamente lenta, ya que un tamaño de muestra de 10 000 descriptores moleculares computacionales requeridos para 10 000 moléculas. Esto nos llevó a utilizar la codificación de huellas dactilares de Morgan de 512 bits, que era menos completa para detallar las propiedades de las moléculas pero significativamente más rápida.

Resultados iniciales

En este caso, usamos un presupuesto experimental de 100, con un tamaño de lote de 10, comparando la mejora esperada, el muestreo de Thompson y el control aleatorio, con 50 ejecuciones completas de cada uno. Los resultados se muestran en la Fig. 6. La mejora esperada y el muestreo de Thompson fueron notablemente similares, sin diferencias visuales apreciables en los diagramas de caja de los resultados, y sin diferencias significativas ((p ​​> 0.05)) cuando se usa la prueba t de Welch para comparar sus medias muestrales. Ambos métodos superaron significativamente la selección aleatoria en términos de PCE medio de la mejor molécula encontrada por el optimizador ((p usando la prueba t de Welch), lo cual es alentador dado que este es un problema completamente diferente para que lo aborde el optimizador. En particular, vale la pena señalar el relativo éxito de Thompson Sampling, ya que este método requiere aproximadamente una cuarta parte del tiempo computacional de la mejora esperada para los datos de CEP.

Dado que el optimizador funcionó tan bien en este subconjunto inicial, queríamos ver si podíamos encontrar un subconjunto diferente del mismo tamaño en el que funcionara peor. Los subconjuntos se determinaron tomando una muestra aleatoria, que podía sembrarse, por lo que buscamos unos pocos cientos de semillas. Para comparar los subconjuntos, se realizaron 50 ejecuciones completas del optimizador, con un tamaño de lote de 10, un presupuesto de experimento de 100 y con la mejora esperada como función de adquisición. La Figura 7 muestra el rendimiento del optimizador en la peor semilla encontrada durante la búsqueda junto con la semilla mediana. Si bien el rendimiento del optimizador es ligeramente inferior en el peor subconjunto, la diferencia es relativamente insignificante, lo que indica que el rendimiento fue bastante estable en los diferentes subconjuntos.

Figura 6
figura 6

Rendimiento del optimizador con diferentes funciones de adquisición en el conjunto de datos Harvard PCE

Figura 7
figura 7

Rendimiento del optimizador con la función de adquisición de mejora esperada en el conjunto de datos de PCE de Harvard para la peor semilla (izquierda) y la semilla mediana (derecha)

Investigación de diferentes funciones de adquisición

Después de confirmar que el optimizador EDBO podía aplicarse con éxito a este problema, pasamos a centrarnos en modificar las funciones de adquisición utilizadas para mejorar el rendimiento. En particular, decidimos buscar mejorar los 5 valores principales devueltos por el optimizador, en lugar de solo el valor principal.

Nuestra motivación para esto se basó en que los valores calculados eran teóricos; por lo tanto, sería útil tener una gran selección de moléculas, cada una de las cuales tenía un buen PCE en lugar de una sola molécula con excelente PCE, para reducir las posibilidades de depender en gran medida sobre un artefacto del modelo PCE.

La modificación del algoritmo EI que exploramos estaba cambiando el valor con el que se comparaba por el bien de la Utilidad de mejora. Usando la notación anterior en el informe, alteramos el (x_+) valor utilizado. Se evaluaron dos estrategias de modificación:

  • EI-k: Ajuste (x_+) ser el kº valor más alto observado, con EI-1 representando la Mejora Esperada ordinaria.

  • E3I: Exploración mejorada Mejora esperada [20]. En resumen, toma muestras de la distribución del modelo sustituto varias veces, calculando cada vez la mejora esperada configurando (x_+) para ser el máximo de la muestra, y luego promediar los resultados. Esto tiende a fomentar una mayor exploración del espacio de muestra desde el principio y se acerca a la mejora esperada normal con más iteraciones.

Como es evidente a partir de los resultados de la Fig. 8, cada estrategia se desempeñó de manera bastante similar, y ninguna estrategia alternativa se desempeñó consistentemente mejor que la mejora esperada estándar. Sin embargo, hay alguna evidencia de que la distribución de PCE para moléculas en el rango 3, 4 y 5 está más restringida cuando se usa E3I, lo que conduce en particular a valores más altos en el tercer cuartil. Esto puede ser el resultado de una mayor exploración del espacio de la muestra, lo que hace que se encuentre con más frecuencia una gama de moléculas de alto rendimiento.

Figura 8
figura 8

Distribución del PCE obtenido para las cinco moléculas principales bajo cuatro funciones de adquisición diferentes en el conjunto de datos de Harvard

Fuente del artículo

Deja un comentario