Fondo
En 2007, Behler y Parrinello1 propuso un esquema de aprendizaje automático para modelar la superficie de energía potencial de las simulaciones atomísticas, en un ansatz donde la energía total del sistema se puede descomponer en términos por átomo. En este esquema, las coordenadas atómicas se transforman primero en vectores de características, conocidos como huellas dactilares atómicas o funciones de simetría. Las funciones de simetría distinguen el entorno local alrededor de un átomo central debido a sus átomos vecinos. Existe una red neuronal para cada tipo de átomo, que toma el descriptor como entrada y proporciona la energía atómica correspondiente como salida. La energía total se calcula como la suma de todas las energías atómicas. La red neuronal para cada elemento atómico es idéntica, y los parámetros de cada uno se ajustan simultáneamente al minimizar la diferencia entre las energías predichas y reales de un conjunto de imágenes de entrenamiento. Una vez entrenado para los datos apropiados, el método de aprendizaje automático puede disminuir los recursos computacionales en órdenes de magnitud y se escala linealmente con la cantidad de átomos que se modelan (mientras que la teoría funcional de la densidad, DFT, generalmente se escala cúbicamente con la cantidad de átomos, aunque los esfuerzos están en marcha para reducir esto13). Trabajos recientes han demostrado que las energías atómicas localizadas por el esquema de Behler-Parrinello están en buen acuerdo con las descompuestas de DFT, donde la densidad de energía se descompone primero en la contribución cinética, la energía clásica de Coulomb, las interacciones de correlación de intercambio y la contribución pseudopotencial no local y luego integrada en todo el espacio para satisfacer la energía total DFT14,15. En el esquema Behler-Parrinello y métodos similares inspirados en él, la energía es una función única de las posiciones atómicas. Por lo tanto, estos esquemas intrínsecamente no pueden funcionar para cálculos grancanónicos electrónicos, donde la energía también es una función del potencial eléctrico del sistema.
Goedecker y sus colegas introdujeron un esquema de aprendizaje automático para permitir la transferencia de carga de largo alcance, en el que un modelo de red neuronal predice la electronegatividad por átomo, en lugar de la energía por átomo.3. En su esquema, la carga total del sistema está restringida a través de un factor de Lagrange y la distribución de carga (compuesta por cargas por átomo) se encuentra resolviendo un sistema lineal para minimizar la energía del sistema, que se encuentra a través de una carga-electronegatividad expansión. Esta energía del sistema se utiliza como objetivo de entrenamiento para ajustar los parámetros de la red neuronal que predicen las electronegatividades atómicas.
Inspirándonos en estos trabajos anteriores, presentamos el siguiente esquema de aprendizaje dual en el gran conjunto canónico electrónico.
Esquema de aprendizaje dual
Consideramos una imagen, es decir, una sola configuración de átomos a un potencial específico, con norte átomos, que se calcula en el conjunto grancanónico electrónicamente. Su potencial se establece en un valor I• variando el número neto de electrones en la simulación para nortemi, que definimos como el número de electrones relativo a un sistema neutro. La carga neta del sistema es entonces q = − nortemi. Desde q es un observable del cálculo de una estructura electrónica, es una cantidad que se puede aprender en función de las posiciones atómicas (\) y el potencial I•. Nota 1 Análogamente al enfoque de Behler-Parrinello, en el que la energía del sistema se aprende descomponiéndola en energías por átomo, cada una de las cuales se predice mediante un modelo de regresión, descomponemos la carga predicha del sistema en cargas por átomo,
$$hat=mahoplimits_^_left(,phiderecha)$$
(1)
donde las cargas por átomo (_) se predicen en función del entorno atómico local y el potencial objetivo. (A lo largo de este trabajo, usaremos un sombrero, ^, para denotar una cantidad pronosticada). Observamos que las cargas por átomo (qi) no son una salida directa de un cálculo de estructura electrónica, por lo que en nuestro esquema el entrenamiento se lleva a cabo minimizando la diferencia entre (sombrero) y q para cada imagen del conjunto de entrenamiento en una función de pérdida combinada, que describiremos más adelante. Hacer esto requiere que se desarrolle un vector de características diferente que incorpore el potencial, que describimos en la siguiente sección.
Ahora que tenemos un marco para predecir las cargas por átomo, (_)nos dispusimos a predecir la energía grancanónica de la imagen, Ω ≡ mi − nortemi μmidónde mi es la energía canónica, nortemi es el número neto de electrones (en relación con un sistema neutro) y μmi es el potencial químico del electrón, que normalmente se considera equivalente a la función de trabajo en los tratamientos de estructuras electrónicas grancanónicasdieciséis. También tomamos esta convención aquí. Ω es la energía devuelta por muchas calculadoras grancanónicas, como Solvated Jellium7 método implementado en GPAW17,18. En el conjunto grancanónico, las fuerzas son conservativas con Ω, no midieciséis. Usamos un ansatz que (odiar}) se puede predecir a partir de una suma de términos atómicos (_)cada uno de los cuales se puede predecir a partir de una expansión de carga truncada, similar a la expresión de Rappe y Goddard19. Al convertir a (sombrero) tenemos
$$beginhat=&left(mahoplimits_^_ derecha)-__=mahoplimits_^(^+__+frac^_^+cdots ,)+mahoplimits_^__\ &=mahoplimits_^(^+(_+_)_+frac^_^+cdots ,) fin$$
(2)
dónde Z(i) es el tipo de elemento del átomo i, mi0,Z(i) es una energía de referencia del elemento Z(i), y (_) y jZ(i) se conocen como la electronegatividad y la dureza del elemento. Z(i) respectivamente. Una derivación completa de la ecuación. (2) está contenida en la Nota Complementaria 1.1.1.
En nuestra implementación, tomamos ambos mi0,Z(i)y jZ(i) ser parámetros entrenables específicos del elemento, mientras que (_) es una electronegatividad por átomo dependiente del entorno predicha a partir de un modelo de aprendizaje automático, según lo propuesto por Goedecker y sus colegas3; eso es,
$$_=_left(\right)$$
(3)
La estructura específica de la (_) El modelo de aprendizaje automático se describe en la sección “Implementación”. Los cargos por átomo (_) en la ecuación (2) son los predichos a partir del esquema de aprendizaje de carga de la ecuación. (1). De esta manera, tanto las cargas por átomo como las electronegatividades por átomo se deducen en un esquema de aprendizaje dual, lo que conduce a predicciones de la carga por imagen y la energía por imagen.
Una limitación notable de este esquema es el descuido de las interacciones coulómbicas interatómicas explícitas en la formulación de la energía por imagen aprendida. Como tal, cualquier contribución de estas interacciones a la energía del sistema se tendrá en cuenta implícitamente dentro de las electronegatividades aprendidas, (_). Desde (_) solo ve átomos dentro de un radio de corte especificado (típicamente 5-8 Ã…), esto puede explicar solo el rango corto efectos de interacción de carga. Por lo tanto, este esquema puede ser más adecuado para su aplicación en sistemas con efectos mínimos de interacción de carga de mayor alcance, como los sistemas homogéneos compuestos por constituyentes neutros y no polares. Para todos los sistemas de prueba incluidos en este trabajo, encontramos una emulación excelente utilizando solo el formalismo de carga-electronegatividad y, por lo tanto, no desarrollamos este aspecto. Si es necesario, nuestro esquema puede ampliarse para incluir interacciones coulómbicas interatómicas. Para sistemas finitos, (sombrero) se puede formular para incluir la energía de Coulomb, −i<jqiqj/rijtal como se describe en la literatura3,20,21,22,23. Para sistemas replicados periódicamente, las interacciones de Coulomb podrían formularse en términos de una suma de Ewald24. Sin embargo, habría que tener cuidado para tener en cuenta la carga neta en cada celda unitaria, que si se implementa ingenuamente conduciría a energías infinitas. Tal enfoque, aunque menos práctico, aseguraría que la energía aprendida sea físicamente interpretable.
Huellas dactilares que predicen la carga
Como se describe en la Ec. (1), las cargas por átomo se predicen en función de las posiciones (\) y potencial I•. Por lo tanto, cualquier vector de características que ingrese a un modelo de regresión (por ejemplo, una red neuronal) debe contener estas dos cantidades. Vectores de características estándar, como las funciones de simetría de Behler1depende solo de (\). Hay muchas formas concebibles de agregar dependencia potencial a tales vectores. Aquí, simplemente extendemos un vector de características estándar, como
$$=\cup $$
(4)
donde damos cada una de las huellas dactilares en (\) una forma exponencial:
$$_^=left{begin0,quad &, _ le _\ phi ,^,quad &,_ > _endright.$$
(5)
dónde I• es el potencial eléctrico; en la práctica, usamos la función de trabajo de la simulación. zi es la posición vertical del átomo i tomar las huellas dactilares; esto está alineado con la dirección del campo electrostático. zsuperficie en esta implementación indica dónde está la interfase electrodo-electrolito. En la implementación actual, la superficie se define como la z coordenada del átomo metálico superior más el radio de van der Waals, con una corrección personalizada.
I·k es un hiperparámetro específico del elemento de huella digital; En este trabajo, utilizamos un conjunto de valores de I·k de .
En las simulaciones electroquímicas que emulamos, las condiciones de contorno periódicas a lo largo X– y y-Direcciones modelo la losa infinita y solventes. El electrodo se modela como una losa de profundidad finita, como se muestra en la Fig. 1 para una losa gruesa de tres capas; sin embargo, esta es una representación práctica de un sistema semi-infinito. Es decir, la parte posterior de esta losa representa átomos a granel, y no se puede permitir que el exceso de carga se localice en esta superficie en simulaciones electrostáticas construidas adecuadamente, como el método SJ.7. Nuestras huellas dactilares de carga en esta implementación establecen los términos electrostáticos de los átomos metálicos no superficiales en ceros, lo que indica que la parte posterior del electrodo no puede verse afectada por el campo electrostático externo, mientras que las huellas dactilares de carga siguen la caída exponencial imitando la fuerza del campo eléctrico. como describe el modelo de Gouy-Chapman. En otras palabras, el efecto del campo eléctrico sobre los átomos sobre la superficie del metal decae exponencialmente con la distancia zi − zsuperficie a la superficie, mientras que los átomos de metal debajo de la superficie que representan la parte posterior del electrodo tienen una contribución cero de las interacciones electrostáticas con el campo. Este también es el caso en la realidad donde la parte posterior del electrodo está libre de campo.7. Estas huellas dactilares de carga podrían medir las interacciones no solo entre átomos sino también con el campo eléctrico. Como tal, anticipamos que este enfoque se puede aplicar a cualquier superficie que se pueda aproximar con un plano, incluidas las superficies escalonadas; mostramos datos en una superficie escalonada 211 en las Figuras complementarias. Por supuesto, esto puede tener que volver a desarrollarse para geometrías de superficie más elaboradas en implementaciones futuras.
La primera parte de la huella digital que predice la carga (es decir, (_) en la ecuación (4)) puede ser cualquier huella dactilar que describa entornos químicos. En este artículo, usamos funciones de simetría gaussiana, incluyendo GRAMOII y GRAMOV tipos como se sugiere en la ref. 2. Los valores específicos de los hiperparámetros de la huella digital se encuentran en la sección “Implementación”.
Estas huellas dactilares de predicción de carga evitan el problema de que el número de electrones en una simulación se desconoce a priori, sino que se determina en el transcurso de un cálculo de estructura electrónica a partir de las posiciones atómicas y la función de trabajo.
Funciones de pérdida y fuerzas
Por lo tanto, el esquema se divide en dos modelos de subregresión, como se muestra en la Fig. 2, para predecir la carga (sombrero) y energía (sombrero) de cada imagen. El primer modelo de regresión toma las posiciones atómicas, , y el potencial de electrodo, I•como entradas y predice cargos por átomo (\), usando un modelo de regresión ML. La suma de estos cargos, (sombrero=__)se compara con la carga total q del cálculo principal. El segundo modelo de regresión toma como entrada las posiciones atómicas (\) y predice electronegatividades por átomo, dependientes del medio ambiente, (\). Las electronegatividades se utilizan junto con el conjunto de cargas predicho por el otro modelo, (\) para predecir la energía del sistema (sombrero) por la ecuación (2). (sombrero) luego se compara con el Ω real calculado por la calculadora principal para cada imagen. Se ensambla una función de pérdida combinada que simultáneamente puede optimizar los parámetros de los dos modelos ML (junto con los parámetros (_^) y ji):
$$L=fracmahoplimits_^left[^+_cdot ^right]$$
(6)
donde las sumas están sobre el METRO imágenes en el conjunto de entrenamiento. αcargar es un hiperparámetro que nos permite ajustar la importancia relativa de predecir cargas versus energías. También observamos que una estrategia alternativa es entrenar primero el modelo de predicción de carga y luego usar las cargas por átomo resultantes para entrenar el modelo de predicción de energía. En la práctica, encontramos que ambas estrategias funcionaban bien, pero implementamos la función de pérdida combinada de modo que el entrenamiento pudiera realizarse en un solo paso.

Los átomos con el mismo tipo de elemento comparten las mismas estructuras y parámetros de redes neuronales. Dos redes subneuronales — una predice las cargas atómicas a partir de la geometría y el potencial del electrodo, la otra predice las electronegatividades atómicas únicamente a partir de la información geométrica – calculan las energías totales y las cargas totales en un potencial de electrodo fijo.
La función de pérdida anterior se entrena contra la carga y la energía calculadas de cada imagen. Sin embargo, también podemos ajustarnos a las fuerzas atómicas de una simulación, ya que las fuerzas atómicas proporcionan mucha más información que la energía o la carga por sí solas. La fuerza sobre cada átomo j se puede calcular mediante una derivación de la regla de la cadena, ya que las fuerzas son equivalentes al gradiente negativo de Ω en el formalismo grancanónicodieciséis:
$${hat_=-mahoplimits_^left( _ fraccdot frac+(_+__+_ )fraccdot fracright)$$
(7)
Esto se puede agregar a nuestra función de pérdida, por lo que en el caso del entrenamiento de fuerza se convierte en:
$$L=fracmahoplimits_^left[^+_cdot ^+fracmathoplimits_^mathoplimits_^^right]$$
(8)
donde aqui Fijk indica el kª componente cartesiana de la fuerza sobre el átomo i de imagen j.
Implementación
Implementamos este esquema en nuestro software de aprendizaje automático de código abierto AMP, el paquete de aprendizaje automático atomístico25,26. Un guión de ejemplo del uso del método se encuentra en la Información de apoyo.
Los modelos de aprendizaje automático de Eqs. (1) y (3) pueden, en principio, ser cualquier modelo de regresión; por motivos de generalidad y conveniencia, los implementamos como redes neuronales básicas en el trabajo actual. Todas las redes neuronales se entrenaron con la misma estructura y configuración de hiperparámetros. Los descriptores de aprendizaje automático se construyeron siguiendo la sugerencia de Behler y sus colegas.1,2. El radio de corte fue de 6,5 Ã…. En el descriptor se utilizaron 36 funciones de simetría. I·se establecieron en en GRAMOIIfunciones de simetría de tipo y I·â€‰= 0.005, I¶ = , γ = fueron elegidos en GRAMOVfunciones de simetría de tipo. El conjunto de utilizado en las huellas dactilares de predicción de carga fue . Las estructuras de capas ocultas de las redes neuronales fueron (20, 10) y (5, 5) para las redes de carga y electronegatividad, respectivamente. El criterio de convergencia se fijó en 0,00005 (electrones) error cuadrático medio de carga (RMSE) por átomo y 0,0002 eV de energía RMSE por átomo.
Datos de entrenamiento y prueba
La mayor parte de los datos de prueba informados en este trabajo utilizaron un electrodo de losa de oro 2‰Ã—‰3‰Ã—‰3 que es periódico en el lateral (X, y) direcciones, mientras que z dirección es normal a la superficie del electrodo. La capa inferior se fija durante las optimizaciones de estructura. Las moléculas de agua explícitas estaban presentes cerca de la superficie (con agua implícita por encima de ellas), y protones/moléculas adicionales estaban presentes en algunas simulaciones, como se describe en los resultados. La capa inferior de la losa de Au se fijó para representar la mayor parte del electrodo. Todos los cálculos DFT grancanónicos se realizaron en el método de gelatina solvatada (SJM)7 en GPAW17,18. Un paquete de Monkhorst kSe empleó una cuadrícula de puntos de 4 × 6 × 1 y PBE27 se usó como el funcional de correlación de intercambio. Cuando se empleó la optimización estructural, la optimización local por debajo de 0,03 eV ×−1 y banda elástica empujada (NEB)28,29 optimización por debajo de 0,05 eV ×−1 fueron utilizados como objetivos.
El modelo se ajustó con una combinación de imágenes de las reacciones de Volmer y Heyrovsky. El criterio de convergencia para todos los sistemas en entrenamiento energético fue 0,2 meV RMSE por átomo. Todas las imágenes en los conjuntos de entrenamiento y prueba se eligieron al azar.