Revisión de técnicas y modelos utilizados en el reconocimiento óptico de estructuras químicas en imágenes y documentos escaneados | Revista de quimioinformática

El análisis de estructuras químicas impresas o digitalizadas es una tarea importante en la educación, investigación y desarrollo de productos químicos. Las estructuras moleculares contenidas en publicaciones científicas convencionales, documentos y libros de texto suelen presentarse en forma de imágenes y texto anotado. Las fórmulas estructurales se representan como gráficos químicos, donde los vértices son moléculas y los bordes representan enlaces entre ellos. Estos datos, especialmente los de documentos más antiguos, no están digitalizados (no solo como imágenes, sino también en un lenguaje descriptivo), por lo que extraer información útil implica mucho esfuerzo manual. Además, no existe una base de datos estandarizada y centralizada para el almacenamiento y recuperación de información sobre estructuras químicas. Se requiere el reconocimiento automático de imágenes que contienen tales estructuras y su conversión a identificadores químicos estándar para aumentar la eficiencia de los procesos científicos, reducir los esfuerzos manuales y ayudar a capturar los datos de una manera estándar para las oportunidades de extracción de datos posteriores. El reconocimiento óptico de estructuras químicas (OCSR) aborda el problema de la traducción de una estructura química proporcionada como representación gráfica en la fórmula química correspondiente.

El problema del reconocimiento de estructuras químicas puede verse como una mezcla de procesamiento de imágenes, clasificación y modelado de secuencias. La fuente de la información digital, que se ingresa al sistema de reconocimiento, juega un papel importante en el diseño del modelo de reconocimiento: los documentos escaneados generalmente contienen más ruido y pérdida de información en comparación con las imágenes generadas por herramientas de software o escritas con un lápiz digital. Las imágenes escaneadas también se clasifican como impresas y manuscritas. Debido a la libertad en los estilos de escritura de los autores, las estructuras manuscritas traen complejidades durante el análisis de documentos escaneados o fuera de línea. Para los sistemas de reconocimiento en tiempo real o en línea, los stokes juegan un papel importante, de modo que los gráficos vectoriales se emparejan adicionalmente con la información temporal. Dado que el problema que OCSR trata con el material impreso existente, la investigación es esta área predomina el análisis de estructuras químicas en línea.

Los sistemas basados ​​en reglas o heurísticas aplican el enfoque de lectura de un experto para construir un metadescriptor que contiene los trazos, las formas, las letras y sus conexiones recuperadas de una imagen gráfica. La fórmula final se genera en base a la regla aplicada a los datos del metadescriptor. Desde la perspectiva de Machine Learning (ML), la identificación de una imagen con una cadena de texto única puede considerarse como un problema de clasificación, pero la posibilidad de tener un número ilimitado de clases cambia el curso de la solución al problema de subtítulos de imágenes.

El desarrollo de los primeros sistemas OCSR comenzó a principios de la década de 1990. [1,2,3,4,5]. Debido a las limitaciones en los recursos computacionales y la etapa inicial de los algoritmos de aprendizaje automático orientados a la visión artificial en ese momento, esas soluciones utilizaron principalmente heurísticas más orientadas a reglas, respaldadas por la inteligencia artificial clásica y los algoritmos de reconocimiento óptico de caracteres. El análisis de imágenes se realizó principalmente con los algoritmos clásicos de procesamiento de imágenes, como operaciones morfológicas, esqueletización y comparación de plantillas. En ese momento, con los desarrollos en hardware, computación en la nube y redes neuronales profundas (DNN), todas las etapas de OCSR comenzaron a moverse completamente hacia modelos de aprendizaje automático y brindaron resultados excepcionales. Empleo de modelos de clasificación de imágenes basados ​​en la atención y sensibles al contexto [6,7,8,9,10] eliminó la necesidad de tener fases de preprocesamiento separadas, como la eliminación de ruido de la restauración de imágenes. Modelos modernos de PNL [11,12,13,14,15] que son capaces de ser entrenados para comprender y generar secuencias de estructura compleja reemplazaron las reglas impulsadas por expertos sobre la estructura molecular, la unión y los detalles de formato. A pesar de su poder de aproximación y aprendizaje, como todas las máquinas de aprendizaje estadístico, los modelos basados ​​en ML dependen de muestras de entrenamiento representativas y, por lo tanto, son sensibles a las variaciones; Es posible que no se reconozcan con éxito diferentes representaciones estructurales de la misma fórmula visualmente diferentes de la muestra de entrenamiento. Las deficiencias similares de las soluciones basadas en ML motivan a los investigadores a no abandonar por completo el enfoque basado en reglas. [16,17,18,19].

Este artículo de revisión se centra principalmente en los problemas característicos del OCSR y analiza los enfoques anteriores sin destacar ninguno de ellos en términos de rendimiento o precisión. Las conclusiones hechas después de cada sección de revisión muestran las oportunidades y las deficiencias relacionadas con el enfoque particular. El siguiente capítulo presenta los principales identificadores de estructuras químicas y explica brevemente sus detalles. Las diversas soluciones OCSR, clasificadas como basadas en reglas y basadas en aprendizaje automático, se enumeran en el capítulo “Enfoques, métodos y modelos”. Este capítulo repasa la evolución del desarrollo de OCSR por cada enfoque y proporciona un análisis de sus puntos fuertes y deficiencias. Se ha prestado atención adicional a las soluciones que entregaron resultados progresivos a lo largo de su evolución y conjuntos de datos utilizados por varios modelos. El criterio de evaluación que aún no está estandarizado para calificar el desempeño de OCSR también se trae a la discusión. El trabajo de revisión proporcionado por los autores se resume con las conclusiones y recomendaciones para los desarrolladores de OCSR. El resumen menciona las estrategias exitosas para los sistemas basados ​​en reglas y ML y comparte ideas sobre posibles mejoras.

Identificadores de estructuras químicas

Las fórmulas químicas están actualmente codificadas por identificadores químicos estándar que contienen secuencias textuales y numéricas únicas. Hay varios identificadores de este tipo en la industria, incluidos InChI (Identificador químico internacional), UNII (Identificador único de ingrediente), CAS RN (Número de registro del servicio de resumen químico), entre otros. Estos identificadores codifican estructuras químicas de forma estandarizada, facilitando así su búsqueda en bases de datos y en la web.

SMILES (Sistema simplificado de entrada de línea de entrada molecular) es una forma de representar estructuras moleculares mediante el uso de cadenas cortas del Código estándar estadounidense para el intercambio de información (ASCII). Este identificador construye un gráfico de conexión, es decir, vértices y aristas, de una estructura molecular. Esto generalmente se considera un enfoque más fácil e intuitivo para representar estructuras moleculares de forma compacta en comparación con las alternativas. Por ejemplo, a continuación se muestra el identificador SMILES para etanol:

$$begin hbox . end$$

Sin embargo, una de las principales desventajas de usar SMILES es que una estructura química puede tener más de una representación de SMILES, dependiendo del algoritmo en uso. Históricamente, varias herramientas de software comerciales y científicas se desarrollaron de manera separada y, por lo tanto, difieren en la forma en que se produce la cadena SMILES final. [20].

Se han sugerido diversas alternativas para la mejora de la representación de SMILES o para subsanar las principales deficiencias de la misma. Especificación de objetivo arbitrario SMILES (SMARTS) [21] es un lenguaje diseñado para la especificación de subestructuras usando reglas que son extensiones de SMILES. Tal descripción ayuda a emparejar las moléculas con una subestructura particular en una base de datos. [22] proporciona una descripción detallada de las especificaciones, detalles de implementación y aplicaciones de SMILES y SMARTS. SONRISAS PROFUNDAS [23] es un modelo de sintaxis orientado al aprendizaje automático que está destinado a mejorar los problemas sintácticos del predecesor. El uso de paréntesis cerrados evita el problema de los paréntesis desequilibrados, donde el número de paréntesis define la longitud de la rama. Además, DeepSMILES utiliza un solo símbolo que indica el tamaño del anillo en la ubicación de cierre del anillo, lo que evita el problema de emparejar los símbolos de cierre del anillo. DeepSMILES resuelve principalmente la mayoría de los problemas sintácticos que se encuentran en la generación de gráficos, pero no se ocupa de las restricciones semánticas que introduce el dominio específico. Cadenas incrustadas autorreferenciales (SELFIES) [24] es una representación de moléculas basada en cadenas que es capaz de describir cualquier molécula y garantizar su validez. SELFIES está dirigido como entrada para modelos generativos de aprendizaje automático, lo que no requiere la adaptación del modelo de aprendizaje a la estructura.

InChI es un enfoque categóricamente diferente que se centra principalmente en la singularidad de la definición en lugar de la legibilidad. El identificador InChI que entrega una cadena única por estructura química se genera mediante el siguiente proceso:

  1. 1.

    Normalización, que es el proceso de eliminar información inútil de la estructura, como átomos y/o enlaces innecesarios;

  2. 2.

    Canonicalización, que es el proceso de crear una etiqueta numérica única para cada átomo;

  3. 3.

    Serialización, que es el proceso de generar una cadena de caracteres textuales y numéricos.

La cadena final de InChI es una representación en capas de una estructura química, en el sentido de que la cadena está compuesta de partes (capas), cada una de las cuales tiene su propio propósito (p. ej., capa de carga, capa isotópica, etc.). Por ejemplo, a continuación se muestra la etiqueta InChI para metanol:

$$begin hbox end$$

donde CH40 es la capa de composición elemental, c1-2 es la capa de conexión y h2H, 1H3 es la capa de recuento de hidrógeno [25].

Para tener en cuenta, InChI no viene sin su propio conjunto de problemas. En particular, aquí hay una lista de algunos de sus desafíos actuales. [26]:

  1. 1.

    Todavía no se tienen en cuenta todas las estructuras químicas, especialmente cuando se trata de fórmulas más complejas.

  2. 2.

    InChI aún no está implementado correctamente para algunos tipos de estereoquímica.

  3. 3.

    InChI no es tan legible por humanos como SMILES.

Un sistema de reconocimiento de estructuras químicas bien definido es importante debido a su aplicabilidad en áreas tales como la investigación médica en entornos comerciales y no comerciales (por ejemplo, educativos). Por ejemplo, actualmente existen tales bases de datos de química disponibles, incluyendo ChemSpider (http://www.chemspider.com/) y PubChem (https://pubchem.ncbi.nlm.nih.gov/) que facilitan la búsqueda por estructuras químicas utilizando InChI. El reconocimiento y etiquetado automáticos de imágenes de estructuras moleculares, y en particular las contenidas en publicaciones más antiguas, es por lo tanto un requisito para expandir la base de conocimiento químico existente y crear soluciones innovadoras para aumentar la eficiencia del trabajo científico.

Enfoques, métodos y modelos

El subtítulo de la imagen es una generación de la salida y sin restricciones de longitud, que dependiendo de las tareas, sintetiza la descripción o las características de la imagen dada. El subtitulado de imágenes se logra mediante diversas técnicas y modelos, como análisis de estructuras, modelos basados ​​en reglas, redes recurrentes, modelos de atención y Procesamiento del Lenguaje Natural. En general, los enfoques sobre los problemas OCSR se pueden clasificar como basado en reglas y Aprendizaje automático-sistemas basados ​​en La siguiente parte del capítulo describe cada uno de los enfoques y trabajos previos donde se han aplicado.

Sistemas basados ​​en reglas

Los sistemas basados ​​en reglas intentan imitar el modelo de percepción de un humano, que en OCSR es la detección de caracteres y formas, entendiendo la conexión de las líneas y construyendo una fórmula basada en el análisis dado. La mayoría de los enfoques basados ​​en reglas siguen el patrón de reconocimiento de átomos y líneas de enlace, vectorización de imágenes y reconstrucción de tablas o gráficos de conexión. [3, 27,28,29]. Varios estudios se centran en la detección de estructuras hexagonales y pentagonales en función de las reglas predefinidas [30]. La detección de círculos también se realizó como un paso separado [31]. El reconocimiento óptico se basa en gran medida en un conjunto de reglas integradas en la columna vertebral del sistema.

Algunos de los primeros métodos, como el Reconocimiento Óptico de Gráficos Químicos (OROCS) y la Extracción de Datos de Literatura Química (CLiDE) se centraron en el uso de cajas con forma de polígono para separar las partes de la imagen como parte del preprocesamiento de la imagen. [4, 5, 32]. Estos métodos empleaban el Reconocimiento Óptico de Caracteres (OCR) para identificar los caracteres en la imagen con el fin de construir etiquetas para la molécula. A pesar de poder resolver la tarea de etiquetado de imágenes químicas, estas herramientas eran comerciales y no fueron utilizadas por la comunidad investigadora. [33].

La primera herramienta disponible públicamente en este dominio fue la Aplicación de reconocimiento de estructura óptica (OSRA) [34], que se publicó en 2009. Las técnicas utilizadas en OSRA eran muy similares a las herramientas anteriores e incluían pasos de preprocesamiento predefinidos, así como herramientas OCR para identificar etiquetas de átomos. A diferencia de sus predecesores, OSRA utilizó dos sistemas OCR en lugar de uno y analizó imágenes en tres resoluciones diferentes para mantener el mejor resultado según la función de estimación de confianza. Autores de [34] también plantea cuestiones importantes sobre los criterios de evaluación, que siguen siendo pertinentes. Como en todas las primeras implementaciones de OSCR, OSRA también opera con un conjunto de datos limitado, que incluía solo 66 imágenes de varias resoluciones y profundidades de color. El cálculo de la tasa de reconocimiento exitoso en OSRA es específico y dificulta la comparación del modelo con los demás. Usando la distancia de Tanimoto como indicador, los autores consideran 4 niveles separados de la evaluación del desempeño. Imagen [35], otro sistema de código abierto publicado después de OSRA tenía un enfoque similar con detalles de implementación ligeramente diferentes. Aunque el documento describe los procedimientos de implementación en detalle, el rendimiento del algoritmo se describe de forma más cualitativa que cuantitativa.

Los autores de Markov Logic OCSR utilizaron un enfoque alternativo [36], que utilizó inferencia probabilística sobre mundos lógicos. La ventaja de este método es evidente cuando se trabaja con bases de datos de baja calidad dadas sus características no deterministas. Sin embargo, el sistema expone deficiencias con caracteres adyacentes o rotos, unidades repetidas y casos cuando los caracteres tocan las formas. También están presentes otras herramientas que implementan diferentes técnicas, como chemoCR [37]que combina técnicas de reconocimiento de patrones con conceptos de aprendizaje automático supervisado.

La Universidad de Stanford publicó otro enfoque basado en reglas que utilizaba Support Vector Machines (SVM). [38]con el objetivo de reconocer estructuras químicas escritas a mano con los siguientes pasos:

  • Reconocimiento de texto mediante coincidencia de plantilla invariable en escala. Había 6 plantillas en total, incluidas ”O”, ”H”, ”OR”, ”RO”, ”N” y ”OH”. Se utilizó un filtro gaussiano en combinación con el deslizamiento de la pirámide espacial. El resultado de este paso se utilizó en los siguientes pasos.

  • La imagen se limpia del texto utilizando los resultados del paso anterior.

  • Detección de enlaces y esquinas. Se utilizó un amplio detector de esquinas Harris como base de un algoritmo de detección de esquinas. Se utilizó un algoritmo de Douglas-Peucker para identificar los puntos D, mientras que el algoritmo de Harris se centró en los puntos C y T.

  • Detección de bonos. La transformada de Hough se usó solo para detectar enlaces. Anteriormente, el uso de la transformada de Hough se concentraba no solo en la detección sino también en la clasificación de enlaces.

  • Clasificación de bonos. Se utilizó un clasificador de regresión logística multiclase, un SVM lineal y un árbol de decisión para clasificar los enlaces detectados previamente.

  • Asociación de las esquinas a los átomos y los grupos.

Figura 1
Figura 1

Dos ejemplos correctamente clasificados: estudio de Stanford [38]

El estudio utilizó solo 360 imágenes para entrenar y probar el algoritmo. De esas 360 imágenes, solo 94 fueron clasificadas correctamente. Los ejemplos de clasificación correctos se muestran en la Fig. 1. Aunque el rendimiento en el conjunto de datos seleccionado es bajo, los autores afirman que funciona bien en las áreas desafiantes de los algoritmos anteriores.

[18] publicado en 2019 describe un sistema mejorado de reconocimiento de estructuras químicas en 2D destinado a OCSR. La canalización comienza con los pasos de preprocesamiento de la imagen, como el desenfoque y el umbral, y aplica un filtro de región de texto y difuminado de longitud. La extracción de la imagen de la molécula del documento si es seguida por el proceso de reconocimiento. El primer paso en el proceso de reconocimiento implica la detección de anillos, el adelgazamiento, la búsqueda de etiquetas mediante OCR y la eliminación de esas etiquetas de la imagen esqueletizada. Los átomos y enlaces se descubren usando etiquetas e información de línea recuperada usando el algoritmo detector de segmento de línea. Finalmente, se realiza el preprocesado Open Babel, al que sigue el montaje de la estructura final. El proceso se ilustra en la Fig. 2. Entre las 50 imágenes utilizadas para la prueba, la tasa de éxito fue del 86 %, que es un 12 % más que la de OSRA.

Figura 2
Figura 2

Proceso de reconocimiento de RSC [18]

En [19] Los autores proponen un enfoque basado en la detección de componentes para interpretar la estructura espacial de fórmulas de estructura de compuestos cíclicos químicos manuscritas fuera de línea. El trabajo combina la técnica con el aprendizaje profundo y propone el algoritmo de supresión de área no máxima para mejorar los resultados de detección. Los experimentos en 2100 conjuntos de datos recopilados por ellos mismos lograron un 89,6 %.

Tabla 1 Desempeño de los enfoques basados ​​en reglas

La Tabla 1 enumera el rendimiento de los sistemas OCSR basados ​​en reglas mencionados. La evaluación de los sistemas basados ​​en reglas y su análisis comparativo es una tarea desafiante debido a las siguientes razones:

  1. 1.

    En los primeros tiempos del desarrollo del sistema basado en reglas, no había conjuntos de datos estandarizados o ampliamente disponibles. Casi cada sistema se refiere a un conjunto de datos creado por sí mismo o seleccionado de varios conjuntos disponibles.

  2. 2.

    Los tamaños de las muestras en los conjuntos de datos son bajos en comparación con los que se utilizan en los OCSR modernos basados ​​en ML.

  3. 3.

    A diferencia de los enfoques basados ​​en ML que requieren conjuntos de datos de entrenamiento, validación y prueba, los modelos basados ​​en reglas no requieren tal separación. Este enfoque hace que el rendimiento general sea cuestionable: ¿las reglas se han desarrollado en base a las muestras del conjunto de datos o simplemente por los procedimientos del experto? Un modelo que fue afinado para cubrir la mayoría de las muestras, no puede considerarse de alto rendimiento, ya que la evaluación justa definitivamente debe realizarse en un conjunto de datos completamente nuevo.

  4. 4.

    Los criterios de evaluación se mencionaron brevemente en los documentos, sin detalles de implementación. La misma estructura y comparación de cadenas podría implementarse de varias maneras, lo que podría afectar positivamente la precisión del sistema.

En sus resultados experimentales, algunos de los artículos muestran una precisión diferente para los modelos creados previamente. Por ejemplo, los resultados de OSRA en trabajos posteriores se mencionan con una puntuación más baja que la declarada en el artículo original. Los autores de este artículo no tienen la intención de volver a medir el rendimiento de los modelos mencionados, ya que tal experimento sería técnicamente imposible de establecer.

Lagunas de los sistemas basados ​​en reglas

La siguiente es una lista de puntos débiles encontrados en muchos de los sistemas basados ​​en reglas:

  • Hay demasiadas reglas en química y es bastante común que los conjuntos de reglas integrados en los sistemas no sean exhaustivos.

  • Los sistemas basados ​​en reglas normalmente funcionan peor en imágenes con características complejas, ambigüedades y presencia de ruido.

  • Estos sistemas están limitados a las reglas dadas: las representaciones que no son consideradas por expertos químicos pueden no ser reconocidas en absoluto.

  • Estos sistemas son sensibles al ruido: la eliminación de una junta, un punto o una discontinuidad en las líneas puede confundir al sistema.

Sistemas basados ​​en ML

Se han probado diferentes métodos de aprendizaje estadístico para problemas OCSR. Se utilizaron algunas implementaciones basadas en redes de Kohonen y SVM para segmentar imágenes en sus objetos constituyentes, como elementos gráficos químicos y símbolos textuales. [37, 39]. También se han presentado soluciones relacionadas con la red neuronal convolucional (CNN) y se han logrado resultados significativos [40, 41]. Debido a la simplicidad de su diseño y poder de generalización, los sistemas basados ​​en ML han ganado popularidad en las últimas dos décadas. Este capítulo proporciona una descripción general de los métodos recientes basados ​​en ML.

Reconocimiento de símbolos de estructura de anillo orgánico químico escritos a mano utilizando CNN

Este enfoque se centra en el reconocimiento de estructuras de anillos a partir de imágenes escritas a mano. [40]. El método utiliza el aprendizaje por transferencia basado en redes neuronales convolucionales profundas de 16 y 19 capas, VGGNet-16 y VGGNet-19 respectivamente. La arquitectura consta de núcleos convolucionales de tamaño (3 veces 3)y capas máximas de agrupación de (2 veces 2). En este estudio, se utilizan 5 estructuras anulares estándar para derivar el total de 36 estructuras (Fig. 3). El conjunto de datos de imágenes dibujadas por 200 personas con aumento contiene 3600 imágenes. La precisión de reconocimiento de 36 clases para VGGNet-19 fue del 80 %, mientras que la alternativa de 5 clases logró más del 92 % de precisión. Los autores sugieren que aumentar el tamaño del conjunto de datos podría ayudar a mejorar el rendimiento de la versión del modelo de 36 clases.

Fig. 3
figura 3

Estructuras de anillos orgánicos [40]

Extracción de estructura molecular de documentos mediante aprendizaje profundo (MSE-DUDL)

Este enfoque, desarrollado por Staker et al. [42]consta de dos partes:

  • Modelo de segmentación basado en U-Net para detectar la estructura química, y

  • Estructurar la predicción usando atención y Grid Long Short Term Memory (Grid LSTM).

La generación de etiquetas comienza con el preprocesamiento, que incluye transformaciones de imágenes como binarización y escalado. La segmentación se realiza en el nivel de resolución completa mediante el cual se promedian varias máscaras en diferentes resoluciones para obtener mejores resultados (es decir, los píxeles de alta confianza forman máscaras con la misma resolución que las imágenes de entrada originales). Las imágenes primero se reducen y luego se aumentan a lo largo del flujo de trabajo de la red para garantizar que la resolución de la imagen siga siendo la misma. A continuación, las imágenes extraídas se pasan a otra red neuronal profunda que sigue la estrategia de codificador-decodificador para predecir cadenas de SONRISAS. Primero, las entradas se codifican en un vector espacial usando una CNN y luego se decodifican nuevamente en una secuencia de caracteres (un carácter a la vez) usando una RNN (red neuronal recurrente). En particular, Grid LSTM se utiliza para predecir caracteres en función de los estados de celda anteriores, la atención actual y las salidas anteriores. [33]. La capacitación se realizó con los conjuntos de datos de PubChem, Indigo y la Oficina de Patentes y Marcas de los Estados Unidos (USPTO) (logrando una precisión de validación en el rango de 77 a 82 %), y el modelo se probó en Valko (precisión de 41 %) y propietario. conjuntos de datos (precisión del 83%). Las desventajas de este modelo incluyen lo siguiente:

  • Los superátomos no estaban bien representados en los conjuntos de datos utilizados y, en general, hubo un muestreo insuficiente de varios átomos.

  • Los conjuntos de datos utilizados no abarcaban todas las estructuras químicas posibles y, por lo tanto, no se probaron algunas de las características más complejas.

  • El modelo se probó solo en imágenes de baja resolución.

  • Los macrociclos químicos con anillos grandes no se predijeron bien (lo que también podría deberse al desequilibrio en el conjunto de datos).

  • Las imágenes invertidas (es decir, estructuras blancas sobre un fondo negro) no se reconocían bien.

  • Específicamente, el modelo funcionó peor en imágenes con demasiada reducción de escala, muchas estructuras presentes al mismo tiempo y estructuras inversas.

Aprendizaje profundo para reconocimiento químico de imágenes (DECIMER)

La idea detrás de DECIMER [43] es utilizar redes neuronales de mostrar y contar, desarrolladas inicialmente como un sistema de anotación de imágenes destinado al reconocimiento de estructuras químicas: el sistema acepta una imagen como entrada y produce una codificación SMILES. El conjunto de datos se creó utilizando el kit de desarrollo de química (CDK), que potencialmente podría producir una cantidad ilimitada de datos de entrenamiento. La entrada a CDK fueron los datos de PubChem, que también se usaron en otros sistemas basados ​​en ML. Las imágenes de entrada no recibieron ninguna manipulación, excepto una rotación aleatoria por molécula. El modelo que fue diseñado como una red basada en autocodificador consta de dos partes [43]:

  1. 1.

    Red de codificadores: CNN con una sola capa totalmente conectada y función de activación de Unidad Lineal Rectificada (ReLU).

  2. 2.

    Red decodificadora: RNN, que consta de una unidad recurrente cerrada (GRU) y dos capas completamente conectadas.

Se utilizan diferentes versiones de SMILES para la predicción, siendo DeepSMILES la más precisa para predecir. El flujo de trabajo general se puede resumir de la siguiente manera:

  • Las imágenes se convierten en vectores de características utilizando Inception V3.

  • Paralelamente, DeepSMILES se tokeniza a través de un tokenizador y se almacenan los tokens únicos.

  • Los vectores de imagen se alimentan al codificador, mientras que los tokens se alimentan a las redes del decodificador. El proceso de entrenamiento utiliza el optimizador de Adam y la entropía cruzada categórica dispersa como función de pérdida.

El proceso de capacitación tomó alrededor de 27 días en la unidad de procesamiento de gráficos (GPU) de NVIDIA. El resultado se evaluó en función de la puntuación de similitud de Tanimoto. Se alcanzó una puntuación de 0,53 con DeepSMILES. Los autores afirman que aumentar la cantidad de datos de 50 a 100 millones podría mejorar significativamente el rendimiento, pero eso requeriría varios meses de entrenamiento en una sola GPU.

Segmentación DECIMER

En 2021 se introdujo otra versión de DECIMER, llamada DECIMER Segmentation. [44]. El flujo del nuevo modelo consta de dos etapas principales:

  1. 1.

    Detección: una red neuronal profunda genera máscaras para definir posiciones de elementos químicos en el documento. La anotación de imágenes se realizó con el uso del anotador Visual Geometry Group (VGG). Se aplican máscaras para indicar si el píxel pertenece o no a una estructura química.

  2. 2.

    Expansión: la máscara se expande para cubrir completamente la imagen. El procedimiento implica binarización de imágenes y dilatación binaria. Con el uso de la expansión de la máscara, la proporción de estructuras completamente segmentadas aumentó al 99,8%.

Se afirma que el enfoque funciona solo con imágenes de mapa de bits en lugar de imágenes vectoriales en PDF, que son más comunes en los artículos modernos. En general, el modelo detectó el 91,3 % de las estructuras químicas.

DECIMADOR 1.0

Una nueva versión de DECIMER [45] evoluciona en torno al concepto de transformadores que han tenido éxito en diversas tareas, como problemas de NLP y Computer Vision (CV). La actualización ayudó a aumentar la precisión de las predicciones de SMILES del 90 % al 96 %, lo cual es un avance significativo. Los autores utilizaron un conjunto de datos de PubChem disponible públicamente para generar imágenes de mapa de bits moleculares 2D de tamaño (299 veces 299) utilizando el generador de diagramas de estructura CDK. Las imágenes de mapa de bits se aumentaron utilizando desenfoque gaussiano, ruido de sal y pimienta, nitidez, mejora del brillo y otros métodos. Aparte de esto, también se utilizaron otras dos versiones del conjunto de datos, que incluían imágenes no aumentadas con y sin información estereoquímica. La estructura del modelo incluyó los siguientes pasos:

  1. 1.

    Las imágenes se introdujeron en CNN previamente entrenadas, como InceptionV3 y EfficientNet-B3. Este último ayudó a lograr un mejor rendimiento y, por lo tanto, se utilizó a lo largo del estudio. Este paso estaba realizando una función de un mecanismo de extracción de características.

  2. 2.

    A diferencia de la versión anterior, el nuevo DECIMER usaba una cadena SELFIES en lugar de DeepSMILES. Se realizó la tokenización, luego de lo cual las imágenes y sus respectivas etiquetas tokenizadas se convirtieron en TFRecords, que es un formato de datos utilizado en TensorFlow que permite un entrenamiento eficiente en Tensor Processing Unit (TPU).

  3. 3.

    Luego, los datos se introducen en una red de codificador-decodificador con cuatro capas de codificador-decodificador y ocho cabezales de atención. Los autores se han ocupado de los posibles problemas de sobreajuste al agregar una caída de 0.1 a la red.

  4. 4.

    El modelo fue entrenado en TPU. El entrenamiento del modelo más grande tomó alrededor de 14 días, lo que es una mejora significativa en la velocidad del entrenamiento en comparación con las soluciones anteriores.

Las ventajas del nuevo enfoque basado en transformadores incluían una mayor velocidad de entrenamiento y un mejor rendimiento de las pruebas. En el estudio se logró una puntuación de similitud máxima de Tanimoto 1.0 del 85,38 %. El sistema es completamente de código abierto, lo que brinda acceso abierto a los resultados y sirve como un importante punto de referencia para el trabajo futuro.

Modelos proporcionados como soluciones al concurso de Bristol Myers Squibb (BMS) en Kaggle

Más recientemente, la compañía farmacéutica BMS lanzó una competencia en Kaggle para traducir imágenes de estructuras químicas de baja calidad.

Conjunto de datos BMS

El conjunto de datos BMS es un conjunto de aproximadamente 4 millones de imágenes de estructuras moleculares sintéticas generadas y compartidas en Kaggle por la empresa antes mencionada. Las imágenes se organizan en una estructura de carpetas de 3 niveles agrupadas por el prefijo de ID de imagen. Las imágenes de entrenamiento están etiquetadas con el InChI correspondiente en un archivo separado.

Las etiquetas InChI tienen las siguientes características:

  • Cada etiqueta comienza con ”InChI = 1S/”, lo que significa que es un InChI estándar de la versión 1.

  • Las capas y subcapas se separan con el signo “/” y letras de prefijo.

  • Hay seis capas en total:

    • la capa principal, que también contiene la subcapa de fórmula química que prevalece en todas las etiquetas InChI, las conexiones atómicas y las subcapas de hidrógeno;

    • la capa de carga;

    • la capa estereoquímica;

    • la capa isotópica;

    • la capa de H fijo;

    • la capa reconectada.

  • La longitud máxima de la etiqueta puede ser de hasta 200 símbolos.

Figura 4
Figura 4

Muestras del conjunto de datos BMS: fila superior: entrenamiento, fila inferior: muestras de prueba

Las imágenes en el subconjunto de prueba difieren de las muestras del tren por su baja resolución y calidad (Fig. 4):

  • a menudo son borrosos,

  • tener más regiones de imágenes descontinuadas y/o eliminadas,

  • contienen ruido de sal y pimienta, y

  • a diferencia de las imágenes de tren, que generalmente se colocan horizontalmente, las imágenes de prueba se pueden voltear verticalmente o rotar 90/270 grados, de modo que las letras de las imágenes cambien su orientación.

Aproximadamente el 1,4% de las imágenes de trenes y el 0,7% de las imágenes de prueba tienen una relación de aspecto de más de 3:1. Por ejemplo, tamaños de imagen inusuales como (1955 veces 72) y (3043 veces 109) están presentes entre ellos. El tamaño máximo de las imágenes en el conjunto de datos del tren es (1723 veces 1537)mientras que el tamaño mínimo es (117 veces 98). En el conjunto de datos de prueba, el tamaño máximo observado es 1838×1578 y el mínimo es (93 veces 123).

Figura 5
Figura 5

Tres representaciones de la misma fórmula: InChI=1S/C13H14N2O3S2/c16-12-8-9(4-3-7-14-12)20(17,18)13-15-10-5-1-2-6 -11(10)19-13/h1-2,5-6,9H,3-4,7-8H2,(H,14,16)

Teniendo en cuenta las deficiencias y variaciones mencionadas, construir un modelo universal se convierte en una tarea desafiante. Además, la posibilidad de representar la misma molécula con la variedad de opciones requiere modelos que consideren la independencia posicional de los elementos de la imagen de la etiqueta. La Figura 5 muestra un ejemplo de representación de la misma molécula de diferentes maneras.

Métrica de evaluación

El criterio de medida para este problema es la distancia de Levenshtein (LD), que cuantifica la diferencia entre dos cuerdas. Cuanto mayor sea la distancia, más disímiles serán las cuerdas. Matemáticamente, es igual al número mínimo de ediciones requeridas para equiparar las cadenas:

  • si los últimos caracteres de cadenas a y b son iguales, entonces LD es igual al número de ediciones requeridas hasta esos últimos caracteres;

  • si los últimos caracteres de las cadenas a y b son diferentes, entonces LD es igual al número de inserciones, eliminaciones y reemplazos necesarios para formar la cadena a igual a cadena b.

La fórmula para el cálculo de la distancia de Levenshtein se proporciona en la Fig. 6.

Figura 6
figura 6

Fórmula de la distancia de Levenshtein

Como criterio de evaluación la distancia de Levenshtein es una buena opción ya que solo considera la diferencia en partes, no solo la diferencia posicional. Por ejemplo, hay una diferencia entre las siguientes dos subfórmulas de InChI (2 frente a 20), que se evaluaría como 58 por la distancia de Hamming (una diferencia de posición: todos los símbolos no coinciden por posición, incluido el último) :

c1-11-
(subrayado)
-21-16-10-19-17(12-5-3-2-4-6-12)14-9- 13(18)7-8-15(14)22

c1-11-
(subrayado)
-21-16-10-19-17(12-5-3-2-4-6-12)14-9- 13(18)7-8-15(14)22

Sobre la generación de secuencias y la metodología de análisis de InChI

Algunas de las soluciones de BMS Kaggle que han logrado un resultado satisfactorio optaron por un modelado de imagen a secuencia para abordar el problema. Esta es una tarea de subtítulos de imágenes que pertenece a los dominios CV y ​​NLP, y se basa en gran medida en un codificador basado en CNN y una arquitectura de decodificador basada en RNN. El codificador realiza la extracción de características de las imágenes, que luego sirve como entrada al decodificador para generar subtítulos. El decodificador genera el título un carácter a la vez, utilizando las características de la imagen y los caracteres predichos previamente como entradas para predecir el siguiente.

Para que el modelo “entienda” la secuencia de entrada, las cadenas InChI deben analizarse y codificarse. Por lo general, una clase de tipo tokenizador analiza la cadena InChI de tal manera que asigna cada carácter químico a un índice entero único. El analizador funciona de la siguiente manera:

  • Cada cadena de InChI se procesa previamente de tal manera que, en primer lugar, la parte de su fórmula química (p. ej., ‘C13H20OS’) se divide en un conjunto separado de átomos y sus índices. Por ejemplo, ‘C13’ se convierte en ‘C 13’.

  • En segundo lugar, su parte de carbono (parte de la cadena entre los caracteres ‘/c’ y ‘/h’, por ejemplo, ‘/c1-9(2)8-15-13-6-5-10(3)7-12(13 )11(4)14’) se divide en caracteres separados, en primer lugar, analizando el símbolo cero (el signo ‘/c’) para conservar el signo de barra delante del símbolo de carbono. Luego, se analiza la lista de números que siguen al signo de carbono. Cada número individual se disecciona de manera que cualquier símbolo que lo rodee (p. ej., los signos ‘-‘, ‘(‘,’)’) se separa por completo y el número se mantiene “puro”. Por ejemplo, ‘/c1-9(2)8-15’ se convierte en ‘/c 1-9(2)8-15’.

  • La cadena InChI procesada luego se divide en caracteres con el delimitador de espacio. Los caracteres analizados únicos se agregan a un vocabulario.

  • El vocabulario está ordenado alfabéticamente en orden ascendente.

  • Los caracteres adicionales para “inicio”, “final” y “relleno” de la cadena también se agregan como miembros del vocabulario.

  • A cada carácter del vocabulario se le asigna un número, en orden ascendente. Se crea un diccionario de cadena a entero.

  • El diccionario inverso, es decir, el mapeo de entero a cadena, también se mantiene con fines de seguimiento.

  • Luego, cualquier texto se convierte en una secuencia de caracteres agregando primero el carácter de “inicio” al comienzo de la secuencia y luego dividiendo el texto en caracteres según el delimitador de espacio. El índice entero correspondiente de cada carácter individual se agrega a la lista de secuencias. Finalmente, el carácter de “fin” se agrega al final de la lista de secuencias.

  • Para mantener la compatibilidad con versiones anteriores, también se mantiene un método de secuencia a texto.

Algunos ejemplos de soluciones Kaggle relativamente efectivas incluyen:

  • Modelado de memoria a largo plazo (LSTM) con red de atención.

  • Conjuntos de Árboles de Red de Árboles, Transformadores de Visión y Atención.

  • Conjuntos de Vision y Vanilla Transformers como codificador y decodificador, respectivamente, junto con el codificador Swin y el Vanilla Transformer Decoder.

  • Codificador basado en CNN (p. ej., Efficient Nets, ResNets) y un decodificador basado en RNN con red de atención opcional.

  • Aplicaciones de beam search para identificar la mejor secuencia de salida.

  • Validación de secuencias InChI.

Sin embargo, casi todos los casos tienen problemas con aumentos de imagen precisos, patrones de gráficos complejos, eliminación de ruido y resoluciones de imagen. El diseño de alto nivel de los modelos mencionados se describe a continuación.

Subtítulos basados ​​en LSTM

La tarea de un modelo de subtítulos de imágenes es generar una descripción clara y correcta de una imagen determinada. Por lo general, una estructura de codificador-decodificador basada en RNN se usa para tareas de traducción de secuencia a secuencia, en las que el codificador procesa una secuencia de entrada, la codifica en un vector de contexto, que luego se convierte en el estado oculto inicial del decodificador. El decodificador es responsable de generar la palabra de secuencia objetivo a la vez. La entrada a un modelo de subtítulos de imágenes es una matriz de píxeles multidimensional y la salida es su secuencia descriptiva. Los RNN se utilizan normalmente para mapear vectores de imágenes en secuencias. Hay dos opciones para alimentar imágenes a RNN: aplanar la imagen o generar su representación vectorial densa. El primer enfoque funciona prácticamente, pero da como resultado una matriz dispersa con la que es ineficiente computacionalmente trabajar. Por lo tanto, las CNN se usan comúnmente para extraer características de imágenes.

Las CNN implementan transformaciones a la entrada original en diferentes capas convolucionales y de agrupación, creando así mapas de características útiles que pueden servir como entradas para RNN en lugar de datos sin procesar aplanados. El vector de características extraído tiene una longitud fija. Por lo general, las CNN ya están preentrenadas en un gran conjunto de datos, lo que reduce significativamente el esfuerzo de entrenamiento. Esta es una técnica de aprendizaje de transferencia mediante la cual un modelo entrenado en una tarea de clasificación se reutiliza para un problema diferente pero relacionado, lo que ahorra tiempo de cómputo y recursos.

Los RNN regulares son malos para capturar dependencias de largo alcance debido al problema del gradiente que se desvanece: a medida que la red crece en tamaño, los gradientes se vuelven más pequeños en las capas inferiores. Por tanto, para sortear este problema, las redes LSTM se utilizan en la práctica como decodificadores. Son mejores para capturar dependencias de largo alcance debido a la existencia de celdas de memoria y puertas en su estructura interna: las celdas de memoria recuerdan estados anteriores, mientras que las puertas controlan el flujo de datos de un estado al siguiente. Estos ayudan a la red a transmitir solo la información relevante y omiten la información innecesaria. La Fig. 7 demuestra la arquitectura de un modelo básico de subtítulos LSTM.

Figura 7
figura 7

A pesar de las ventajas sobre los RNN simples, los LSTM también pueden ser olvidadizos. El asunto radica en el requisito de comprimir toda la información importante de la oración fuente en un vector de contexto de longitud fija, lo que conduce a una pérdida de datos necesarios (especialmente cuando se trata de oraciones más largas). En 2015, Bahdanau et al. [46] propuso una nueva metodología para centrarse en los datos importantes en la secuencia de origen al colocar una puntuación de importancia relativa para cada palabra en el vector de contexto. Este es el núcleo del mecanismo de atención. [47] que se describe con más detalle en la siguiente subsección.

El algoritmo de decodificación genera la probabilidad de que cada palabra del vocabulario sea la siguiente en la secuencia generada. La predicción se detiene tan pronto como se alcanza el token de “detención” o la longitud máxima de la cadena. Hay dos enfoques para que el modelo decida qué token generar a continuación:

  • Búsqueda codiciosa. Este método selecciona la palabra con la probabilidad más alta en cada posición como la siguiente predicción.

  • Búsqueda de haz. En lugar de muestrear una vez en cada paso, se seleccionan múltiples secuencias de palabras y se mantienen como secuencias candidatas en cada paso de tiempo. El número de candidatos está predefinido por el k parámetro cual es el haz [48]. La secuencia de salida final es la que tiene la mayor probabilidad de registro total sobre todos los caracteres generados. Esto es mejor que el enfoque codicioso porque evita que el modelo se atasque debido a una mala decisión en alguna etapa de la predicción de la secuencia.

Modelo de atención

En términos simples, el mecanismo de atención blanda [6] funciona de la siguiente manera:

  • El codificador genera una matriz que consta de cada estado oculto, en lugar de un vector de contexto.

  • Esta matriz se introduce en el modelo de atención para calcular las puntuaciones de atención para cada palabra de entrada. Las puntuaciones se utilizan como pesos para aplicar a la matriz.

  • La matriz ponderada se introduce en el decodificador, lo que permite que este último se centre solo en los bits importantes de la entrada.

Sin embargo, hay un problema con continuar usando RNN como antes: funcionan en un ciclo, procesando una palabra a la vez, lo que crea un cuello de botella en el entrenamiento. Por lo tanto, se sugiere una nueva estructura de codificador-decodificador basada en pila (“Transformador”):

  • Una pila de codificadores consta de varios codificadores individuales, que se alimentan entre sí secuencialmente. La entrada al primer codificador es un vector de incrustación de la secuencia de entrada concatenada con la codificación posicional de palabras en la oración. Los codificadores son, de hecho, CNN, que normalmente utilizan técnicas de transferencia de aprendizaje, es decir, están preentrenados (por ejemplo, ResNets, preentrenados en datos de ImageNet). Sin embargo, dado que se realiza la codificación en lugar de la clasificación, se eliminan las últimas capas lineales y de agrupación. En su lugar, se agrega una capa de agrupación promedio adaptativa para garantizar que todas las codificaciones tengan el mismo tamaño, independientemente del tamaño de la imagen original.

  • Una pila de decodificadores consta de varios decodificadores individuales que reciben entradas entre sí y del estado final del codificador. La entrada al primer decodificador es un vector de incrustación de la secuencia objetivo concatenada con la codificación posicional de palabras en la oración.

  • Dentro de cada codificador, hay un modelo de autoatención, mediante el cual la secuencia de entrada se presta atención a sí misma.

  • Dentro de cada decodificador, también está presente una capa de autoatención, mediante la cual la secuencia de destino se presta atención a sí misma.

  • Una capa de atención de codificador-decodificador en el decodificador permite que la secuencia de destino preste atención a la secuencia de entrada.

  • La capa de atención acepta tres entradas: consulta, clave y valor para calcular los puntajes de atención para cada palabra de acuerdo con esta fórmula: (puntuación = ),

aquí Q es Consulta (palabra para la que se calcula la puntuación de atención), K es Clave y V es Valor (palabras a las que se presta atención). El producto punto entre Q y K define la similitud de las palabras. Los puntajes calculados son indicativos de la probabilidad de que una palabra en particular en el vocabulario ocurra en una determinada posición en la oración. Por ejemplo, si la longitud de la secuencia objetivo es de 3 palabras y el vocabulario objetivo tiene un total de 1000 palabras, se generarán 1000 puntuaciones por cada una de las 3 palabras. A continuación, se aplica la activación de Softmax para devolver las puntuaciones calculadas como probabilidades.

Figura 8
figura 8

Subtítulos LSTM con atención

La Figura 8 muestra el marco básico del LSTM con el modelo de subtítulos de imágenes de atención suave descrito anteriormente.

Transformadores de visión

Figura 9
figura 9

Entrada y salida del codificador ViT

El uso de Vision Transformers (ViT) para el problema de OCSR se debe potencialmente a la posibilidad de utilizar la arquitectura Transformer para tareas de visión artificial. [7]. La arquitectura resultante es una combinación del codificador Vision Transformer y el decodificador Transformer. Los detalles de implementación son los siguientes:

  • La imagen de entrada cambia de tamaño a una forma común.

  • La imagen se divide en parches 2D de (16 veces 16) píxeles Esta configuración se puede anular y se puede elegir un tamaño de parche diferente. La imagen de ejemplo dividida en parches se muestra en la Fig. 9 (izquierda).

  • Los parches se aplanan y se agrega codificación posicional.

  • Los datos se pasan a través de un codificador ViT. En lugar de pasar el elemento a un perceptrón multicapa (MLP), como en el documento original, los datos se pasan a un decodificador de transformador. El resultado de este paso se muestra en la Fig. 9 (derecha).

  • El decodificador de transformador recibe la incrustación de salida y la salida del codificador como su entrada y procesa la información.

  • La salida del decodificador Transformador se utiliza para generar una secuencia de etiquetas InChI.

Este enfoque permite el uso de Transformers para la tarea de OCSR y puede usarse para resolver el problema. Sin embargo, se necesita una gran cantidad de datos para entrenar dicho modelo. Además, el número de épocas también debe ser alto. Esto lleva al punto de que la tarea consume muchos recursos y requiere una gran potencia computacional.

Modelo de subtítulos de imágenes basado en transformador en transformador profundo (ICMDT)

Este documento es el desarrollo más reciente que se centra en el problema como una tarea de subtítulos de imágenes, en la que a menudo se utiliza una estructura de codificador-descodificador con un modelo de atención opcional. [49]. El análisis se lleva a cabo en el conjunto de datos de estructuras químicas de Bristol-Myers Squibb Kaggle y los autores lograron lograr una puntuación de distancia de Levenshtein en el rango de 0,24 a 2,5 al mejorar el bloque estándar de transformador en transformador (TNT). El modelo sugerido supera a sus pares en términos de resultados de precisión y velocidad de convergencia.

A nivel granular, el problema es generar automáticamente equivalentes InChI de imágenes que contienen estructuras químicas. Por lo tanto, el problema es la fusión de la visión artificial y los campos de procesamiento del lenguaje natural.

Desde el punto de vista del preprocesamiento de imágenes, los investigadores aplican lo siguiente:

  • remodelación de la imagen en forma cuadrada y posterior relleno de partes insuficientes con píxeles de imagen intermedia;

  • agregar ruido, desenfoque y rotaciones aleatorias de 90 grados al conjunto de datos del tren para simular mejor la calidad del conjunto de datos de prueba;

  • eliminación de ruido de imagen;

  • recorte inteligente;

  • rellenando la imagen para mantener una relación de aspecto constante.

Los autores logran un brote debido a la mejora de los modelos regulares utilizados por investigadores anteriores. Específicamente,

  1. 1.

    un bloque transformador exterior, que procesa incrustaciones de parches grandes (estas son secuencias de incrustaciones de parches pequeños);

  2. 2.

    un bloque transformador intermedio, que procesa incrustaciones de parches pequeños (son secuencias de características a nivel de píxel);

  3. 3.

    un bloque transformador interno, que procesa las características a nivel de píxel contenidas en incrustaciones de parches pequeños.

  • Una imagen se divide en norte parches de 32×32 no superpuestos (los parches grandes), que luego se deshacen en incrustaciones de parches más pequeños de 16×16 y, finalmente, tensores de nivel de píxel de 4×4. El desenredado tiene lugar al pasar las incrustaciones a través de capas lineales. El proceso de división se ilustra en la Fig. 10 (arriba).

  • La codificación de posición se agrega a cada pequeño parche e incrustación de píxeles (Fig. 10 (abajo)).

  • El entrenamiento se realiza en primer lugar, utilizando imágenes a una resolución de (224 veces 224) y luego cambiando la resolución de aquellas imágenes que tienen longitudes de etiqueta superiores a 150 a (384 veces 384) para el ajuste fino (la suposición es que las etiquetas más largas corresponden a estructuras más complejas). La técnica de suavizado de etiquetas se aplica para regularizar el ruido en las cadenas de destino, y las etiquetas ruidosas se aplican en general para continuar prediciendo la cadena a pesar de la predicción incorrecta del carácter anterior en la secuencia. Los optimizadores en uso son Lookahead y Rectified Adam (RAdam), y la función de pérdida es antifocal.

  • El conjunto de datos de prueba también se gira noventa grados en cualquier dirección. El tamaño del lote probado varía de 16 a 64+ y el tamaño se mantiene constante una vez que la pérdida de validación se estabiliza.

  • La búsqueda de haz con k establecido en 16 se utiliza en la etapa de inferencia.

Figura 10
figura 10

División en parches y codificación posicional [49]

Los resultados del enfoque novedoso superan a los modelos de comparación (incluidos los conjuntos de modelos de Kaggle) alrededor de la séptima época y la convergencia tiene lugar aproximadamente en la décima época. Los autores encuentran que eliminar el ruido tanto del tren como de las imágenes de prueba mejora el resultado (o viceversa, es decir, agregar ruido al conjunto de trenes para que esté más alineado con las imágenes de prueba), mientras que el relleno no tiene impacto y el recorte inteligente disminuye el rendimiento.

Sin embargo, el modelo no logra determinar completamente algunas capas estereoquímicas y es propenso a errores alrededor de los signos “+/-“. Además, es difícil decir cómo funcionará la metodología en imágenes fuera del conjunto de datos de Kaggle, como PubChem, que puede contener imágenes más complejas y ruidosas.

Tabla 2 Rendimiento de los enfoques basados ​​en ML

En la Tabla 2 se muestra una breve descripción de los enfoques basados ​​en ML mencionados. En comparación con los enfoques basados ​​en reglas, estos sistemas utilizan un conjunto mucho más grande de conjuntos de datos de entrenamiento y ofrecen mejores resultados. Todavía hay desunión en la medición de los resultados: algunos de los enfoques miden los resultados según los criterios estándar de ML: tasa de reconocimiento, exactitud y precisión; otros usan mediciones de distancia para la cadena. Estos y otros puntos se discuten en la sección de Conclusiones.

Lagunas de los sistemas basados ​​en ML

  1. 1.

    Los superátomos y los elementos complejos generalmente están subrepresentados y no están bien clasificados en la mayoría de las soluciones existentes.

  2. 2.

    Las resoluciones de imagen no se manejan bien: algunos modelos funcionan bien con imágenes de baja resolución, mientras que otros con alta resolución. No hay una solución unificada.

  3. 3.

    Los conjuntos de datos utilizados no eran lo suficientemente grandes como para lograr el mayor rendimiento posible.

  4. 4.

    La segmentación DECIMER funciona bien principalmente con imágenes de trama. También existe la necesidad de un sistema similar para nuevas imágenes vectoriales.

Fuente del artículo

Deja un comentario