Reconocimiento de entidades químicas nombradas en los textos de publicaciones científicas utilizando el método clasificador ingenuo de Bayes | Revista de quimioinformática

Evaluamos los parámetros más adecuados para la alta precisión de CNER utilizando NBC en función de los valores de IA. Los valores más altos de IA se lograron con las ventanas de contexto uno y dos, es decir, un (dos) token antes y un (dos) token después del token de destino (ver Fig. 2) dependiendo de la clase. Para la clase sistemática, los valores más altos de IA se obtienen para la ventana de contexto uno, multi-norte-gramos con norte= 5 (IA = 0.988), y la ventana de contexto dos, multi-norte -gramos con norte = 7 (IA = 0.992), y la diferencia en los valores de precisión para estos parámetros es insignificante. Para la clase Trivial, el valor más alto de IA se logró para los siguientes parámetros: ventana de contexto uno, multi-n-gramas con norte = 7(IA = 0,984). La Figura 2 muestra que los valores de IA aumentan junto con un incremento de la ventana de contexto máxima hasta dos tokens antes y dos después de un token objetivo para la clase Systematic; sin embargo, este no es el caso de la clase Trivial, para la cual los valores más altos de IA se obtuvieron para el contexto uno. Los valores de IA promedio más altos se pueden lograr para los siguientes parámetros: ventana de contexto uno y multi-n-gramas con norte= 5(IA = 0,986); valores casi similares de IA se pueden obtener con la ventana de contexto dos y norte= 7 (IA = 0,988). Por lo tanto, los valores de IA no crecen drásticamente con un aumento en la ventana de contexto de más de un token y multi-n-gramas de más de cinco símbolos. Estas observaciones nos permiten concluir que se puede usar una combinación de una ventana de contexto, un token antes y después de un token de destino, y un máximo de n-gramas múltiples de cinco para lograr la mayor precisión de CNER basada en el enfoque naïve-Bayes, y proporciona una complejidad computacional razonable.

Figura 2
Figura 2

La relación entre la longitud de un n-grama, la ventana de contexto y la precisión de CNER: a para la clase «Sistemática», b para la clase “Trivial”, y C IA promedio para todas las clases

Los valores de IA y la precisión equilibrada (BA) de CNER para varias clases obtenidas en la validación cruzada de dejar uno fuera se dan en la Tabla 2. Los valores de IA, sensibilidad (recuperación), precisión, especificidad y BA para varios umbrales deB-las estadísticas se proporcionan en los Materiales complementarios (Archivo adicional 3).

Tabla 2 Precisión del reconocimiento de entidades químicas nombradas usando el enfoque naïve-Bayes basado en la representación de textos usando n-gramas iguales a cinco símbolos y una ventana de contexto de un token antes y después del análisis

Suponemos que la disminución en la precisión de norte-gramos de siete o más símbolos pueden estar asociados con la alta singularidad de tan largo norte-gramos en el conjunto de entrenamiento.

Estos resultados también pueden estar asociados con las peculiaridades de la formación de fragmentos de texto: el mayor número de tokens dispuestos en el tipo puede generar dificultades para reconocer las características del token de destino. Al mismo tiempo, un contexto mínimo de un token antes y después del token de destino puede ayudar a considerar palabras completas o partes de términos que pueden apuntar a una entidad química nombrada, como «inhibidor», «droga», «químico», y “sustancia”.

Cabe destacar que el número de tokens de tipo “NO CNE” es aproximadamente 50 veces mayor que el número de tokens de tipo “Sistemático” y “Trivial”. Los resultados de la Tabla 2 muestran que el desequilibrio de datos no influye en los valores de precisión IA. Resultados similares que obtuvimos anteriormente para el enfoque basado en Bayes aplicado a la predicción de la resistencia del VIH [20]. Con base en la interpretación de la precisión para «CNE» y NE de sustancias únicas y complejas, podemos proponer que los CNE se pueden extraer de los textos de los resúmenes para su posterior análisis utilizando los resultados de la predicción.

Utilizando el enfoque naïve-Bayes para CNER, investigamos la relación entre el recuerdo (sensibilidad), la precisión, la especificidad y la exactitud equilibrada para la ventana de contexto de uno y varios norte-gramos con Anavalor de uno a cinco para el corpus CHEMDNER.

La Figura 3 muestra las relaciones entre los valores de las métricas de precisión (precisión, recuperación, especificidad, BA) y B- estadísticas para los tipos «Sistemático» y «Trivial» (las clases más representadas en el conjunto de entrenamiento), tipo CNE y no CNE. La relación entre las métricas de precisión y B- las estadísticas para todos los demás tipos se proporcionan en los Materiales complementarios (Archivo adicional 3).

Fig. 3
figura 3

Las relaciones entre los valores de precisión y B- Estadísticas para los tipos: a «Sistemático»; b «Trivial»; C “CNE”; d “no CNE”

Como se muestra en la Fig. 3, los valores de recuperación y BA tienen patrones similares de crecimiento y disminución de la curva, mientras que los patrones de recuperación y las curvas de precisión son diferentes. En particular, la curva de precisión aumenta mientras que la curva de recuperación disminuye y viceversa. Es obvio y ocurre porque el número de falsos positivos disminuye mientras que el número de falsos negativos aumenta. Un pequeño número de muestras positivas (tipos Sistemático y Trivial en la Fig. 3a, b) en el conjunto de entrenamiento puede explicar el patrón más aplanado de la curva de precisión. La comparación de los patrones de crecimiento y declive de la curva revela que no están relacionados con ninguna entidad química nombrada y brinda la oportunidad de comparar métricas de precisión. Por ejemplo, para los tipos Trivial y Sistemático, el carácter de la curva de precisión cambia significativamente según el umbral, mientras que para el tipo no CNE, la situación es diferente. Permite llegar a la conclusión de que la precisión es bastante sensible al desequilibrio de los datos, mientras que la sensibilidad (recordación), la especificidad y la precisión equilibrada no son sensibles al desequilibrio de los datos. Otra característica de la precisión es su sensibilidad a la elección del umbral (ver Fig. 3). Cuando se diseña un método para extraer información sobre entidades químicas nombradas de los textos, los valores de especificidad y sensibilidad (recuerdo) son esenciales para la validación porque ayudan a estimar la proporción de falsos positivos. Un método con valores altos de especificidad y sensibilidad (recordación) brinda la posibilidad de extraer la entidad química con el nombre correcto en función de las estimaciones de probabilidades que indican pertenecer a CNE y no CNE como resultado de consenso.

Nuestro algoritmo CNER también permite evaluar cada símbolo en un FoT. Un conjunto de norte -gramas que incluyen una posición particular en el FoT se utiliza. En la Fig. 4, para la letra «o» en el token «ciclohexano», el conjunto de norte -gramos con n = 5 se usa para la estimación. Los valoresPAGSC= 0,915 y PAGSCarolina del Norte= 0.002 se calculan para la letra «o» en el token «ciclohexano» para la clase «SISTEMATICA». Sobre tales bases en nuestro enfoque ingenuo-Bayes CNER, se utiliza la coloración de FoTs. El color de la letra corresponde al verde claro paraPAGSC= 1 ( PAGSCarolina del Norte= 0), rojo claro para PAGSCarolina del Norte= 1 ( PAGSC= 0), y azul cuando PAGSC yPAGSCarolina del Norte son ambos cercanos a cero.

Figura 4
Figura 4

Un ejemplo de extracción de entidad química nombrada basada en estimaciones ingenuas de Bayes

Las entidades con nombre químico se pueden extraer después de la tokenización de los textos y hacer una predicción para cada token en función de los valores dePAGSC y PAGSCarolina del Norte. La extracción de una entidad química nombrada se puede realizar concatenando los tokens que se prevé que pertenecen a una clase CNE.

Validación del enfoque de base ingenua en la tarea de extraer entidades químicas nombradas

Extracción de entidades químicas con nombre basadas en el corpus CHEMDNER

Verificamos la aplicabilidad de nuestro enfoque para extraer entidades con nombre químico y lo probamos en un estudio de caso de extracción CNER usando CHEMDNER.

Para extraer entidades con nombre químico, debemos determinar la mejor estrategia para extraer entidades con nombre químico mediante un enfoque ingenuo basado en Bayes.

Primero, evaluamos el umbral para extraer entidades con nombre químico en función de los resultados del reconocimiento. Calculamos un conjunto de valores (Pc-Pnc)que corresponde a la máxima precisión de distinguir fichas que pertenecen y no pertenecen al CNE. El valor del umbral se obtuvo empíricamente. En particular, evaluamos la sensibilidad (recuperación), la precisión, la especificidad y la exactitud equilibrada para cada valor de umbral mediante una validación cruzada de cinco veces. Luego, seleccionamos el umbral de 0.3 porque estaba asociado con una combinación óptima de valores de sensibilidad (recall), precisión, especificidad y exactitud balanceada.

Luego, extrajimos entidades nombradas como la secuencia concatenada de tokens con ( PAGSC-PAGSCarolina del Norte)sobre elvalor T.Para mejorar el procedimiento de extracción, aplicamos algunos filtros destinados a la exclusión de tokens que obtienen valores altos de (PAGSC-PAGSCarolina del Norte)porque están sobrerrepresentados en el conjunto de entrenamiento (por ejemplo, valores numéricos, corchetes simples, etc.). Además, las entidades nombradas con codificación incorrecta se eliminaron del conjunto de CNE extraídos, sin tener en cuenta los resultados de la predicción. El conjunto de filtros se proporciona en los Materiales complementarios (Archivo adicional 4).

Los valores de precisión, sensibilidad (recuerdo), especificidad y precisión equilibrada para CHEMDNER se evaluaron mediante una validación cruzada de cinco veces. Los archivos creados para CHEMDNER se proporcionan en los Materiales complementarios (Archivo adicional 5). Para el conjunto de datos CHEMDNER, la sensibilidad (recuperación) fue 0,95, la precisión fue 0,74, la especificidad fue 0,88 y la precisión equilibrada fue 0,92. Estos valores de precisión representan el rendimiento aproximado del reconocimiento de todas las entidades químicas nombradas, no de sus partes.

Extracción de entidades nombradas de posibles agentes anti-SARS-CoV-2

Los enfoques de minería de texto y datos son muy útiles para extraer información relevante para procesos patológicos en el cuerpo humano, trastornos, efectos secundarios de medicamentos, etc. Por lo tanto, suponemos que es importante probar la aplicabilidad de nuestro enfoque para resolver tareas prácticas que pueden tienen un alto impacto clínico y biológico de interés actual. Investigamos la posibilidad de extraer entidades nombradas de sustancias químicas que pueden inhibir la proteasa principal (Mpro) del SARS-CoV-2 y ralentizar la progresión de la COVID-19. Elegimos extraer inhibidores de SARS-CoV-2/COVID-19 como estudio de caso debido a la disponibilidad de grandes colecciones de textos relevantes para los estudios de SARS-CoV-2. Suponemos que un análisis de los nombres químicos extraídos de textos relevantes para la inhibición de SARS-CoV-2 Mpro puede ayudar a identificar algunas tendencias en los compuestos químicos particulares, sus clases y familias que se prueban con mayor frecuencia contra SARS-CoV-2 Mpro. .

Extrajimos un número total de 8.071 entidades nombradas correspondientes a 2.649 CNE únicos. Luego, calculamos el valor de precisión para los ejemplos extraídos mediante anotaciones automáticas seguidas de una inspección manual. Primero, realizamos consultas automatizadas de PubChem [36] y ChEMBL [37] bases de datos Estas consultas nos permitieron estimar automáticamente el número de muestras positivas verdaderas. Luego se comprobaron los resultados de las consultas automatizadas. En total, 4.374 entidades nombradas se encontraron correctamente en las bases de datos (1.201 CNE sin duplicados). Para aquellas CNE que no se encontraron en las bases de datos, realizamos una anotación manual de las entidades nombradas extraídas clasificándolas en CNE y no CNE. El examen manual de los CNE recuperados nos permitió identificar adicionalmente 1407 NE extraídos correctamente (507 CNE sin duplicados). Con base en los resultados de la validación manual y automatizada, calculamos la precisión para elConjunto SARSCoV-2 Mproque fue 0.72.

Durante una inspección manual de las entidades reconocidas como pertenecientes a los CNE según el CNER ingenuo-Bayes, notamos que algunas entidades se identificaron correctamente pero no se encontraron en las bases de datos PubChem y ChEMBL. Algunos de ellos (1%) fueron identificados como CNE por el algoritmo de Naïve-Bayes, pero no se encontraron en las bases de datos debido a errores tipográficos (por ejemplo, dichas entidades nombradas incluyen «hidroxibenzoato» (el nombre correcto: hidroxibenzoato) y «ditiazona » (el nombre correcto: ditizona). Otra parte que consta del 1% de entidades encontradas eran códigos de compuestos químicos proporcionados en la publicación y, por lo tanto, tenían el contexto que indicaba que la entidad es CNE. Aproximadamente el 6% se reconocieron pero no se encontraron en PubChem porque pertenecen a familias químicas. El modelo naïve-Bayes se basó en la clase fusionada CNE, que incluye familias químicas; por lo tanto, fueron reconocidos por el enfoque naïve-Bayes pero, naturalmente, no se encontraron en PubChem. Ejemplos de tales entidades nombradas incluyen «ginsenósidos», «flavonoides», «triterpenoides». Entidades químicas nombradas que son compuestos naturales no se han encontrado a través de consultas automatizadas de la base de datos PubChem. Los nombres de péptidos bioactivos y che incompletos Las entidades con nombre lógico, así como todos los demás términos, se consideraron falsos positivos. Los CNE extraídos se proporcionan en los Materiales complementarios (Archivo adicional 4).

El análisis manual de las menciones de la entidad química positiva verdadera nos permitió identificar varios nombres de compuestos químicos que se evaluaron para inhibir el SARS-CoV-2 (por ejemplo, hidroxicloroquina, cloroquina, quercetina, rutina, curcumina, darunavir, saquinavir y flavonoides).

Si bien la cloroquina y la hidroxicloroquina son los fármacos más investigados y, por lo tanto, aparecieron en el conjunto de entidades químicas nombradas extraídas de los textos recopilados por una consulta asociada con SARS-CoV-2 Mpro, se consideraron ineficaces después de un conjunto de estudios. [38]. La quercetina se probó experimentalmente para determinar su actividad contra el SARS-CoV-2 Mpro y demostró actividad inhibitoria [39]. Los flavonoides representan un grupo de compuestos naturales (metabolitos vegetales secundarios) que son ampliamente discutidos en la literatura científica y se considera que tienen efectos antiinflamatorios y la capacidad de modular las citocinas. [40]. Se demostró el efecto inhibitorio de algunos flavonoides (tangeretina, gardenina B) sobre el SARS-CoV-2 [40]. La actividad antiinflamatoria y la actividad inhibidora de la dihidromiricetina en el SARS-CoV-2 Mpro se evaluaron en un ensayo FRET (transferencia de energía por resonancia de fluorescencia) [41]. Se demostró que la concentración inhibitoria media máxima de SARS-CoV-2 Mpro por dihidromiricetina alcanzó 1,76 µM. Adicionalmente, los autores [42] confirmaron la actividad de la dihidromiricetina sobre las proteínas incluidas en la vía TGF-β 1/Smad, responsables del desarrollo de la fibrosis pulmonar.

Estos resultados demuestran la aplicabilidad del enfoque CNER basado en Bayes para la extracción de CNE en el texto de resúmenes relevantes para una tarea en particular y, por lo tanto, permiten a la comunidad científica enriquecer el conocimiento sobre compuestos químicos potenciales efectivos contra objetivos particulares y que pueden usarse para el tratamiento de enfermedades específicas, incluidas nuevas amenazas para la humanidad como el COVID-19.

Un lugar de los ingenuos-Bayes CNER entre otros métodos

Los textos de las publicaciones representan datos poco formalizados y su clasificación puede resultar difícil incluso para los expertos en la materia. A diferencia de los enfoques que toman cualquier característica semántica o gramatical de un token, nuestro método toma los datos del texto como entrada sin ningún procesamiento adicional en partes del discurso y otras características gramaticales o semánticas.

Se han desarrollado muchos enfoques de inteligencia artificial (IA) destinados al reconocimiento de entidades nombradas químicas y biológicas. [15, 18, 21]. La mayoría de los enfoques que se han desarrollado recientemente durante varios años se basan en el uso de redes neuronales con diferentes variantes de arquitectura de memoria a corto plazo (LSTM) o campos aleatorios condicionales (CRF). [16, 42].

Muchos algoritmos NER basados ​​en el aprendizaje automático utilizan un modelo gráfico probabilístico discriminativo, un ejemplo particular de los cuales son los campos aleatorios condicionales (CRF) [43]. Como entrada, los modelos basados ​​en CRF requieren un conjunto de parámetros para secuencias de tokens. Nuestro enfoque previamente desarrollado para CNER basado en CRF permite la extracción de entidades químicas nombradas con una precisión de 0,91 y una recuperación de 0,87 [16, 42]. Tang y colegas [44] realizó una comparación del rendimiento del modelo CNER basado en máquinas de vectores de soporte estructurado (SSVM) y basado en CRF. Utilizando el mismo conjunto de funciones, el método basado en SSVM demostró un rendimiento cercano en comparación con el basado en CRF: los valores de precisión fueron 0,88 y 0,89 y la recuperación 0,83 y 0,81, respectivamente.

Algunos algoritmos se basan en métodos de aprendizaje profundo y utilizan redes neuronales (NN) con múltiples capas. La arquitectura común en tales tareas es una variedad de redes neuronales recurrentes: memoria a corto plazo (LSTM). Se usa una modificación del LSTM con propagación hacia adelante y hacia atrás de la señal; el LSTM bidireccional (BiLSTM) se usa típicamente para NER. La arquitectura LSTM se puede utilizar en combinación con otras técnicas. En el estudio de I. Korvigo y coautores [19] Se utilizó la incrustación a nivel de palabra y carácter para describir textos. Mientras se entrenaba en el corpus CHEMDNER, el modelo alcanzó precisión y recuerdo 0.89 y 0.89 para CNER, respectivamente. En el otro estudio se utilizó la combinación de BiLSTM y CRF [45]. Los autores proporcionan valores de precisión y recuperación para dos modelos: CRF-BiLSTM (CHEMDNER: precision 0.92, recuerdo 0,89) y CRF-BiLSTM con capa de atención (CHEMDNER: precisión 0,92, recuerdo 0,90).

El uso de modelos previamente entrenados, como el BERT basado en NN mencionado anteriormente, puede mejorar el rendimiento del algoritmo NER. Para aumentar la precisión del reconocimiento en tareas de minería de textos biomédicos, se desarrolló BioBERT [46]. Los autores compararon el rendimiento de su modelo con BERT. El corpus de precisión para BioBERT fue 0,92 en comparación con 0,91 (BERT), recuerde 0,91 en comparación con 0,89 según CHEMDNER.

La mayoría de los enfoques basados ​​en IA convierten inicialmente el texto en vectores o utilizan una representación de texto de palabras dispersas creada con el preprocesamiento de un corpus de texto y la preparación de vectores (por ejemplo, tales enfoques incluyen la preparación de incrustación de palabras o la técnica de codificación en caliente). Cabe señalar que el rendimiento de CNER utilizando el enfoque naïve-Bayes, en general, es comparable con la mayoría de los métodos publicados anteriormente. [16, 18, 22,23,24,25]mientras que es ligeramente más bajo en comparación con otros enfoques basados ​​en los resultados del CV quíntuple [19, 45, 46].

El método presentado es simple para la aplicación y no requiere volver a entrenar después de la ampliación de la transformación del corpus en vectores. Esta última característica proporciona la versatilidad de nuestro método en su aplicación a muy diferentes estilos de texto y peculiaridades del lenguaje, que también pueden incluir algunos cambios específicos en la gramática del lenguaje y las características léxicas que pueden ocurrir durante la evolución natural del lenguaje.

Cabe señalar que evaluamos la precisión de la extracción de CNE además de la precisión de un token en particular que pertenece a la clase específica. Por lo tanto, los textos relevantes para varias consultas se pueden procesar de manera eficiente utilizando el enfoque basado en ingenuidad desarrollado. La extracción de entidades químicas novedosas puede ser bastante útil para el diseño de fármacos novedosos, incluidos los estudios experimentales y los enfoques quimioinformáticos, la detección virtual que representa un grupo de enfoques poderosos para explorar un gran espacio químico. [4, 47].

Deja un comentario