Los nuevos algoritmos demuestran la detección no dirigida de unidades cambiantes químicamente significativas y la asignación de fórmulas para datos HRMS de mezclas poliméricas en la aplicación web de constelación de código abierto | Revista de quimioinformática

Descripción general

En nuestra publicación anterior que detalla una versión anterior de Constellation [30] hemos descrito cómo el algoritmo Trend Finder no supervisado en el corazón del software generó primero una lista de unidades/bases potenciales para probar en función de las «brechas» que ocurren con frecuencia, o distancias entre m/z valores, en el conjunto de datos HRMS sin procesar. Hasta ahora, este enfoque dio como resultado una lista muy grande de números de punto flotante, sin un significado químico necesariamente reflejado en estos patrones. Tanto como una forma de reducir esta lista (ahorrando una cantidad significativa de tiempo en la búsqueda de tendencias no supervisada) como para ofrecer un punto de partida para la interpretación de los resultados de la búsqueda de tendencias, hemos desarrollado dos nuevos algoritmos de búsqueda de unidades/bases que buscan Por sólo químicamente significativo patrones de repetición en el conjunto de datos; es decir, sólo unidades de cambio a las que se les puede asignar una fórmula química razonable.

Estos algoritmos pueden funcionar en modo «no dirigido» (en el que Constellation optimiza todas las configuraciones en función del conjunto de datos MS de entrada o se establecen en valores predeterminados «razonables» en función de los conjuntos de datos que usamos para probar el software) o en modo «dirigido» ( donde el usuario puede personalizar completamente todas las configuraciones). Funcionan cargando una biblioteca de fórmulas generada previamente, desde la cual se seleccionan unidades/bases potenciales de acuerdo con parámetros que incluyen límites elementales y límites de tamaño mínimo/máximo. Luego, se busca en el conjunto de datos de MS sin procesar para ver si alguna de estas unidades/bases potenciales está presente y, de ser así, con qué frecuencia se repite. La lista resultante de unidades/bases se envía directamente al algoritmo Trend Finder (en modo «no dirigido») o se muestra en un cuadro de selección para que el usuario la seleccione como desee antes de buscar tendencias (en modo «dirigido»). La Figura 2 muestra el flujo de trabajo cuando se usa Constellation con los nuevos algoritmos de búsqueda de unidades/bases.

Figura 2
Figura 2

Diagrama de flujo de trabajo para procesos de búsqueda de unidades/bases en Constellation

Generación de biblioteca

Los nuevos algoritmos de búsqueda de unidades/bases requieren una biblioteca de posibles fórmulas iniciales, generadas por una iteración en bucle a través de los elementos C, H, S, O, N, P, F, Cl, Br, Si y X según los límites elementales. Introducimos X para representar un punto de conexión desde la unidad polimérica cambiante hasta el andamio molecular. Todos los elementos en la iteración están etiquetados con su valencia ν, que es necesaria para la evaluación de la fórmula molecular según el equivalente de doble enlace (DBE) [43, 44] El DBE se basa en reglas químicas y se puede aplicar como una restricción para evaluar composiciones elementales [43] – como ejemplo, las reglas de Lewis y Senior se pueden utilizar como otro enfoque de validación basado en productos químicos [45,46,47]. Si se obtiene un valor DBE no entero o negativo, la fórmula molecular inicial para la unidad/base potencial era incorrecta [43]. El DBE se calcula como

$$mathrm=fracsum [_(_-2)]+ 1$$

(1)

en el cual mii es el número de átomos del elemento i. [43] Sin embargo, la ecuación. (1) tiene algunos inconvenientes en nuestro enfoque de iteración, ya que aceptaría estructuras poco razonables como NX, que se generan en nuestra iteración sistemática. Por lo tanto, derivamos la Ec. (2) para la validación de nuestras fórmulas, que también se basa en principios fundamentales de valencia y puede verse como un enfoque relacionado pero restringido para el cálculo de DBE.

$$fracsum __-fracsum _-chi (sum _+mathrm-1)=0$$

(2)

con (chi) definido como

$$chi =left{begin1, sum _>1\ 0, sum _=1endright.$$

(3)

Algunos elementos, como el azufre y el fósforo, pueden tener diferentes estados de valencia en los compuestos orgánicos, por lo que se deben considerar diferentes combinaciones de valencia. Por lo tanto, cada estado de valencia de un elemento se incluye de forma independiente en la iteración. Nuestra expresión para el cálculo de DBE junto con la valencia predefinida incluye fórmulas moleculares que comprenden múltiples elementos en estados de valencia más altos, así como combinaciones mixtas de estados de valencia. Estas fórmulas moleculares podrían excluirse si solo se consideran las valencias normales debido a valores negativos de DBE. La Tabla 1 enumera los estados de valencia y los límites de composición utilizados para la generación de bibliotecas.

Tabla 1 Estados de valencia y límites de composición predeterminados utilizados para la generación de bibliotecas

Selección de fórmula

El proceso de búsqueda de unidades/bases comienza con la selección de posibles fórmulas de la biblioteca principal. Nuestra biblioteca generada cubre millones de fórmulas moleculares y, por lo tanto, es ineficaz aplicar toda la biblioteca en nuestro algoritmo de búsqueda debido al alto tiempo de cálculo y la posibilidad de asignaciones falsas. Por lo tanto, las fórmulas potenciales se filtran de acuerdo con los límites elementales, la regla máxima DBE [48]proporciones elementales [47] 0 ≤ Cl/C ≤ 0,8, 0 ≤ Br/C ≤ 0,8, 0 ≤ Si/C ≤ 0,5) y los límites de masa metroUnidad (14 ≤ m ≤ 200 Da). El usuario puede cambiar/deshabilitar todos estos parámetros y condiciones en el modo «objetivo» o dejarlos a sus valores predeterminados en el modo «no objetivo». La lista final de fórmulas evaluadas se guarda y se envía a los algoritmos de búsqueda de unidades/bases.

Selección de algoritmos y filtrado de datos.

Después de seleccionar las posibles fórmulas, tenemos que elegir cuál de los dos algoritmos diferentes de búsqueda de unidades/bases usar, ya que el tiempo de cálculo se escala de manera diferente con el tamaño de los datos y la unidad/base establecida para cada algoritmo. En el modo «no dirigido», el algoritmo II se elige como predeterminado en función de un mejor rendimiento para bibliotecas de fórmulas grandes y conjuntos de datos de MS de entrada (descritos en la sección «Escalado de algoritmos» a continuación). Sin embargo, este no es el único factor a tener en cuenta a la hora de elegir, ya que cada algoritmo puede tener ventajas y desventajas en determinadas circunstancias, como se comentará en los siguientes apartados. Por lo tanto, en el «modo dirigido», el usuario puede elegir qué algoritmo se emplea o probar ambos individualmente. Es importante tener en cuenta que, en algunos casos y con ciertas configuraciones personalizadas, esto puede aumentar drásticamente el tiempo de análisis.

Esto se puede mitigar, si se desea, empleando el filtro de datos integrado de Constellation, que brinda al usuario dos opciones para reducir el tamaño de su conjunto de datos. La opción «Target data length» filtra seleccionando el X número de picos más intensos en el conjunto de datos de MS sin procesar, excluyendo el resto. Entorno X a un valor inferior a la longitud del conjunto de datos de MS sin procesar cargado, por lo tanto, elimina los picos menos intensos para dejar al usuario con un conjunto de datos más pequeño. La opción «Umbral de intensidad» filtra eliminando todos los picos por debajo de un umbral de intensidad mínimo especificado i (en %). En este caso, las intensidades de todos los picos se normalizan al pico de mayor intensidad y luego se normalizan las intensidades menores que i son removidos. Cabe señalar que este filtrado puede terminar excluyendo información del conjunto de datos de MS sin procesar que puede ser importante para el usuario, por lo que debe usarse con discreción. Se recomienda probar el filtrado de datos al evaluar la unidad/base y los algoritmos de búsqueda de tendencias para acortar el tiempo de análisis, después de lo cual los parámetros se pueden ajustar en consecuencia y volver a intentar el análisis con el conjunto de datos de longitud completa una vez que haya algo de tiempo para esperar. por un resultado.

Algoritmo I – búsqueda local

El primer algoritmo de búsqueda de unidad/base (ver el diagrama de flujo en la Fig. 3) agrega la masa precisa de cada unidad en nuestra lista de fórmulas a la m/z valor de cada punto de datos en el conjunto de datos HRMS sin procesar para generar un nuevo conjunto de datos, que luego se compara con el conjunto de datos HRMS original (± error de selección). Si algún punto entre los dos conjuntos de datos coincide, la unidad correcta y la suma correspondiente de la masa exacta más la unidad se guardan en nuestra lista de salida. Luego, el algoritmo toma cada suma en esta lista de salida, agrega la unidad nuevamente a la suma y busca coincidencias en el conjunto de datos HRMS inicial (± error de bucle). El último paso se repite en un ciclo, donde por cada iteración exitosa, aumentamos el contador de repeticiones norte por uno hasta que sea igual al número de pasos de búsqueda metro. El parámetro metro puede ser elegido por el usuario y tiene un fuerte impacto en el tiempo de cálculo y la longitud de la unidad lista, especialmente si se definen altos rangos de error. Si metro se alcanza, la unidad se guarda para pasarla a Trend Finder.

Fig. 3
figura 3

Diagrama de flujo para el algoritmo Buscador de unidades/bases I

Cada iteración de bucle representa la adición de otro equivalente de la unidad cambiante a una masa precisa fija del conjunto de datos. Por lo tanto, el primer algoritmo identifica repeticiones de una unidad cambiante en secuencia («localmente»), lo que significa que la unidad tendrá una alta probabilidad de producir una serie en Trend Finder. Este enfoque de «búsqueda local» genera una lista pequeña y seleccionada de unidades/bases y es más adecuado para conjuntos de datos muy complejos, ya que reduce la cantidad de unidades/bases potenciales en comparación con el enfoque de «búsqueda global» del algoritmo II. Por lo tanto, para conjuntos de datos complicados, el algoritmo I puede reducir considerablemente el tiempo total de cómputo cuando se ejecuta Trend Finder en modo «no dirigido».

Algoritmo II – búsqueda global

El segundo algoritmo de búsqueda de unidad/base (ver el diagrama de flujo en la Fig. 4) calcula las distancias entre cada punto de datos en el conjunto de datos HRMS para obtener una lista de diferencias. Esta lista se compara con la lista de unidades potenciales en la biblioteca de fórmulas (± error de selección). Si hay coincidencia, se toma la unidad correspondiente y se multiplica por un contador de repeticiones norte, y luego este valor se compara nuevamente con la lista de diferencias (± error de bucle). Este paso se repite, y para cada iteración de ciclo exitosa norte se incrementa en uno hasta que sea igual al número seleccionado de pasos de búsqueda metro. Si metro se alcanza, la unidad se guarda para pasarla a Trend Finder. Este enfoque compara todos los valores en la lista de diferencias con cada unidad en la biblioteca y no aplica ninguna restricción en el entorno local de un patrón encontrado (es decir, una unidad que cambia no tiene que repetirse en secuencia); por lo tanto, los resultados corresponden a una «búsqueda global» dentro del conjunto de datos de MS sin procesar.

Figura 4
Figura 4

Diagrama de flujo para el algoritmo Buscador de unidades/bases II

La ventaja del segundo algoritmo es una alta sensibilidad para patrones que corresponden a unidades cambiantes que muestran una mínima repetición secuencial (o “local”). Además, este enfoque muestra un mejor escalado cuando se utilizan bibliotecas más grandes de posibles fórmulas iniciales o conjuntos de datos de MS sin procesar más grandes en comparación con el enfoque de búsqueda local en el algoritmo I (consulte la sección «Escalado de algoritmos» a continuación para obtener un desglose detallado de este escalado). Por lo tanto, el algoritmo II es adecuado para el análisis rápido de conjuntos de datos HRMS muy grandes. Sin embargo, no considera si las repeticiones encontradas están relacionadas entre sí (es decir, descubiertas secuencialmente en el conjunto de datos), lo que puede resultar en una menor probabilidad de que estas unidades/bases devuelvan series en Trend Finder. Por lo general, también hay más unidades/bases devueltas por este algoritmo, lo que puede resultar en un tiempo de análisis más largo cuando se encuentra la tendencia en el modo «no dirigido».

Parámetros del algoritmo

Ambos algoritmos dependen de numerosos parámetros, como puede verse en las Figs. 3, 4. El usuario puede personalizar todos los parámetros en el modo «dirigido» o Constellation puede decidirlos automáticamente en el modo «no dirigido», sin ninguna optimización previa ni comprensión de los algoritmos. En el modo «no dirigido», se asumen valores predeterminados «razonables» para la mayoría de los parámetros, que se optimizaron en el desarrollo para cinco conjuntos de datos HRMS que contienen especies poliméricas de varias fuentes. En este modo, Constellation también puede realizar algunos ajustes de parámetros automatizados en función del conjunto de datos HRMS sin procesar de entrada; por ejemplo, el tamaño máximo de una unidad de cambio potencial se establecerá en el más grande. m/z valor en el conjunto de datos dividido por el número mínimo de repeticiones deseadas.

Evaluación de algoritmos

Para comprobar que los dos nuevos algoritmos de búsqueda de unidades/bases funcionaban según las expectativas, los probamos en múltiples conjuntos de datos HRMS de polímeros con unidades repetitivas conocidas. Estos conjuntos de datos se obtuvieron de la base de datos MassIVE, un recurso desarrollado por el Centro de espectrometría de masas computacional de la Universidad de California, San Diego, EE. UU. para «promover el intercambio global y gratuito de datos de espectrometría de masas». [49] Los conjuntos de datos corresponden a un estudio publicado por da Silva et al., quienes desarrollaron un método computacional para eliminar características espectrales de masas repetitivas. [8] En el estudio, los autores aplicaron su método a espectros de masas de PEG 400 y material de referencia estándar NIST 1950 (metabolitos en plasma humano) enriquecidos con PEG 400, así como un extracto de hisopo que contenía varios polímeros. Dado que algunas de las señales repetidas aquí son «conocidas», y los conjuntos de datos del estudio están disponibles públicamente, ofreció la oportunidad de evaluar si nuestros algoritmos recientemente desarrollados pudieron detectar estas unidades cambiantes previamente identificadas. Ambos algoritmos se probaron en modo «no objetivo» (donde el software eligió automáticamente la configuración o se estableció en valores predeterminados «razonables») y modos «dirigidos» (donde se personalizaron varias configuraciones para ayudar a encontrar las unidades cambiantes de interés).

Para empezar, aplicamos ambos algoritmos para buscar unidades repetitivas dentro de la categoría “contaminantes”, definida por da Silva et al. que contiene PEG 400 (unidad repetitiva de C2H4O), moléculas perfluoradas (unidad repetitiva de CF2) y PPG (unidad repetitiva de C3H6O) [8] Pudimos encontrar con éxito la unidad de repetición de PEG en el conjunto de datos de «muestra de plasma enriquecida con un hisopo» con ambos algoritmos en modo «no dirigido». el CF2 ambos algoritmos también encontraron la unidad, pero debido a una repetición local débil, solo el enfoque de búsqueda global (algoritmo II) tuvo éxito en el modo «no objetivo», mientras que el enfoque de búsqueda local (algoritmo I) pudo encontrar el CF2 unidad en modo «objetivo» con parámetros optimizados. También se debe tener en cuenta que el algoritmo II encontró la unidad PPG en modo «no objetivo», a pesar de que el estudio al que se hace referencia no encontró ninguna repetición de esta unidad en el conjunto de datos. [8] También investigamos la capacidad de nuestros algoritmos para buscar el CH2C2H4C3H6 y C4H8 unidades repetitivas de la categoría “composición” definida por da Silva et al. [8] No esperábamos un patrón de repetición local altamente definido para estas unidades, por lo tanto, se predijo que el algoritmo II arrojaría mejores resultados en comparación con el algoritmo I. Como era de esperar, en el modo «no dirigido» pudimos encontrar todas las unidades repetitivas conocidas con el algoritmo II, mientras que el algoritmo solo devolví una lista parcial. Sin embargo, en el modo «objetivo» con algunos ajustes de parámetros, pudimos encontrar todas las unidades con ambos algoritmos.

Estos pasos de evaluación mostraron que nuestros algoritmos pudieron detectar todas las unidades cambiantes identificadas previamente en estos conjuntos de datos, incluida una unidad adicional no identificada originalmente en el estudio de referencia. Dada su capacidad para encontrar correctamente los valores esperados, esperamos que los algoritmos funcionen de manera similar para detectar nuevas unidades cambiantes desconocidas en análisis no dirigidos y, con suerte, proporcionen valor agregado al analista cuando busque conjuntos de datos complejos de HRMS para patrones repetitivos en un manera automatizada, no supervisada. En el modo «no dirigido», donde Constellation elige automáticamente los parámetros o los establece en los valores predeterminados, el algoritmo II pudo identificar de manera constante todas las unidades cambiantes esperadas en nuestra evaluación, por lo que lo elegimos como el algoritmo predeterminado en este modo. El algoritmo II también es el predeterminado en el modo «objetivo», aunque aquí, por supuesto, el usuario puede cambiar al algoritmo I y ajustar otros parámetros si lo desea. La Figura 5 resume visualmente estos resultados de evaluación, incluida la comparación de los modos «objetivo» y «no objetivo» con ambos algoritmos.

Figura 5
Figura 5

Resultados de la evaluación para ambos algoritmos (modos dirigidos y no dirigidos) para el conjunto de datos de «muestra de plasma enriquecida con un hisopo» de da Silva et al.,[8] filtrado a 988 puntos de datos utilizando la opción «Target data length» en el filtro de datos de Constellation. Cada unidad cambiante informada en el estudio anterior (abscisa) se muestra junto con cuántas veces se detectó en el conjunto de datos usando los nuevos algoritmos de búsqueda de unidad/base desarrollados aquí (ordenada)

Escalado de algoritmos

Se investigó el impacto del tamaño del conjunto de datos de MS sin procesar y la biblioteca de posibles fórmulas de inicio en el rendimiento de ambos algoritmos. Tomamos el conjunto de datos de «muestra de plasma enriquecida con un hisopo» disponible públicamente de da Silva et al. [8] y lo filtró varias veces para generar cuatro conjuntos de datos nuevos que contenían los 1000, 2000, 3000 o 4000 picos principales del conjunto de datos original en función de la intensidad de la señal. A continuación, se generaron múltiples bibliotecas de fórmulas con un script de creación de biblioteca (el mismo que se usa para crear la biblioteca principal para los algoritmos de búsqueda de unidades/bases, como se describió anteriormente). Los parámetros para la generación de la biblioteca de fórmulas se cambiaron cada vez para dar 9 bibliotecas que varían en tamaño desde 127 hasta 951725 fórmulas de unidad de cambio potencial.

Luego, estas bibliotecas se usaron en la búsqueda de unidades/bases para cada uno de los conjuntos de datos filtrados, con algoritmos y configuraciones predeterminadas para todos los parámetros, mientras se registraba el tiempo de cálculo y la cantidad de unidades encontradas. Los resultados (que se muestran en la Fig. 6) muestran que el rendimiento para bibliotecas de unidades más grandes y conjuntos de datos de MS sin procesar fue mejor para el enfoque de búsqueda global (algoritmo II), pero para conjuntos de datos más pequeños, independientemente del tamaño de la biblioteca utilizada, el enfoque local. (algoritmo I) demostró un mejor desempeño. Además, el algoritmo I arrojó una lista más pequeña de unidades, como se esperaba dado que el algoritmo II no requiere que las unidades se repitan «localmente» (en secuencia). Esta tendencia fue independiente del tamaño de la biblioteca de fórmulas elegida. Estos resultados ayudaron a establecer valores predeterminados razonables para las tareas de búsqueda de unidades/bases y también deberían ayudar a informar a los usuarios sobre qué opciones pueden brindar el mejor rendimiento para su conjunto de datos al personalizar los parámetros a su gusto.

Figura 6
figura 6

escalado de algoritmos, a con diferente tamaño de conjunto de datos, b con el aumento de la longitud de las listas de unidades potenciales; ambos indican un mejor desempeño para el algoritmo II. C Comparación entre el número de unidades encontradas por ambos algoritmos con una lista de unidades constante (127 entradas) y un tamaño de conjunto de datos creciente, que muestra un número menor de unidades para el algoritmo I debido a la consideración de la repetición local. d Gráfico 3D del tiempo de cálculo en función del tamaño del conjunto de datos y la longitud de la lista de unidades

Fuente del artículo

Deja un comentario