Descripción general de UmetaFlow
UmetaFlow se creó para el procesamiento rápido de grandes conjuntos de datos LC-MS/MS y, para ese propósito, se implementa como un Snakemake [23] flujo de trabajo, lo que permite una alta escalabilidad y velocidad debido a la paralelización. Esta versión es compatible con los sistemas operativos macOS y Linux. Además, UmetaFlow contiene enlaces de Python a los algoritmos de OpenMS (pyOpenMS [24]) y otros módulos de Python que se usan comúnmente en ciencia de datos implementados como cuadernos de Jupyter. Esto permite la computación interactiva, la fácil exploración y visualización de datos, así como la creación rápida de prototipos y la implementación de nuevos pasos. La versión de python es compatible con los sistemas operativos macOS, Linux y Windows.
UmetaFlow se puede dividir en cuatro partes: (i) preprocesamiento de datos y recuantificación opcional que genera una tabla de características metabólicas, (ii) fórmula y predicciones estructurales, (iii) un paso de exportación GNPS que genera todos los archivos necesarios para FBMN [20] y IIMN [21]y (iv) coincidencia espectral. El resultado final del flujo de trabajo es una matriz de características con masa a carga (m/z), tiempo de retención (RT), información de aducto y área de pico (intensidad) de cada característica en cada archivo de entrada, así como espectro de masas fragmentado (MS2) coincidencias de biblioteca y anotaciones de predicción estructural y de fórmula. Además, un formato de archivo GraphML generado originalmente desde GNPS se anota con predicción estructural y de fórmula para inspección visual.
Inicialmente, los archivos sin procesar deben convertirse de un formato específico del proveedor al formato mzML abierto impulsado por la comunidad. Si los datos se obtienen en modo de perfil, se debe aplicar un algoritmo de selección de picos para convertirlos al modo de centroide para compatibilidad con los algoritmos de OpenMS. Después de centroiding, la distribución de intensidad de iones a través de m/z se reduce a un solo punto, el vértice del pico, lo que conduce a una reducción significativa de los datos. Hay un paso inicial opcional en el flujo de trabajo para la conversión de archivos y la selección máxima de datos sin procesar de Thermo Fisher a través del algoritmo OpenMS. Convertidor de archivos. Este algoritmo utiliza el ejecutable ThermoRawFileParser (archivo adicional 1: Figura S1a), que es una herramienta sencilla compatible con los sistemas operativos Linux, macOS y Windows. [25]. Una alternativa popular, que también funciona para otros formatos de proveedores, es msConvert de ProteoWizard. [26] que se pueden emplear de forma independiente (Tabla 1). msConvert de ProteoWizard es compatible con los sistemas operativos Windows y Linux y se proporciona documentación completa en https://proteowizard.sourceforge.io/ [26]. Sin embargo, se deben preferir los paquetes de software de proveedores para la conversión de centroide a fin de mantener la integridad de los datos.
Preprocesamiento
El preprocesamiento es un paso crucial en la extracción de datos de metabolómica para transformar los datos sin procesar en una tabla de características metabólicas. [11]. Esta parte del flujo de trabajo utiliza OpenMS [17] algoritmos para detección de características, anotación de aductos, alineación de características y agrupamiento (Fig. 1a). Inicialmente, los archivos mzML se procesan con la herramienta OpenMS HighResPrecursorMassCorrectorque corrige los precursores de MS asignados por error2 espectros, seleccionando el nivel de espectro de masas intacto (MS1) pico con la intensidad más alta usando RT e información de rango de masas. Este algoritmo es útil para el modo de adquisición dependiente de datos (DDA), donde los iones más intensos de un espectro se seleccionan para la fragmentación, pero se pueden ignorar para otros métodos de adquisición. El algoritmo de detección de características FeatureFinderMetabo detecta trazas masivas de similares m/z a lo largo de la dimensión RT, desconvoluciona (parcialmente) los picos cromatográficos superpuestos y ensambla trazas de una sola masa que se eluyen conjuntamente con las características de los metabolitos para la reducción de datos [27]. Los parámetros más importantes para la detección de características son el error de masa y el umbral de ruido, definidos por el instrumento y el método que se utiliza para analizar las muestras, así como el ancho del pico, que está directamente relacionado con el sistema cromatográfico (Archivo adicional 1: Tabla S1). Los mapas de características generados por FeatureFinderMetabo son contenedores que incluyen información sobre cada función, como m/z, RT, carga e intensidad, y se almacenan como archivos FeatureXML, un formato de archivo OpenMS para datos LC-MS. Aquí, el usuario puede definir opcionalmente espacios en blanco, controles de calidad (QC) o muestras de control que permitirán la eliminación de fondo al establecer un límite de relación de intensidad. Los archivos FeatureXML ahora filtrados, junto con los archivos mzML correspondientes, son procesados por HighResPrecursorMassCorrectorque corrige MS asignados por error2 iones originales a masas monoisotópicas. Próximo, MapAlignerPoseClustering [28] realiza una alineación de RT lineal entre los archivos featureXML para corregir cualquier cambio de RT cromatográfico (archivo adicional 1: Figura S1c). El algoritmo obtiene automáticamente el archivo utilizado como referencia para la alineación, si no lo especifica el usuario, y es el archivo con el mayor número de características (p. ej., una muestra de control de calidad agrupada). Los archivos mzML también se introducen en MapRTTransformador para la alineación RT, utilizando archivos de descripción de transformación (.trafoXML) generados a partir de MapAlignerPoseClustering [28]. Los mapas de características alineados se someten a análisis con Descargador de aductos de metabolitos, que se utiliza para la anotación de aductos (Archivo adicional 1: Figura S1e), así como para convertir las características cargadas en masas neutras y características de agrupamiento que se originan a partir del mismo metabolito [29]. Este algoritmo es importante para la reducción de información, fórmulas y predicciones estructurales, así como para FBMN. Aquí, el parámetro más importante es la lista de aductos que posiblemente genere el instrumento, en ionización positiva o negativa, y la probabilidad de que ocurran. ID Mapper [30] anota las características que tienen MS2 información que contenga los metadatos necesarios para el paso de exportación GNPS. Todos los archivos de características están finalmente vinculados por FeatureLinkerUnlabeledKD [31] para hacer coincidir las características correspondientes en varias ejecuciones por m/z y RT y almacene toda la información de características en un solo mapa de consenso (Archivo adicional 1: Figura S1g). Un paso opcional permite filtrar características con demasiados valores faltantes en las muestras, mediante un número definido por el usuario que representa la fracción mínima de muestras para que una característica esté presente. Finalmente, el mapa de consenso se convierte en una tabla de características con información sobre m/zRT, aducción, así como la presencia e intensidad de cada característica en cada archivo de entrada (Archivo adicional 1: Tablas S2, S3 y S4) en formato separado por tabuladores (.tsv).

Descripción general de UmetaFlow. El usuario puede clonar UmetaFlow (versión de portátil Snakemake o Jupyter) desde github y seguir la guía paso a paso para configurarlo. a El paso de preprocesamiento es un conjunto de algoritmos que transforma los datos sin procesar en una tabla de características metabólicas. Uno de los algoritmos más importantes de este paso es el de detección de características, que detecta rastros de masa, los desconvoluciona y ensambla rastros de masa isotópica única en características de metabolitos. La alineación del mapa corrige los cambios de RT y la vinculación de funciones conecta las funciones correspondientes en ejecuciones individuales. b Inmediatamente después, se puede seleccionar un paso opcional para volver a cuantificar las características con valores faltantes. C Los archivos de características generados (recuantificados o no), junto con los archivos mzML, se utilizan como entradas para el ejecutable SIRIUS para fórmulas y predicciones estructurales. d Los archivos de características agrupadas y los archivos mzML se introducen en el PNBExportación algoritmo para generar todos los archivos necesarios para FBMN/IIMN. mi, F El resultado final de UmetaFlow es una matriz de características y un archivo de red GraphML con MS2 coincidencias de biblioteca y anotaciones de predicción estructural y fórmula
Recuantificación
La detección de características no dirigidas conduce inevitablemente a valores faltantes que representan características no detectadas y de baja calidad (por ejemplo, umbrales de longitud de traza de masa o intensidad faltantes). Para superar este problema, se debe imputar un valor de intensidad de característica, que se implementa en muchas herramientas de metabolómica mediante el relleno de espacios. [11]. Aquí, presentamos un paso opcional en el que si una característica tiene al menos un valor faltante en todas las muestras, se realiza una nueva cuantificación en todos los archivos (Fig. 1b). En relleno de huecos o cualquier paso de recuantificación, se utiliza un algoritmo de detección de características secundarias que busca señales en los archivos mzML. En UmetaFlow, este paso reemplaza todos los valores en las muestras en lugar de solo el que falta, para mantener la comparabilidad de las intensidades de las funciones en todas las muestras mediante el uso de un único algoritmo de cuantificación. Con el archivo de consenso preprocesado, se crea una biblioteca de funciones a partir de las que tienen al menos un valor faltante en todos los archivos de funciones. Esta biblioteca contiene información exacta de masa, carga y RT y se utiliza como una lista de objetivos para FeatureFinderMetaboIdent, una herramienta que detecta y extrae características, comúnmente utilizada para análisis dirigidos. Los archivos de características recuantificados se fusionan luego con los archivos de características preprocesados previamente que no tienen valores faltantes. Los archivos fusionados luego se introducen en MetabolitoAductoDescargador (Archivo adicional 1: Figura S1e), ID Mappery finalmente a FeatureLinkerUnlabeledKD (Archivo adicional 1: Figura S1g) para la agrupación. Un paso opcional aquí permite nuevamente filtrar características con demasiados valores faltantes en las muestras, un número definido por el usuario. El archivo resultante se convierte en una tabla separada por tabuladores (.tsv) de características metabólicas. Dependiendo del conjunto de datos a procesar, la recuantificación de las intensidades de las características puede ser muy beneficiosa para la imputación de valores faltantes, especialmente cuando se trata de muestras que incluyen metabolitos idénticos en concentraciones variables. Por el contrario, en un caso como el de nuestros conjuntos de datos internos que se utilizaron para la validación, donde hay muy pocos metabolitos comunes y la mayoría de las características verdaderas están presentes en altas concentraciones, la recuantificación puede dar lugar a señales falsas positivas.
Fórmula y predicciones estructurales con SIRIUS y CSI:FingerID
Una identificación opcional (tentativa) de las características detectadas con los datos de fragmentación disponibles se basa en Adaptador Sirius, una herramienta OpenMS que invoca un ejecutable SIRIUS proporcionado externamente (Fig. 1c). SIRIO [18] genera predicciones de fórmula basadas en puntajes calculados a partir de MS2 fragmentación (ppm error e intensidad) y MS1 puntajes de patrones isotópicos. CSI: ID de dedo [19] es un servicio web que, después de cargar las predicciones de fórmulas a través del ejecutable SIRIUS, usa esas fórmulas para predecir su huella digital de estructura molecular mediante un enfoque de aprendizaje automático. Luego, la huella digital se usa para buscar coincidencias en bibliotecas estructurales. Dentro de Adaptador Sirius paso de UmetaFlow, el usuario puede proporcionar tanto el mzML como la característica preprocesada correspondiente y la información de aducción (featureXML) como archivos de entrada a SIRIUS. Luego, el algoritmo crea un archivo temporal .ms (formato interno de SIRIUS) que se usa como entrada para el ejecutable de SIRIUS, lo que permite que SIRIUS calcule solo el MS2 espectros que se asignan a una característica, en lugar de todos los MS2 datos. Luego, la matriz de características preprocesada o recuantificada se anota con las predicciones mejor clasificadas de ambos algoritmos utilizando identificaciones de características únicas (Fig. 1e), clasificadas como anotaciones de metabolitos de nivel 3, de acuerdo con la nomenclatura de Metabolomics Standard Initiative (MSI nivel 3) [32].
Integración de una herramienta de red molecular: GNPS FBMN/IIMN
Una de las herramientas más importantes y ampliamente utilizadas para la creación de redes, anotaciones y visualizaciones moleculares en la comunidad de metabolómica es GNPS FBMN. [20]. En FBMN, MS2 los datos se buscan en bibliotecas espectrales de fuentes colectivas disponibles públicamente y se agrupan con moléculas relacionadas, creando redes dentro de un experimento de metabolómica. Un nuevo flujo de trabajo, IIMN [21]también está integrado en el entorno GNPS FBMN, y permite conectar y colapsar diferentes aductos de la misma característica, mejorando las redes que con solo MS2 las comparaciones a menudo permanecen desconectadas. Nuestro flujo de trabajo secundario de exportación de GNPS al final de la canalización genera todos los archivos necesarios para FBNM e IIMN (Fig. 1d).
FBMN solo puede analizar entidades que tienen datos de fragmentación asociados, por lo que el primer paso de la exportación de GNPS es filtrar el archivo de consenso generado a partir de FeatureLinkerUnlabeledKD con el Filtro de archivo herramienta, manteniendo solo las funciones que tienen MS2 información. A continuación, el archivo de consenso se introduce en el Exportación de GNPS herramienta junto con todos los archivos mzML. La herramienta es responsable de la agrupación de la MS2 información a un solo archivo MGF, conversión del archivo de consenso a una tabla de cuantificación de características (TXT) y generación de una tabla complementaria separada por comas que permite conectar y colapsar diferentes aductos de la misma característica. Además, se crea una tabla de metadatos separados por tabuladores que contiene el nombre del archivo y el número de identificación del mapa, generado originalmente a partir del algoritmo de vinculación de entidades, pero el usuario puede manipular el archivo para agregar más información que proporcionará una ventaja para la exploración visual del red. El flujo de trabajo OpenMS FBMN en GNPS aún es experimental y el usuario puede enviar un trabajo a https://proteomics2.ucsd.edu eligiendo la última versión de FBMN.
Una vez que se completa el trabajo FBMN/IIMN, el usuario puede descargar los datos y anotar el archivo GraphML con predicciones SIRIUS y CSI:FingerID para facilitar la inspección visual de la red (Fig. 1f).
Coincidencia espectral
Una estrategia común para el análisis de datos de LC-MS/MS es realizar una coincidencia espectral de los espectros experimentales con una biblioteca de espectros anotados. En la metabolómica no dirigida, la anotación espectral correcta ayuda a evitar el redescubrimiento de metabolitos ya conocidos. UmetaFlow ofrece esta característica a través del algoritmo OpenMS MetabolitoSpectralMatcher. El usuario debe proporcionar una biblioteca espectral en un formato de archivo MGF, mzML o MSP, que podría ser una biblioteca espectral disponible públicamente (p. ej., GNPS [33] o MassBank de América del Norte [34] que agregan espectros de varias bibliotecas públicas y contribuciones de los usuarios a una ubicación) o uno interno. El archivo espectral experimental que se utiliza como entrada es el MS agrupado2 (MGF) generado a partir del paso de exportación de GNPS, y el resultado final es una matriz de características con identificaciones de nivel 2 de MSI [32] con las puntuaciones de coincidencia más altas (superiores al 60 %).
Implementación del flujo de trabajo
Las herramientas de gestión del flujo de trabajo, como Snakemake, son ideales para la escalabilidad, la reproducibilidad y la fácil implementación en diferentes entornos de clúster, nube o servidor. [35]. La versión habilitada para el motor de flujo de trabajo de UmetaFlow se define mediante una cascada de reglas integradas con conjuntos de archivos de entrada y salida específicos. El usuario tiene la flexibilidad de asignar una cantidad de subprocesos y lograr la paralelización [22] para optimizar el tiempo de ejecución. Esta implementación utiliza principalmente las herramientas de línea de comandos de OpenMS 3.0. UmetaFlow también está disponible en portátiles Jupyter. Esta versión utiliza scripts de Python y, entre otros, la biblioteca pyOpenMS 3.0. La estructura modular del flujo de trabajo permite al usuario agregar u omitir pasos fácilmente, así como visualizarlos directamente. Ambos repositorios incluyen una guía paso a paso para configurar y ejecutar el flujo de trabajo. Finalmente, UmetaFlow también se implementa como una interfaz gráfica de usuario (GUI) basada en la web para visualización, optimización de parámetros y procesamiento de pequeños conjuntos de datos sin necesidad de conocimientos de programación. En la GUI, la fórmula in silico y las predicciones estructurales se omiten debido a los requisitos computacionales.
Evaluación del método
UmetaFlow se validó y optimizó los parámetros (archivo adicional 1: tabla S2) con datos LC-MS-MS/MS internos obtenidos de un UHPLC acoplado a un espectrómetro de masas Thermo Orbitrap IDX a partir de extractos de cepas de actinomicetos que producen metabolitos secundarios conocidos , así como las normas comerciales. Esta validación se realizó en un par de CPU Intel(R) Xeon(R) E5-2695 v3 @ 2.30 GHz, con 14 núcleos por socket y 2 hilos por núcleo, con 512 GB de RAM.
Los estándares comerciales que se utilizaron para la validación del flujo de trabajo fueron germicidinas A y B, kanamicina, clorhidrato de tetraciclina, tiostrepton, globomicina, ampicilina y apramicina. Los extractos de cepa que se utilizaron para la evaluación comparativa se derivaron de Streptomyces collinus Tü 365 (DSMZ 40733) que produce kirromicina y deferoxamina B [36], Kutzneria sp. CA-103260 que produce las epimicinas A y B [37] y Streptomyces sp. NBC 00162 que produce piracrimicina A [38]. Se detectó el 100 % de todas las características esperadas en las muestras y SIRIUS predijo con precisión el 76 % de todas las fórmulas. CSI:FingerID predijo con precisión aproximadamente el 62 % de las estructuras (archivo adicional 2: tabla S9). SIRIUS solo admite iones cargados individualmente con MS2 información, por lo que la tiostreptona (Archivo adicional 3: Tabla S10) y la epemicina A (Archivo adicional 4: Tabla S11) no pudieron calcularse, ya que solo se fragmentó su aducto de doble carga. Finalmente, el paso de coincidencia espectral complementó las predicciones estructurales con anotaciones para las germicidinas A y B, la kirromicina y los sideróforos de la ruta de la deferoxamina (Archivo adicional 3: Tabla S10, Archivo adicional 4: Tabla S11), alcanzando una precisión total del 65 %. anotaciones estructurales.
Para una mayor validación, el flujo de trabajo se comparó para la detección de características, la cuantificación y la selección de marcadores utilizando el conjunto de datos Thermo Q Exactive disponible públicamente con la accesión de MetaboLights MTBLS733 que incluye dos mezclas estándar (SA, SB) obtenidas de Piper negro extractos con 5 repeticiones por mezcla [39]. Cada mezcla consta de los mismos compuestos, algunos de los cuales están en diferentes concentraciones. Las relaciones de concentración entre las dos mezclas definen diferentes grupos de compuestos (Gmetrogd1-GRAMOd6), como se describió previamente por Zhucui Li et al.. [39]. En la investigación publicada relacionada con el conjunto de datos, los autores realizaron un análisis específico utilizando software de un proveedor (consulte la publicación correspondiente para obtener más detalles) e identificaron 836 características únicas, un número que representa la cantidad máxima de características que se pueden detectar con paquetes de software no específicos y evaluó cuatro software de procesamiento de metabolómica no dirigido (MS-Dial, MZmine 2, XCMS y Compound Discoverer) para la detección de características, cuantificación y selección de marcadores. Para evaluar cuantitativamente el rendimiento del software, todos los cambios de pliegue de características verdaderas derivados de compuestos (SB:SA) se calcularon con un análisis específico [39]. Siguiendo las instrucciones del autor y después de la optimización de parámetros (archivo adicional 1: tabla S4), UmetaFlow pudo detectar 778 características verdaderas, una tasa de identificación no dirigida versus dirigida del 93,1 %. De todas las características verdaderas detectadas, 736 se cuantificaron con precisión (94,6%). Para evaluar la precisión de la cuantificación de UmetaFlow, se calcularon los cambios de las intensidades entre las mezclas SA y SB de todas las características verdaderas identificadas. Luego, esos cambios de pliegue (FC) se transformaron logarítmicamente y se trazaron para comparar el enfoque dirigido y no dirigido y los resultados indicaron una alta precisión y una baja variación entre las características del mismo grupo (Fig. 2). El conjunto de datos incluía 50 marcadores discriminatorios con valores de p < 0,05 y cambios de pliegue < 0,5 o > 2. UmetaFlow pudo detectar 47 marcadores discriminatorios verdaderos y solo 5 falsos. El rendimiento del flujo de trabajo mejora significativamente con el paso de recuantificación, detectando 20 características verdaderas adicionales, así como detectando 2 marcadores discriminantes verdaderos más que si omitimos este paso (Fig. 3; Archivo adicional 1: Tabla S5).

Cuantificación relativa de las características reales de los compuestos identificados en las mezclas estándar. Cambios de pliegue transformados por registro de características en la lista de referencia medidos por análisis dirigido del conjunto de datos QE HF. Relaciones de concentración de compuestos del grupo matriz (Gmetro) y grupos diferenciales (Gd1-GRAMOd6) se especifican en la Fig. 1 del artículo de Zhucui Li et al. [39]

Rendimiento de detección de características, cuantificación y selección de marcadores entre diferentes software de procesamiento de datos metabolómicos no dirigidos utilizando el conjunto de datos de referencia MTBLS733 [39]. UmetaFlow se compara con y sin el paso de recuantificación. Consulte el archivo adicional 1: Tabla S4 para obtener más detalles.
UmetaFlow se comparó aún más utilizando el conjunto de datos generado también por Zhucui Li et al. [39], con la accesión de MetaboLights MTBLS736, analizada con un instrumento AB SCIEX TripleTOF 6600. Después de la optimización de parámetros (archivo adicional 1: tabla S6), UmetaFlow pudo anotar 874 características de las 970 que se detectaron mediante un enfoque específico. El flujo de trabajo podría competir con las herramientas de metabolómica no dirigida ampliamente utilizadas (MarkerView, MS-Dial, MZmine2 y XCMS) en comparación con la detección de características (tasa de ID de características reales del 90,1 %), la tasa de cuantificación (81,7 % de características cuantificadas con precisión) y la selección de marcadores discriminatorios (59 de 68 marcadores de discriminación verdaderos y 1 falso) (Figs. 4, 5, Archivo adicional 1: Tabla S7). Todas las evaluaciones comparativas se realizaron en una MacBook Pro 2020 con Intel Core i5-1038NG7 de cuatro núcleos a 2 GHz con 16 GB de RAM.

Cuantificación relativa de las características reales de los compuestos identificados en las mezclas estándar. Cambios de pliegue transformados por registro de características en la lista de referencia medidos por análisis dirigido del conjunto de datos tripleTOF. Relaciones de concentración de compuestos del grupo matriz (Gm) y grupos diferenciales (Gd1-GRAMOd6) se especifican en la Fig. 1 del artículo de Zhucui Li et al. [39]

Rendimiento de detección de características, cuantificación y selección de marcadores entre diferentes software de procesamiento de datos metabolómicos no dirigidos utilizando el conjunto de datos de referencia MTBLS736 [39]. UmetaFlow se compara con y sin el paso de recuantificación. Consulte el archivo adicional 1: Tabla S6 para obtener más detalles.
Además, UmetaFlow se validó con los conjuntos de datos disponibles públicamente MTBLS1129 y MTBLS1130 que incluyen tumores de colon de pacientes (n = 197) y tejidos normales (n = 39) de hombres y mujeres, para investigar subfenotipos metabólicos específicos del sexo entre tejidos cancerosos en diferentes estructuras anatómicas. ubicaciones. El sistema utilizado para la adquisición de datos en este experimento fue un UPLC de Waters acoplado a un espectrómetro de masas de tiempo de vuelo (QTOF) de cuadrupolo y la detección de características se realizó utilizando XCMS, y específicamente el paquete CAMERA para la anotación de metabolitos. Después de la optimización de parámetros (Archivo adicional 1: Tabla S8), UmetaFlow pudo detectar el 90 % de las características en modo positivo y el 100 % de las características en modo negativo con patrones de cuantificación similares a los datos publicados (Archivo adicional 1: Figura S2a, b) [40].
Finalmente, UmetaFlow se utilizó para procesar y anotar un gran conjunto de datos metabolómicos de 1245 archivos sin procesar adquiridos de un instrumento Thermo Orbitrap IDX y derivados de 100 cepas de actinomicetos, cultivadas en tres condiciones diferentes con tres réplicas biológicas por tratamiento. Los parámetros utilizados para ese conjunto de datos eran idénticos a los utilizados para los datos de validación interna (Archivo adicional 1: Tabla S2) y siguen siendo los parámetros predeterminados de UmetaFlow. La ejecución de los 1245 archivos sin formato a través del paso de preprocesamiento se logró en 1 h 12 m 24 s en un par de CPU Intel(R) Xeon(R) E5-2695 v3 a 2,30 GHz, con 14 núcleos por socket y 2 subprocesos por núcleo, con 512 GB de RAM. La recuantificación tomó 1 día 17 h 36 min. Adquirir la fórmula y las predicciones estructurales para todos los archivos tomó 9 días 23 h 58 min 16 s y la exportación GNPS tomó 29 min y 27 s. La tabla final consta de 106.578 características metabólicas putativas. De las 56,464 funciones con MS2 información, 1684 (∼ 3%) se anotaron con coincidencias espectrales (MSI nivel 2 [32]), 25.976 (∼ 46%) fueron anotados con predicciones de fórmulas y 13,722 (∼ 24%) fueron anotados con fórmula y predicciones estructurales (MSI nivel 3 [32]).
Oportunidades y limitaciones
UmetaFlow es de código abierto, rápido y escalable, y permite la combinación de diferentes herramientas y la integración de datos para facilitar el procesamiento y análisis de grandes conjuntos de datos de metabolómica no específicos. Admite datos generados en modo positivo o negativo y de la mayoría de los tipos de instrumentos que se pueden convertir al formato mzML (p. ej., Thermo Orbitrap, QTOF de varios proveedores; consulte la Tabla 1 para obtener una lista de formatos de archivo admitidos). Al omitir SIRIUS y CSI:FingerID, el usuario puede procesar datos de baja resolución o datos con solo MS1 y al omitir CSI:FingerID y FBMN/IIMN, el usuario puede procesar datos confidenciales (p. ej., conjuntos de datos de metabolómica clínica). La estructura modular de UmetaFlow permite al usuario seleccionar pasos específicos para procesar su conjunto de datos, modificarlos, pero también agregar funciones complementarias, por ejemplo, análisis estadístico y pasos de visualización. El flujo de trabajo también permite volver a cuantificar las características que tienen valores faltantes en todas las muestras, un método único para imputar valores faltantes.
Una limitación de UmetaFlow son los requisitos de habilidades básicas de programación para implementar y adaptar el flujo de trabajo de Snakemake, así como el acceso a un entorno de servidor, clúster o nube para procesar conjuntos de datos muy grandes, debido a los requisitos de almacenamiento que superan las especificaciones de una PC común. . Sin embargo, el usuario puede eliminar todos los archivos provisionales al final de una ejecución. El proceso más demandante desde el punto de vista computacional en el flujo de trabajo es el paso SIRIUS, que es opcional. Sin embargo, para conjuntos de datos (más) pequeños, el usuario puede ejecutar el flujo de trabajo con éxito usando una PC común, como la que se usa para la evaluación comparativa, ya sea a través del flujo de trabajo Snakemake, los Jupyter Notebooks o la GUI basada en web.