Abstracto
El número de ensamblajes de metagenomas publicados está creciendo rápidamente debido a los avances en las tecnologías de secuenciación. Sin embargo, los errores de secuenciación, la cobertura variable, las regiones genómicas repetitivas y otros factores pueden producir desensamblajes, que son difíciles de detectar para datos genómicos taxonómicamente nuevos. Los errores de ensamblaje pueden afectar todos los análisis posteriores de los ensamblajes. La precisión del estado del arte en la predicción de errores de ensamblaje sin referencia no supera un AUPRC de 0,57, y no está claro qué tan bien se generalizan estos modelos a los datos del mundo real. Aquí, presentamos la red neuronal Residual para la identificación de contigs mal ensamblados (ResMiCo), un enfoque de aprendizaje profundo para la identificación sin referencia de contigs mal ensamblados. Para desarrollar ResMiCo, primero generamos un conjunto de datos de entrenamiento de un tamaño y una complejidad sin precedentes que se puede utilizar para realizar más evaluaciones comparativas y desarrollos en el campo. A través de una validación rigurosa, mostramos que ResMiCo es sustancialmente más preciso que el estado del arte, y el modelo es resistente a la nueva diversidad taxonómica y a los diferentes métodos de ensamblaje. ResMiCo estimó un 7 % de contigs mal ensamblados por metagenoma en múltiples conjuntos de datos del mundo real. Demostramos cómo se puede usar ResMiCo para optimizar los hiperparámetros de ensamblaje del metagenoma para mejorar la precisión, en lugar de optimizar únicamente para la contigüidad. La precisión, robustez y facilidad de uso de ResMiCo hacen que la herramienta sea adecuada para el control de calidad general de ensamblajes de metagenomas y la optimización de la metodología de ensamblaje.
Resumen del autor
La calidad del ensamblaje del metagenoma es fundamental para todos los análisis posteriores de dichos datos. La cantidad de ensamblajes de metagenomas, especialmente los genomas ensamblados por metagenomas (MAG), está aumentando rápidamente, pero las herramientas para evaluar la calidad de estos ensamblajes carecen de la precisión necesaria para un control de calidad sólido. Además, los modelos existentes se han entrenado en conjuntos de datos que carecen de complejidad y realismo, lo que puede limitar su generalización a datos novedosos. Debido a las limitaciones de los modelos existentes, la mayoría de los estudios renuncian a dichos enfoques y, en cambio, confían en CheckM para evaluar la calidad del ensamblaje, un enfoque que solo utiliza una pequeña parte de toda la información genómica y no identifica errores de ensamblaje específicos. Aprovechamos grandes conjuntos de datos genómicos existentes y computación de alto rendimiento para producir un conjunto de datos de entrenamiento de tamaño y complejidad sin precedentes y, por lo tanto, entrenamos un modelo de aprendizaje profundo para predecir desensamblajes que pueden generalizarse sólidamente a una nueva taxonomía y diversas metodologías de ensamblaje.
Citación: Mineeva O, Danciu D, Schölkopf B, Ley RE, Rätsch G, Youngblut ND (2023) ResMiCo: Aumento de la calidad de los genomas ensamblados en metagenoma con aprendizaje profundo. PLoS Comput Biol 19(5): e1011001. https://doi.org/10.1371/journal.pcbi.1011001
Editor: Luis Pedro Coelho, Universidad de Fudan, CHINA
Recibió: 15 de junio de 2022; Aceptado: 6 de marzo de 2023; Publicado: 1 de mayo de 2023
Derechos de autor: © 2023 Mineeva et al. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de atribución de Creative Commonsque permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que se acredite el autor original y la fuente.
Disponibilidad de datos: Resmico está disponible públicamente en https://github.com/leylabmpi/ResMiCo. La biblioteca de extracción de funciones de computación intensiva se escribió en C ++, y la canalización de simulación de datos se implementó utilizando Snakemake https://doi.org/10.1093/bioinformatics/bts480 [47]. El modelo de aprendizaje profundo se construyó usando Tensorflow http://download.tensorflow.org/paper/whitepaper2015.pdf [48]. MGSIM está disponible en https://github.com/nick-youngblut/MGSIM. Debido al tamaño de los conjuntos de datos n9k-train y n9k-novel, estos datos se han depositado en el servidor FTP de MPI for Biology y se pueden descargar con herramientas como wget o curl a través del siguiente enlace: http://ftp.tue.mpg.de/ebio/projects/ResMiCo/. Los autores se comprometen a garantizar la accesibilidad pública perpetua de estos datos.
Fondos: Este trabajo fue apoyado por la financiación básica de Eidgenössische Technische Hochschule Zürich (OM, DD y GR), el Instituto Max Planck (NDY, REL y BS) y el Área de enfoque estratégico de Eidgenössische Technische Hochschule – Salud personalizada y tecnologías relacionadas (proyecto n.º 106 a DD). Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito. OM, DD y GR recibieron un salario de la Eidgenössische Technische Hochschule Zürich; NDY, REL y BS recibieron un salario del Instituto Max Planck.
Conflicto de intereses: Los autores han declarado que no existen intereses contrapuestos.
Esto es un PLOS Biología Computacional Documento de métodos.
Introducción
La secuenciación del metagenoma está aumentando rápidamente en popularidad debido a la reducción de los costos de la secuenciación y los métodos simplificados de construcción de bibliotecas. [1, 2]. Al mismo tiempo, las mejoras en las herramientas de ensamblaje del metagenoma [3, 4] y los recursos informáticos de alto rendimiento han aumentado la viabilidad de ensamblajes de metagenomas a gran escala en miles de muestras [5–7]. Las secuencias contiguas (contigs) generadas a través del ensamblaje del metagenoma se pueden analizar directamente para tareas como la creación de catálogos de genes. [8, 9]o se pueden usar enfoques de agrupamiento para agrupar los contigs en genomas ensamblados en metagenoma (MAG) que se pueden usar para varias aplicaciones de genómica comparativa [10].
Estos avances han dado lugar a vastas bases de datos de ensamblaje de genomas, como el Genoma Gastrointestinal Humano Unificado (UHGG) [11], en el que las MAG representan el 70% de las especies. Como otro ejemplo, la base de datos de taxonomía del genoma (GTDB) se expandió de aproximadamente 32 000 especies a casi 50 000 en menos de un año. [12, 13], en gran parte debido a la proliferación de MAG. Dada la naturaleza de bajo rendimiento del aislamiento de bacterias y arqueas para la secuenciación independiente del genoma [11]los enfoques de ensamblaje del metagenoma probablemente seguirán dominando.
El ensamblaje correcto de los metagenomas es un desafío debido a varios factores, incluidos los errores de secuenciación, la alta diversidad taxonómica que a menudo comprende miles de especies, la cobertura desigual y las regiones genómicas repetitivas. [14]. Todos estos factores contribuyen a los desensamblajes, siendo los más comunes las variaciones estructurales, las reubicaciones, las translocaciones y las inversiones. [15]. Los datos de secuencia de lectura larga pueden mitigar algunos de estos problemas [14, 16]pero el gasto relativo a la secuenciación de lectura corta generalmente impide obtener una cobertura de secuencia suficiente para comunidades complejas [17]. Si bien la contigüidad del ensamblaje se puede evaluar fácilmente mediante el cálculo de métricas como N50, evaluar la precisión del ensamblaje es considerablemente más desafiante debido a algunas causas importantes. En primer lugar, debido a la falta de taxones muy estrechamente relacionados con regiones del genoma (casi) idénticas a la consulta, los contigs no pueden asignarse simplemente a las referencias para evaluar la precisión. En segundo lugar, las herramientas sin referencia que predicen errores de ensamblaje generalmente han sido entrenadas y validadas en conjuntos de datos pequeños y homogéneos en el pasado, lo que plantea la cuestión de su solidez frente a datos novedosos (p. ej., nuevos taxones o métodos de ensamblaje). De hecho, Mineeva y sus colegas demostraron que las herramientas existentes generalmente funcionaban mal en un conjunto de datos grande y heterogéneo. [18]. El novedoso enfoque de aprendizaje profundo de los autores, DeepMAsED, superó con creces el estado del arte y fue relativamente sólido frente a la novedad taxonómica, logrando una puntuación AUPRC de 0,57 en un nuevo conjunto de datos genómicos; aún así, quedaba un espacio sustancial para mejorar la precisión del modelo y también una validación sólida en conjuntos de datos complejos que abarcan la heterogeneidad de los metagenomas existentes de comunidades complejas. De hecho, Lei y sus colegas desarrollaron metaMIC, un modelo de aprendizaje automático (ML) sin referencia para predecir ensamblajes incorrectos en ensamblajes de metagenomas. [19], y mostró que el rendimiento de DeepMAsED era inferior al de metaMIC; sin embargo, solo se proporcionaron algunos detalles metodológicos sobre el enfoque de validación.
Nosotros presentamos resred neuronal dual para Miensamblado CoIdentificación de ntigs (ResMiCo), un enfoque novedoso para la identificación sin referencia de contigs mal ensamblados en ensamblajes de metagenoma. ResMiCo es una red neuronal convolucional profunda con conexiones de salto entre capas no adyacentes. Arquitecturas similares han demostrado ser muy exitosas cuando se entrenan en grandes conjuntos de datos de varios campos. [20, 21]. Utilizamos una canalización novedosa de alto rendimiento para generar datos de entrenamiento complejos y realistas que cubren gran parte del espacio de parámetros posible (p. ej., riqueza variable de datos, profundidad de secuenciación, tasa de error de secuenciación, diversidad de comunidades y métodos de ensamblaje del metagenoma). A través de una evaluación exhaustiva, mostramos que el modelo supera el estado actual de la técnica y es resistente a la heterogeneidad de los datos del metagenoma, incluida la novedad taxonómica y los parámetros de ensamblaje del metagenoma. ResMiCo también es resistente a los enfoques de simulación de datos alternativos, como se muestra cuando se aplica a los conjuntos de datos de interpretación del metagenoma de evaluación crítica (CAMI). Mostramos que el uso de ResMiCo para filtrar genomas putativos reduce el número de contigs mal ensamblados por un factor de cuatro. También aplicamos ResMiCo a una gran colección de metagenomas de estudios publicados y mostramos que el 7% ± 5,7 (sd) de contigs por metagenoma están mal ensamblados. Por último, mostramos que ResMiCo se puede utilizar para optimizar los parámetros del ensamblador del metagenoma para lograr precisión sin necesidad de conjuntos de datos de metagenoma simulados o comunitarios.
Materiales y métodos
Datos simulados
Utilizamos conjuntos de datos sintéticos para el entrenamiento y las pruebas iniciales del modelo. La metodología de simulación de datos, representada en La figura 1 se basa y amplía significativamente nuestro trabajo anterior [18]. Los genomas de bacterias y arqueas de referencia se seleccionaron de la versión 202 de la base de datos de taxonomía del genoma (GTDB) [22]. Los metagenomas se simularon a partir de genomas de referencia disponibles públicamente a través de MGSIM (https://github.com/nick-youngblut/MGSIM). Los parámetros de simulación variaron en todas las combinaciones de i) riqueza de la comunidad, ii) distribución de la abundancia de la comunidad, iii) genomas de referencia seleccionados del grupo total, iv) longitud de lectura, v) distribución del tamaño de inserción (es decir, la distancia entre la lectura directa e inversa). par), vi) perfil de error del secuenciador, vii) profundidad de secuenciación y viii) ensamblador de metagenoma (Tabla 1). La distribución de abundancia de cada comunidad se modeló como una distribución logarítmica normal. Variamos parámetro σ para producir diferentes niveles de uniformidad de abundancias relativas. La riqueza de la comunidad se alteró mediante submuestreos aleatorios del grupo de genomas de referencia disponibles en la división de entrenamiento o prueba. El arte [23] El simulador de lectura se utilizó para generar lecturas de Illumina emparejadas de longitud 100 o 150 utilizando el perfil de error predeterminado “Illumina HiSeq 2500” o el perfil de error “HiSeq2500L150R1/2” utilizado en CAMISIM [24]. Se simularon cuatro distribuciones de tamaño de inserto de lectura de extremo emparejado a través de la configuración de parámetros ART (consulte “Tamaño de inserto” en la Tabla 1). Incluimos múltiples réplicas de simulación, en las que la comunidad y los parámetros de simulación de lectura se mantuvieron constantes, pero cada réplica difería a través de la aleatorización del submuestreo del genoma dentro de cada simulación. Las lecturas de cada comunidad se ensamblaron de forma independiente con metaSPAdes [3] y megahit [4].
Figura 1. La tubería de capacitación y simulación de ResMiCo.
(A) Seleccionar genomas de referencia de la base de datos de taxonomía del genoma (GTDB) en varias abundancias; (B) Simular lecturas para los genomas seleccionados usando ART-Illumina; (C) ensamblar lecturas en contigs utilizando MEGAHIT y metaSPAdes; (D) Alinee las lecturas con los contigs ensamblados usando Bowtie2, luego extraiga características tales como cobertura, número de variantes de un solo nucleótido (SNV), puntaje de alineación medio, etc., para cada contig usando las alineaciones dadas; (E) Calcule las etiquetas para cada contig al alinearlas con los genomas de referencia usando MetaQUAST; (F) Para cada contig, seleccione una sección aleatoria (que contenga un punto de interrupción si el contig está mal ensamblado), rellene hasta la longitud de entrada de la red si es necesario e ingrese los datos en el modelo ResMiCo. Los pasos (D) y (E) son independientes y se pueden paralelizar.
https://doi.org/10.1371/journal.pcbi.1011001.g001
Tabla 1. Valores de parámetros utilizados en la tubería de simulación.
El conjunto de datos de entrenamiento tren n9k se generó usando las 1440 combinaciones de parámetros para la distribución de tamaño de inserción con media = 270 y sd = 50 y media = 190 y sd = 75. Para la distribución de tamaño de inserción “media = 350 y sd = 75”, 3 réplicas para el “HiSeq Se generaron el perfil de error 2500 L150R1/2” y una réplica para el perfil de “error HiSeq 2500” (960 combinaciones de parámetros). Para la distribución de tamaño de inserción “media = 450 y sd = 120”, usamos todas las combinaciones de parámetros, pero solo con el perfil de error “HiSeq 2500 L150R1/2” (720 combinaciones de parámetros). En total, creamos 4560 muestras. La cuadrícula de parámetros no se muestreó de manera uniforme debido a las limitaciones de recursos. El conjunto de datos de prueba n9k-novela contiene una réplica de simulación con el perfil de error “HiSeq 2500” y con un tamaño de inserción (media = 270 y sd = 50), lo que resultó en 240 combinaciones de parámetros.
https://doi.org/10.1371/journal.pcbi.1011001.t001
Para el entrenamiento y las pruebas iniciales del modelo, utilizamos un conjunto de 18 000 genomas de referencia seleccionados de la versión 202 de la base de datos de taxonomía del genoma (GTDB). El grupo se dividió a nivel taxonómico familiar para que todos los genomas en el conjunto de datos de prueba pertenecieran a familias que no estaban presentes en el conjunto de datos de entrenamiento. La división resultante fue pareja, con 9000 genomas utilizados tanto para entrenamiento como para prueba. Para reducir el sesgo hacia especies particulares, se incluyeron como máximo 50 genomas por especie en el grupo de genomas de referencia, con genomas seleccionados al azar. La piscina también se filtró por completitud estimada por CheckM (≥ 90 %) y contaminación (≤ 5 %). Otros criterios de filtrado incluyeron: i) solo calidad MIMAG “alta”, ii) sin ensamblajes de genoma de una sola célula, iii) ≤ 500 contigs, iv) un tamaño de genoma de ≤ 15 mbp, y v) una longitud media de contig de ≥ 10 kbp . Realizamos submuestreos aleatorios de lecturas asignadas a cada contig hasta una cobertura media máxima de contig de 20. En este nivel de cobertura, se pueden producir ensamblajes de calidad razonable, y el submuestreo ayuda a evitar problemas de distribución cuando se aplica ResMiCo a conjuntos de datos con una profundidad de secuenciación sustancialmente mayor. que en nuestro conjunto de datos de entrenamiento.
Para crear funciones para el entrenamiento y las pruebas de modelos, asignamos lecturas a los contigs del metagenoma sintético correspondiente a través de Bowtie2 [25]y los datos de alineación resultantes se usaron para generar características de posición por contig, como se enumeran en la Tabla A en S1 Text.
Nos referimos al conjunto de datos de entrenamiento como tren n9k y al conjunto de datos de prueba, que consiste en genomas novedosos a nivel taxonómico familiar, como n9k-novela. Todas las combinaciones de los parámetros de simulación del metagenoma produjeron un conjunto de datos de entrenamiento de 4560 metagenomas y 80 millones de contigs (Tabla 1). Estábamos limitados a 1,3 T de espacio disponible en nuestro clúster de HPC, por lo que tuvimos que crear subconjuntos al azar tren n9k a 3000 metagenomas, que comprenden 52M contigs (Tabla 2). El conjunto de prueba (n9k-novela) se generó utilizando el subconjunto de parámetros y una réplica de simulación para ahorrar tiempo de cálculo (Tabla 1). También creamos un conjunto de datos de prueba con una mayor diversidad intraespecies (33.3 ± 115) versus n9k-novela (2.4 ± 13.7), que llamamos n2k-novela-intra-especies. Usamos solo 2000 genomas de referencia para incluir suficientes familias con una gran cantidad de diversidad genómica dentro de las especies, pero aún así incluir solo familias novedosas en relación con el conjunto de datos del tren (como con n9k-novela). Los parámetros de simulación para n2k-novela-intra-especies fueron consistentes con tren n9kexcepto i) solo 50 y 1000 genomas para la riqueza, ii) una réplica de simulación, iii) una distribución de tamaño de inserción (media = 270, sd = 50) y iv) profundidades de secuenciación de 2M, 8M y 12M pares de lectura.
Tabla 2. Un resumen de los cinco conjuntos de datos sintéticos utilizados para entrenar y evaluar ResMiCo.
El tren n9k y n9k-novela Los conjuntos de datos se generaron utilizando nuestra canalización, todos los demás conjuntos de datos se crearon a partir de lecturas de CAMI. El tren n9k El conjunto de datos se usó para el entrenamiento y la validación, mientras que todos los demás conjuntos de datos se usaron para las pruebas. Los errores de ensamblaje se informan como un porcentaje del número total de contigs en el conjunto de datos. La longitud de los desensamblajes es la suma de las longitudes de contig desensamblados dividida por el número total de bases.
https://doi.org/10.1371/journal.pcbi.1011001.t002
Metagenomas simulados por CAMI
Para comparar el rendimiento de ResMiCo en un nuevo entorno, descargamos las lecturas emparejadas de los desafíos de la evaluación crítica de la interpretación del metagenoma (CAMI) de piel humana, oral humana, intestino humano, asociado a plantas y ensamblaje marino. [26]. Al igual que con el tren n9k conjunto de datos, ensamblamos las lecturas a través de metaSPAdes y MEGAHIT, e identificamos verdaderos desensamblajes a través de MetaQUAST basado en los genomas de referencia en cada uno de los 5 conjuntos de datos. Como se muestra en la Tabla 2, la cantidad de contigs mal ensamblados en los conjuntos de datos de CAMI es aproximadamente un 50 % menor, mientras que la cobertura es aproximadamente un 50 % mayor en relación con la tren n9k conjunto de datos Las ubicaciones de los puntos de interrupción para contigs mal ensamblados siguen una distribución casi idéntica para todos los conjuntos de datos, con más puntos de interrupción agrupados hacia los extremos (Fig. A en S1 Text).
Metagenomas publicados del mundo real
También evaluamos ResMiCo en 2 conjuntos de datos comunitarios simulados: BMock12 [33] y MBARC-26 [34]. Submuestreamos cada metagenoma en 2 millones de pares de lectura para evaluar una profundidad de secuenciación a la par con los metagenomas existentes en el mundo real. [35, 36]. Se descargaron genomas representativos de JGI IMG y Genbank para BMock12 y MBARC-26, respectivamente. Estos representantes se usaron junto con MetaQUAST para identificar verdaderos desensamblajes.
El procesamiento de datos de lectura de Metagenome se realizó como se describe en Youngblut y colegas [28]. Brevemente, las lecturas se validaron con fqtools [37]. Los adaptadores fueron recortados con Skewer [38]. El comando “bbduk” de bbtools (https://sourceforge.net/proyectos/bbmap/) se utilizó para recortar y filtrar lecturas en función de las puntuaciones de Phred. El comando “bbmap” de bbtools se usó para filtrar las lecturas asignadas al ensamblaje del genoma humano hg19. Se generaron y visualizaron informes de calidad de lectura para cada paso de la canalización con FastQC y MultiQC, respectivamente (https://www.bioinformatics.babraham.ac.uk/, [39]). Los metagenomas se ensamblaron a través de metaSPAdes con parámetros predeterminados y se eliminaron los contigs <1000 pb. Tampoco ensamblamos los metagenomas con MEGAHIT, dado el gasto computacional adicional y la complejidad de los métodos de evaluar ambos ensambladores para cada conjunto de datos, junto con la precisión mejorada de metaSPAdes versus MEGAHIT. [3]. El mapeo de lectura y la generación de funciones de ResMiCo se realizaron como se hizo para los conjuntos de datos de simulación.
Preprocesamiento de datos
Las funciones de conteo se normalizaron por cobertura (la cantidad de lecturas asignadas a la posición) de modo que estén en el rango de 0 a 1. Para las características numéricas, calculamos previamente la media y las desviaciones estándar usando todos los contigs en el tren n9k dataset y guardó estos valores. Para todos los conjuntos de datos, estandarizamos las características numéricas para establecer la media en cero y la varianza en uno utilizando los valores calculados en el conjunto de entrenamiento. Los valores faltantes fueron reemplazados por cero (la nueva media). Resumimos el preprocesamiento aplicado a cada función en la Tabla A en Texto S1.
Dado que observamos que ResMiCo no generalizó bien para insertar distribuciones de tamaño que se desvían sustancialmente del conjunto de datos de entrenamiento (Tabla E en S1 Text), excluimos los metagenomas para los cuales los cuantiles 0,05 y 0,95 de la distribución del tamaño medio del inserto se encontraban fuera de los cuantiles 0,02 y 0,98 de la distribución del tamaño medio del inserto del tren n9k conjunto de datos, que son iguales a 117 y 493, respectivamente.
modelo y entrenamiento
Arquitectura.
Figura 2. Arquitectura ResMiCo.
La entrada se pasa primero a través de múltiples capas convolucionales; luego, el resultado convolucionado se enmascara para eliminar el efecto de relleno y se pasa a través de una capa de agrupación promedio, seguida de dos capas completamente conectadas de tamaños 128 × 50 y 50 × 1. La parte convolucional consta de una convolución simple, seguida de cuatro grupos residuales (RG) con 2, 5, 5 y 2 bloques residuales, respectivamente. La parte inferior de la figura muestra la estructura de un bloque residual con un número determinado de características (F), tamaño de núcleo (K) y zancada (S). La primera convolución en RG2, RG3 y RG4 reduce a la mitad el tamaño de entrada (usando un paso de S = 2) y duplica la cantidad de filtros, gradualmente de 16 a 128. B indica el tamaño del lote y M representa la longitud máxima de contig. El “14” en “BxMx14” representa el número de características seleccionadas en la entrada a la red neuronal. En general, ResMiCo tiene 562 573 parámetros, de los cuales 559 441 se pueden entrenar.
https://doi.org/10.1371/journal.pcbi.1011001.g002
Los bloques residuales con el mismo número de filtros y formas de salida idénticas se agrupan en grupos residuales. ResMiCo tiene 4 grupos residuales, con los grupos centrales compuestos por 5 bloques residuales cada uno, mientras que los grupos exteriores contienen 2 bloques residuales. Cada uno de los últimos tres grupos residuales comienza con una convolución que duplica el número de filtros y reduce a la mitad el tamaño de entrada usando un paso S = 2. Todas las capas usan una activación ReLU, excepto la última capa completamente conectada, que usa una activación sigmoide. La salida de las capas convolucionales se resume a lo largo del eje espacial a través de la agrupación promedio global, lo que da como resultado una forma de salida que depende solo de la cantidad de filtros en la última capa convolucional (128 en nuestro caso) en lugar de la longitud contig, lo que permite ResMiCo para manejar contigs de longitud variable. Los contigs en un lote se rellenan hasta la longitud más larga y los efectos del relleno se neutralizan mediante la creación de una máscara que se alimenta a la capa de agrupación promedio global. Las 128 características resultantes del conjunto promedio global se introducen en las dos capas finales: una capa completamente conectada con 50 neuronas y una capa de salida de una neurona con una función de activación sigmoidea.
Capacitación.
El modelo fue entrenado en el tren n9k conjunto de datos de entrenamiento para 50 épocas. Uno época es un paso del conjunto de datos de entrenamiento completo a través del algoritmo. Todos los contigs mal ensamblados se usaron como ejemplos de entrenamiento positivo. Por el contrario, seleccionamos aleatoriamente un subconjunto del 10 % en cada época de entrenamiento para la clase sobrerrepresentada de contigs ensamblados correctamente, lo que aumentó artificialmente la tasa de muestra positiva al 24 %. Esto ayudó a equilibrar el conjunto de datos y a reducir la carga computacional durante el entrenamiento. Para contigs de menos de 20 000 pares de bases, se selecciona todo el contig y se rellena con ceros hasta la longitud máxima del lote. Para contigs mal ensamblados de más de 20 000 pares de bases, se seleccionó un intervalo aleatorio de 20 000 pares de bases alrededor de cada punto de ruptura (identificado por MetaQUAST). Para contigs largos sin desensamblajes, se selecciona un intervalo aleatorio de 20.000 pares de bases.
Durante el entrenamiento del modelo, un optimizador de Adam minimizó la pérdida de entropía cruzada binaria entre el objetivo y la salida predicha. [41]. Utilizamos un tamaño de lote de 200 y una tasa de aprendizaje inicial de 0,0001 con una caída exponencial de 0,8 cuando se estanca en la evaluación. Los gradientes se recortaron a una norma de 1 y un valor de 0,5.
Selección de modelo.
Utilizamos el 10% de la tren n9k conjunto de datos como un conjunto de validación para el modelo selección (n9k-válido). AUPRC en el conjunto de validación se calculó cada dos épocas; si la puntuación mejoraba, se guardaba un modelo correspondiente. El modelo ResMiCo descrito en esta sección logró el AUPRC más alto en el n9k-válido conjunto de datos en Época 46. La lista de hiperparámetros optimizados y los valores intentados se proporcionan en la Tabla B en Texto S1.
Selección de características.
Dado que ResMiCo utiliza una mayor cantidad de funciones que DeepMAsED y metaMIC, es importante comprender la cantidad que cada función, en particular las funciones exclusivas de ResMiCo, contribuye a las predicciones del modelo. Tomados de la teoría de juegos, los valores de Shapley proporcionan una forma basada en principios de explicar las predicciones de los modelos de aprendizaje automático. Aproximamos los valores de Shapley usando el algoritmo Deep Shap (SHAP) [42]una versión refinada de DeepLIFT [43].
Para poder calcular los coeficientes SHAP, tuvimos que hacer algunos ajustes a la arquitectura de ResMiCo: se fijó el tamaño de entrada, el relleno no se enmascaró y la capa de agrupación promedio global se reemplazó por una agrupación local con una ventana que cubría toda la longitud. . SHAP requiere como entrada muestras de antecedentes, así como muestras para las cuales se explicarán las predicciones. Muestreamos aleatoriamente 200 contigs para el fondo y 200 contigs para explicaciones (100 correctamente ensamblados y 100 mal ensamblados) del n9k-novela conjunto de datos En la figura L en Texto S1, mostramos que SHAP llevó a las mismas conclusiones al usar subconjuntos de 200 contigs, lo que sugiere que 200 es suficiente para este análisis.
Fig. 3. Característica clasificada por su importancia.
El color más claro marca las características utilizadas por el modelo ResMiCo. Denotamos las funciones utilizadas por DeepMAsED y metaMIC con un contorno de estrella y una estrella rellena, respectivamente. mapq y al_score son la calidad del mapeo y la puntuación de alineación, según lo definido por Bowtie2. num_snp es el número de SNV entre lecturas alineadas en relación con la referencia. num_consulta_[ATGC] es la composición base de las lecturas alineadas en la posición de destino. num_huérfano es el número de lecturas alineadas en las que solo uno de los pares se alinea correctamente. num_proper es el número de pares de lectura que se alinean correctamente, según lo definido por Bowtie2. num_proper_snp está correctamente alineado lee con un SNV en relación con la referencia en la posición de destino. referencia_base es la base de referencia [ATGC] en la posición de destino. Las barras de error corresponden a la desviación estándar calculada en 5 ejecuciones.
https://doi.org/10.1371/journal.pcbi.1011001.g003
predicciones
Para predecir la probabilidad de ensamblaje incorrecto para contigs de más de 20 000 pares de bases, dividimos el contig en fragmentos de 20 000 pares de bases, con una zancada (superposición) de 500 bases para mitigar los problemas cuando el punto de ruptura se encuentra al final de un fragmento. y dos fragmentos consecutivos aparecen individualmente como contigs ensamblados correctamente. La predicción para el contig se obtuvo seleccionando la puntuación máxima en todos los fragmentos. Para contigs de menos de 20 000 pares de bases, el contig completo se proporciona como entrada.
Comparación con el estado del arte
Analizamos el rendimiento de nuestro modelo propuesto en relación con los siguientes métodos existentes:
- metaMIC [44]—aplicado con parámetros predeterminados, excepto que la longitud mínima de contig se redujo de 5 kbp a 1 kbp, para probar con los mismos datos que los otros métodos;
- DeepMASED [18]—seguimos el esquema de generación de características y el modelo entrenado proporcionado por los autores;
- CERVEZA INGLESA [45]—agregamos cuatro subpuntajes posicionales que genera ALE (profundidad, lugar, inserción y log-verosimilitud de k-mer) con los mismos umbrales definidos en [18]. La probabilidad de ensamblaje incorrecto de contig se calcula como el número de posiciones con la subpuntuación por debajo del umbral dividido por la longitud de contig;
- Aleatorio: asignamos una probabilidad de desmontaje aleatorio a cada contig. Esto da como resultado una línea horizontal en un gráfico de curva de recuperación de precisión con una precisión igual a la prevalencia de errores de ensamblaje en el conjunto de datos.
Dado que todos los conjuntos de datos sufren un desequilibrio de clase en detrimento de las muestras positivas (contigs mal ensamblados, Tabla 2), seleccionamos el área bajo la curva de recuperación de precisión (AUPRC) como una métrica para medir el rendimiento, en lugar del área bajo la curva del operador del receptor (AUROC) [46]. Sin embargo, AUPRC no es invariable en la prevalencia de muestras positivas, por lo que usamos AUROC para comparar el rendimiento del modelo en conjuntos de datos con diferentes porcentajes de muestras positivas.
Evaluación comparativa de los requisitos de recursos de ResMiCo
Evaluamos a ResMiCo con comparaciones directas entre utilizar una CPU versus una GPU. En el conjunto de datos de CAMI gut, ResMiCo fue > 2 veces más rápido con una GPU que con una CPU (108 ± 0,7 frente a 38,7 ± 10,3 contigs por segundo). Si bien una GPU es sustancialmente más rápida que una CPU, aún se pueden procesar casi 140 000 contigs en 1 hora con una sola CPU. No obstante, observamos que se recomiendan múltiples GPU para entrenar el modelo en grandes conjuntos de datos, dado que el entrenamiento en CPU no sería factible para grandes conjuntos de datos, como en este trabajo.
Resultados
ResMiCo supera a los modelos existentes y es resistente a la novedad del metagenoma
Primero probamos todos los modelos contra el n9k-novela conjunto de datos, que consistía en genomas taxonómicamente novedosos a nivel familiar en relación con cualquiera en el conjunto de datos de entrenamiento. ResMiCo superó a DeepMAsED, ALE y metaMIC por un amplio margen, con un AUPRC de 0,76 frente a 0,25 de DeepMAsED, el segundo modelo con mejor rendimiento (Figura 4A). Tenga en cuenta que el puntaje AUPRC de DeepMAsED cayó de 0.57 (informado en [18]) a 0,25 debido a una mayor variabilidad dentro de la n9k-novela equipo de prueba. Es importante destacar que el AUPRC de ResMiCo no difirió sustancialmente entre la validación del entrenamiento (0.73) y el n9k-novela conjunto de datos (0,76), lo que demuestra que el modelo es robusto a la novedad taxonómica. La puntuación AUPRC de ResMiCo generalmente varió de 0,6 a 0,8 en las diversas combinaciones de parámetros de simulación (Fig. H en S1 Text). Los escenarios más desafiantes para ResMiCo fueron una comunidad de baja riqueza y una profundidad de secuenciación baja. También encontramos que la distribución de longitud de contig explica gran parte de la variabilidad en el rendimiento del modelo ResMiCo. Para las simulaciones con una mediana de longitud de cóntigo superior a 2000 pb, el AUPRC estuvo entre 0,4 y 0,6 (Fig. E en S1 Text). En cuanto al tipo de montaje incorrecto, el rendimiento de ResMiCo fue el más bajo para las inversiones (Fig. G en el texto S1).
Figura 4. Evaluación del desempeño de ResMiCo.
Curvas de recuperación de precisión y las puntuaciones AUPRC correspondientes para ResMiCo y cuatro métodos de referencia (metaMIC, DeepMAsED, ALE, Random) aplicados en (A) nk9-novela, (B) CAMI gut, (C) CAMI oral y (D) conjuntos de datos de piel CAMI. (E) Curva característica operativa del receptor y las puntuaciones AUROC correspondientes para ResMiCo aplicadas en cinco conjuntos de datos: tren n9k (solo conjunto de validación), nk9-novelay tres conjuntos de datos CAMI.
https://doi.org/10.1371/journal.pcbi.1011001.g004
Simulamos otro conjunto de datos de prueba (n2k-novela-intraespecies) con más genomas por especie (33,3 ± 115) versus n9k-novela (2,4 ± 13,7). Rendimiento de ResMiCo en n2k-novela-intraespecies disminuido en relación con n9k-novela (AUPRC = 0,487, AUROC = 0,955), lo que probablemente se debió a un aumento en las translocaciones entre genomas entre taxones estrechamente relacionados. Aun así, ResMiCo superó con creces al competidor más cercano: metaMIC (AUPRC = 0,080, AUROC = 0,805).
A continuación, evaluamos ResMiCo en los conjuntos de datos del metagenoma intestinal, oral y de la piel de CAMI, que son conjuntos de datos de simulación comúnmente utilizados para la evaluación de herramientas de análisis metagenómico. Los conjuntos de datos de CAMI diferían sustancialmente de tren n9k y n9k-novela con respecto a la cobertura (profundidad de la secuencia) y el desequilibrio de clase (porcentaje de desensamblajes) (Tabla 2). Además, los genomas de referencia utilizados para la tren n9k y n9k-novela los conjuntos de datos se seleccionaron de toda la GTDB, mientras que los conjuntos de datos de CAMI consistieron en genomas de referencia específicos del bioma [24]. Independientemente de estas diferencias, el rendimiento de ResMiCo no se vio afectado en gran medida y el el modelo todavía superó claramente a todos los competidores (Fig. 4B, 4C y 4D). Dado que los 5 conjuntos de datos sintéticos difieren sustancialmente en las tasas positivas verdaderas (Tabla 2), calculamos la puntuación AUROC, que no se ve afectada por tales diferencias. La figura 4E muestra que el AUROC permanece relativamente constante a lo largo del tren n9k validación, n9k-novelay los conjuntos de datos CAMI.
También evaluamos ResMiCo en dos conjuntos de datos CAMI que simulan biomas no humanos: CAMI-marine y Asociado a planta CAMI. El rendimiento de ResMiCo fue comparable a los conjuntos de datos CAMI asociados con humanos (CAMI-marine: AUPRC = 0,831, AUROC = 0,990; Asociado a planta CAMI: AUPRC = 0,611, AUROC = 0,965), lo que sugiere que ResMiCo puede generalizarse a metagenomas de biomas muy variados.
Mejora de la calidad del ensamblaje después de filtrar los errores de ensamblaje identificados por ResMiCo
Una función principal de ResMiCo es identificar contigs mal ensamblados para que puedan eliminarse del ensamblaje. Para ilustrar los efectos de dicho filtrado, descartamos contigs en n9k-novela con una puntuación ResMiCo de >0,8, lo que corresponde a un recuerdo y una precisión de 0,72 y 0,65, respectivamente. Dado que los contigs verdaderamente mal ensamblados son conocidos por la n9k-novela conjunto de datos, pudimos medir la verdadera tasa de error antes y después del filtrado. El filtrado de acuerdo con las puntuaciones de ResMiCo dio como resultado una reducción de la tasa de error real del 4 % al 1 %, al mismo tiempo que mantuvo las métricas de contigüidad prácticamente sin modificar (Tabla 3).
Tabla 3. Filtrado contig de baja calidad.
Estadísticas antes y después de filtrar contigs de baja calidad con el modelo ResMiCo aplicado en el n9k-novela equipo de prueba. El umbral de puntuación de ResMiCo se fijó en >0,8. La longitud de los desensamblajes es la suma de las longitudes de contig desensamblados dividida por el número total de bases.
https://doi.org/10.1371/journal.pcbi.1011001.t003
También evaluamos si la “fracción del genoma” definida por MetaQUAST (el porcentaje de bases alineadas en el genoma de referencia) disminuyó sustancialmente como resultado del filtrado de ensamblajes erróneos identificados por ResMiCo. tanto para el CAMI-gut y CAMI-marine conjuntos de datos, la fracción del genoma no cambió sustancialmente después del filtrado (Wilcox, PAG ≥ 0,66; Figura K en Texto S1).
Optimización del ensamblaje basada en las tasas de error identificadas por ResMiCo
Dado que ResMiCo genera una puntuación para cada contig, podríamos usar la cantidad de contigs con una puntuación por encima de cierto umbral para estimar la tasa de desensamblaje de un conjunto de contig dado (usamos >0.8 en nuestros experimentos). La tasa estimada de errores de ensamblaje podría utilizarse para optimizar los parámetros del ensamblador del metagenoma (p. ej., longitudes de k-mer) para metagenomas reales, que carecen de datos reales. Los hiperparámetros del ensamblador generalmente se optimizan simplemente en función de la contigüidad total (por ejemplo, N50) o posiblemente a través de CheckM después de agrupar contigs en MAG. Sin embargo, tales métodos no evalúan directamente la precisión del ensamblaje de contig. Para poder usar ResMiCo para esta aplicación, el rendimiento del modelo debe ser sólido para la configuración de hiperparámetros del ensamblador fuera de la distribución de entrenamiento.
Probamos el rendimiento de ResMiCo como un oráculo para el rendimiento del ensamblador mediante la simulación de conjuntos de datos de manera similar a n9k-novelapero con 6 configuraciones diferentes de hiperparámetros de longitud k-mer para MEGAHIT y metaSPAdes (ver Métodos). Para cada una de las combinaciones de longitud de 6 k-mer, generamos algo similar a n9k-novela pero utilizó solo 2 ajustes de riqueza comunitaria (50 y 3000) y 2 de profundidad de secuenciación (2M y 8M). El resto de los parámetros de simulación fueron corregidos: distribución de abundancia del genoma con σ = 1, longitudes de lectura de 150 bps, distribución de tamaño de inserción de media = 270 y sd = 50, y el perfil de error “HiSeq 2500 error”. El porcentaje de contigs mal ensamblados reales difería de <1% a 30% según el ensamblador y el conjunto k-mer elegido aplicado en las mismas lecturas del conjunto (Fig. 5). Luego comparamos el porcentaje de contigs mal ensamblados con el porcentaje estimado por ResMiCo para cada una de las cuatro combinaciones de riqueza de comunidad/profundidad de secuenciación (6 conjuntos de k-mer por combinación).
Figura 5. Tasa de errores de ensamblaje (error) producidos por los ensambladores MEGAHIT y metaSPAdes con seis conjuntos k-mer diferentes.
Los nombres de conjuntos de k-mer indican las longitudes de k-mer utilizadas para el ensamblaje. (A) La tasa de error identificada por ResMiCo (eje y) se correlaciona con la tasa de error real. (B) El tamaño N50 y la verdadera tasa de error son medidas ortogonales de la calidad del metagenoma.
https://doi.org/10.1371/journal.pcbi.1011001.g005
ResMiCo pudo clasificar con precisión los ensamblajes según la tasa de errores de ensamblaje para las cuatro combinaciones de parámetros de simulación, logrando una correlación de Pearson de 0,9. (figura 5A). Si bien ResMiCo tiene una tendencia a sobrestimar la tasa de errores de ensamblaje con un umbral de predicción seleccionado, y la relación entre la tasa de errores de ensamblaje predicha y la verdadera depende de la riqueza de la muestra y la profundidad de secuenciación (Fig. J en el texto S1), la clasificación se mantuvo constante en todos los escenarios considerados. Al mismo tiempo, para los metagenomas mejor ensamblados (poca riqueza y alta profundidad de secuenciación), observamos una correlación de 0,9 entre N50 y la tasa de error real (Fig. 5B), lo que sugiere que la alta contigüidad lograda junto con el alto error de ensamblaje tasa. Sin embargo, esta relación no se cumple para las muestras simuladas con otros parámetros, lo que hace posible buscar parámetros del ensamblador que produzcan una buena calidad en términos de contigüidad y tasa de error simultáneamente. En consecuencia, proponemos que ResMiCo se pueda utilizar para clasificar los parámetros del ensamblador para los datos del metagenoma del mundo real e identificar los parámetros que conducen a la tasa más baja de errores de ensamblaje.
Visualización del espacio latente
Para obtener una intuición sobre cómo ResMiCo representa internamente los datos, estudiamos la salida de la capa de agrupación promedio global. En ese punto, los datos de entrada se mapean en un espacio de 128 dimensiones. Utilizamos UMAP [49] con parámetros predeterminados para proyectar las incrustaciones en un espacio bidimensional. Se instaló UMAP en el tren n9k, n9k-novelay CAMI-gut conjuntos de datos Usamos 10,000 contigs muestreados aleatoriamente de cada uno de los tres conjuntos de datos.
La visualización del espacio latente indica que tren n9k tiene más variabilidad (debido al amplio conjunto de parámetros utilizados en las simulaciones) que CAMI-gutque se concentra en un pequeño subespacio, mientras que los contigs mal ensamblados de ambos conjuntos de datos generalmente se agrupan (Fig. 6A y 6B). Tenga en cuenta que dado que ResMiCo tiene dos capas completamente conectadas siguiendo la agrupación promedio global visualizada, no se espera que las dos clases sean completamente separables en esta etapa. Tanto la riqueza de la comunidad como la cobertura promedio de contig dividen fuertemente el espacio latente (Fig. 6C y 6D).
Figura 6. Incorporaciones de Contig aprendidas por ResMiCo, proyectadas usando UMAP.
La primera fila muestra (A) todas las incrustaciones de contig y (B) las incrustaciones de contig mal ensambladas para el tren n9kel n9k-novelay el CAMÍ. intestino conjuntos de datos En la segunda fila, contigs de la tren n9k Los conjuntos de datos están coloreados (C) por la riqueza de la comunidad simulada de la que se originaron y (D) por su cobertura promedio.
https://doi.org/10.1371/journal.pcbi.1011001.g006
ResMiCo detecta una tasa de ensamblaje incorrecto del 3 al 12 % en metagenomas del mundo real
Aplicamos ResMiCo a conjuntos de datos de metagenoma intestinal publicados de múltiples estudios para evaluar la prevalencia de contigs mal ensamblados en datos metagenómicos disponibles públicamente. Utilizamos tres conjuntos de datos de muestras intestinales: UHGG, GemelosReino Unidoy Tripa animal. UHGG consistía en un subconjunto aleatorio de metagenomas intestinales asociados con MAG en la base de datos UHGG, mientras que GemelosReino Unido y Tripa animal consistía en metagenomas intestinales de occidentalizados adultos y una amplia diversidad taxonómica de vertebrados, respectivamente (ver Materiales y métodos). También utilizamos 2 conjuntos de datos del genoma de la carne marina (pinnell2019 y MarineMetagenomeDB) y 2 del suelo (mantri2021 y TerrestrialMetagenomeDB).
ResMiCo detectó un promedio de 3,4 %, 6 % y 8,8 % de contigs mal ensamblados en todos los ensamblajes del metagenoma en los conjuntos de datos asociados con vertebrados: GemelosReino Unido, Tripa animaly UHGG, respectivamente. Los conjuntos de datos marinos y de suelo contenían más desensamblajes (MarineMetagenomeDB: 8,3%, mantri2021: 11,5%, pinnell2019: 8,6%, y TerrestrialMetagenomeDB: 12,5%). En general, evaluamos 8 235 502 contigs, de los cuales el 6 % está mal ensamblado según las predicciones de ResMiCo (≥ 0,8).
Proporcionamos una tasa estimada de errores de ensamblaje para cada metagenoma en Tabla S1). En promedio en todos los metagenomas, la tasa de ensamblaje incorrecto fue del 7% ± 5,7 (sd). La alta variabilidad entre las muestras y los conjuntos de datos sugiere que los factores específicos de la muestra (p. ej., la complejidad taxonómica de la comunidad o la variabilidad entre las preparaciones de la biblioteca NGS) pueden influir sustancialmente en las tasas de errores de ensamblaje. Tenga en cuenta que no aplicamos ResMiCo en la minoría de metagenomas que no cumplieron con nuestros criterios de inclusión (ver Materiales y métodos).
Discusión
Abordamos el problema de la evaluación de la calidad del metagenoma sin referencia mediante el desarrollo de ResMiCo, una red neuronal residual profunda que permite la identificación precisa de cóntigos mal ensamblados. ResMiCo proporciona una canalización de generación de datos eficiente (consulte el Texto G en S1 Text), que transforma las lecturas sin procesar y los contigs en características posicionales que utiliza una red neuronal residual para predecir si un contig dado se ensambló mal. El modelo ResMiCo fue entrenado y probado en conjuntos de datos de tamaño y complejidad sin precedentes (tren n9k y n9k-novela contienen 210 Gbps de contigs ensamblados), que hemos puesto a disposición de forma gratuita como un recurso para el desarrollo y la evaluación comparativa de modelos posteriores (ver Materiales y métodos). Estos conjuntos de datos se pueden ampliar o se pueden generar nuevos conjuntos de datos con la canalización de simulación de conjuntos de datos de ResMiCo, que permite una generación de datos sencilla y eficiente en sistemas informáticos de alto rendimiento.
ResMiCo logró una puntuación AUPRC de 0,76 en el conjunto de pruebas de exclusión taxonómicamente novedosas (n9k-novela), lo que supone una mejora excepcional respecto al estado del arte (Figura 4A). La solidez de ResMiCo frente a la novedad taxonómica a nivel familiar demuestra claramente que se puede aplicar a metagenomas que incluyen una novedad taxonómica sustancial, como los microbiomas intestinales de especies animales poco estudiadas. [28].
Cuando se probó en los 3 conjuntos de datos CAMI humanos y 2 no humanos, ResMiCo mostró un alto rendimiento similar y nuevamente superó sustancialmente el estado del arte (ver Resultados y Fig 4B, 4C y 4D). Estos resultados muestran que ResMiCo puede generalizar a conjuntos de datos específicos de bioma de terceros, a pesar de nuestro uso de un conjunto de datos de entrenamiento independiente del bioma que consta de genomas seleccionados al azar de toda la GTDB.
ResMiCo está diseñado principalmente para aumentar la calidad de los ensamblajes existentes, y demostramos que filtrar los contigs con puntajes altos del conjunto de prueba de retención dio como resultado una disminución de cuatro veces en la tasa de error real sin una disminución sustancial en la contigüidad (Tabla 3).
Cuando se aplicó a los conjuntos de datos del metagenoma del mundo real, ResMiCo detectó un 7 % ± 5,7 (sd) de contigs mal ensamblados por metagenoma. Esta estimación es sustancialmente más alta que la tasa de desensamblaje del 1 % previamente estimada a través de DeepMAsED [18]que puede deberse a las diferencias en la precisión del modelo y al mayor número y variedad de metagenomas del mundo real utilizados para nuestra estimación.
También mostramos que ResMiCo se puede aplicar para seleccionar parámetros de ensamblador correspondientes a la mejor precisión de ensamblaje para un conjunto de datos no etiquetado dado (Figura 5). Por lo tanto, los investigadores pueden optimizar los parámetros del ensamblador para obtener una alta precisión en sus metagenomas específicos del mundo real sin depender de los puntos de referencia de los conjuntos de datos simulados. [24].
El rendimiento enormemente mejorado de ResMiCo en relación con otros métodos de detección de errores de montaje sin referencia probablemente se deba a tres factores principales. Primero, ResMiCo fue entrenado en un conjunto de datos muy grande y variado. Incluso después de volver a implementar el cacharro de samtools algoritmo para ganar una mejora de velocidad 10x, generando el tren n9k El conjunto de datos requirió casi 40 000 horas de CPU para producir las 4560 combinaciones de parámetros de simulación (Tabla 1). Para el entrenamiento del modelo, usamos 52,5 millones de contigs que totalizan 159 Gbps. Por el contrario, el conjunto de datos de entrenamiento de DeepMAsED es 100 veces más pequeño, mientras que dicha información del conjunto de datos de entrenamiento no está disponible para metaMIC [44]. Las proyecciones UMAP de las incrustaciones contig para el tren n9kel n9k-novelay el CAMI-gut Los conjuntos de datos (Fig. 6A) muestran que los datos de entrenamiento de ResMiCo comprenden una parte sustancial del espacio de entrada. En segundo lugar, ResMiCo recibió capacitación sobre una mayor cantidad de características cuidadosamente seleccionadas; aunque ResMiCo usa solo las 14 funciones principales en la figura 3, generamos y probamos un total de 23 funciones (Tabla A en S1 Text) antes de seleccionar las 14 de mejor rendimiento. En comparación, DeepMAsED usó 8 funciones para el entrenamiento, mientras que metaMIC usó 4 tipos de funciones y, como hemos demostrado, ambos modelos no identificaron las funciones más relevantes para la detección de errores de montaje. En tercer lugar, la introducción de bloques residuales, combinados con el conjunto de datos más grande, nos permitió entrenar un modelo convolucional más profundo, que ha demostrado tener un mejor rendimiento en relación con las CNN tradicionales y menos profundas. [20]. Los bloques residuales transforman la señal de largo alcance (hasta 20 000 pb) de las características posicionales sin procesar, de modo que ResMiCo puede detectar internamente un punto de interrupción (Fig. B en el texto S1) e identificar contigs mal ensamblados en función de la fuerza de esta señal.
Si bien nuestras extensas evaluaciones mostraron que ResMiCo es sólido para muchas fuentes de novedad de conjuntos de datos, encontramos que el modelo es sensible a la distribución del tamaño de inserción promedio (Tabla E en Texto S1). Por lo tanto, antes de la evaluación, eliminamos todos los metagenomas que caían sustancialmente fuera del tren n9k distribución de tamaño de inserción. Si bien filtrar por tamaño de inserción puede conducir a una selección sesgada de metagenomas del mundo real, las bibliotecas de secuenciación de Illumina a menudo varían sustancialmente en la longitud de los fragmentos y, posteriormente, en la distribución del tamaño de la inserción, incluso dentro de la misma ejecución de secuenciación. Tal variación puede deberse a imprecisiones en la cuantificación del ADN y la distribución en alícuotas de los reactivos. ResMiCo detecta automáticamente si las distribuciones de tamaño de inserción de los datos evaluados difieren sustancialmente de las del entrenamiento y advierte a los usuarios que los resultados pueden ser menos precisos. Si es necesario, los investigadores pueden simular más datos de entrenamiento que incluyan el rango de tamaño de inserto deseado con la canalización de simulación de ResMiCo.
Mejora de la solidez del rendimiento en distribuciones cambiantes, a veces denominada generalización fuera de distribución (ood) [50–52], podría ser una dirección interesante para el trabajo de seguimiento. Si bien el aprendizaje profundo ha producido resultados impresionantes en una variedad de dominios, su dependencia de datos de entrenamiento independientes e idénticamente distribuidos (iid) puede ser un problema. [53–55]. Aunque existe una variedad de intentos para mejorar una buena generalización, la minimización empírica del riesgo sigue siendo el método de elección en la práctica. [56, 57]especialmente cuando se usa con un conjunto de datos de máxima diversidad, como se hizo en nuestro estudio.
Además de mejorar la alimentación, existen otras áreas que necesitan mejoras adicionales. En primer lugar, se necesita más investigación para evaluar la calidad de los contigs ensamblados a partir de lecturas largas propensas a errores (p. ej., Oxford Nanopore). En segundo lugar, vale la pena investigar si ResMiCo se puede adaptar para indicar la ubicación de los puntos de ruptura en contigs mal ensamblados. En tercer lugar, en lugar de usar etiquetas binarias, ResMiCo podría entrenarse en el tipo de ensamblaje incorrecto (p. ej., inversión o translocación) para proporcionar predicciones más detalladas. En cuarto lugar, si bien entrenamos en una selección muy amplia de genomas de todo el árbol de la vida bacteriano y arqueal, la capacitación y la evaluación futuras podrían ampliarse para incluir eucariotas y virus.
En resumen, ResMiCo es un gran avance en el desafío de la evaluación de la calidad del metagenoma sin referencia. Los métodos existentes que abordan este problema no se han utilizado ampliamente, probablemente debido a preocupaciones sobre si dichos enfoques pueden generalizarse a conjuntos de datos del mundo real. Nuestras extensas pruebas muestran que ResMiCo generaliza bien en un gran espacio de parámetros que incluye taxonomía, abundancia de comunidades y muchos parámetros de secuenciación. La amplia adopción de ResMiCo podría mejorar sustancialmente la calidad del ensamblaje del metagenoma para estudios y bases de datos individuales, lo cual es fundamental para obtener conocimientos biológicos precisos de datos metagenómicos.
Información de soporte
Texto S1.
Fig. A. Ubicaciones de puntos de ruptura para ensamblajes incorrectos identificados por MetaQUAST (tratados como datos reales en este trabajo). Fig B. Mapas de características para cuatro n9k-novela contigs mal ensamblados. Fig C. Mapas de características de la última capa antes de la agrupación global para cuatro n9k-novela contigs ensamblados correctamente. Fig D. La distribución de la longitud de contig y el rendimiento de ResMiCo en contigs de diferentes longitudes. Fig E. AUPRC que ResMiCo logra en 240 subconjuntos (diferentes parámetros de simulación) del n9k-novela. Fig F. Distribución de errores encontrados por MetaQUAST en el n9k-novela conjunto de datos de prueba. Fig. G. Puntuaciones de ResMiCo para contigs mal ensamblados agrupados por tipo de error de ensamblaje. Fig H. Rendimiento de ResMiCo medido por AUPRC en contigs de los conjuntos de datos con varios parámetros de simulación (n9k-novela). Fig. I. Rendimiento de ResMiCo medido por AUROC en contigs de los conjuntos de datos con varios parámetros de simulación (n9k-novela). Fig. J. Número de errores de ensamblaje encontrados por ResMiCo dividido por el número real de errores de ensamblaje en los conjuntos de datos con varios parámetros de simulación (n9k-novela). Fig. K. Fracción del genoma medida en (A) CAMI gut y (B) conjuntos de datos marinos de CAMI antes y después de filtrar mal ensamblados según ResMiCo contigs. Fig. L. Elementos clasificados por su importancia. Tabla A. La lista completa de características posicionales calculadas por la tubería ResMiCo. Tabla B. Hiperparámetros probados para la arquitectura ResMiCo. Tabla C. Efecto de reducción de muestreo de las lecturas en las predicciones de ResMiCo. Tabla D. Efecto de corte de longitud de contigs en las predicciones de ResMiCo. Tabla E. Desempeño de ResMiCo en datos de prueba que varían según el significar de la distribución del tamaño del inserto. Tabla F. Desempeño de ResMiCo en los equipos de prueba con variable desvst de la distribución del tamaño del inserto. Tabla G. Estadísticas de distribución de tamaño de inserción en conjuntos de datos sintéticos y del mundo real utilizados en este trabajo. Tabla H. Rendimiento de ResMiCo en dos conjuntos de datos simulados del mundo real. Texto A: Las incrustaciones de ResMiCo resaltan las ubicaciones de los puntos de interrupción. Texto B: rendimiento de ResMiCo por tipo de error de montaje. Texto C: Selección de arquitectura NN. Texto D: efecto del corte de longitud y el muestreo descendente de lectura en las predicciones de ResMiCo. Texto E: Sensibilidad de ResMiCo a los cambios en la distribución del tamaño del inserto. Texto F: Agrupación de desensamblajes. Texto G: Optimización del rendimiento de la generación de datos.
https://doi.org/10.1371/journal.pcbi.1011001.s001
(PDF)
Referencias
- 1.
Gaio D, Anantanawat K, To J, Liu M, Monahan L, Darling AE. Hackflex: construcción de biblioteca de secuenciación Illumina Nextera Flex de bajo costo. bioRxiv. 2021.
- 2.
Hennig BP, Velten L, Racke I, Tu CS, Thoms M, Rybin V, et al. Preparación de bibliotecas NGS a gran escala y bajo costo mediante un protocolo robusto de purificación y tagmentación Tn5. G3 Genes—Genomas—Genética. 2018;8(1):79–89. pmid:29118030
- 3.
Nurk S, Meleshko D, Korobeynikov A, Pevzner PA. metaSPAdes: un nuevo ensamblador metagenómico versátil. Investigación del genoma. 2017;27(5):824–834. pmid:28298430
- 4.
Li D, Liu CM, Luo R, Sadakane K, Lam TW. MEGAHIT: una solución ultrarrápida de un solo nodo para ensamblaje metagenómico grande y complejo a través de un gráfico de Bruijn sucinto. Bioinformática. 2015;31(10):1674–1676. pmid:25609793
- 5.
Nayfach S, Shi ZJ, Seshadri R, Pollard KS, Kyrpides NC. Nuevos conocimientos de genomas no cultivados del microbioma intestinal humano global. Naturaleza. 2019;568(7753):505–510. pmid:30867587
- 6.
Almeida A, Mitchell AL, Boland M, Forster SC, Gloor GB, Tarkowska A, et al. Un nuevo modelo genómico de la microbiota intestinal humana. Naturaleza. 2019;568(7753):499–504. pmid:30745586
- 7.
Pasolli E, Asnicar F, Manara S, Zolfo M, Karcher N, Armanini F, et al. Amplia diversidad de microbiomas humanos inexplorada revelada por más de 150 000 genomas de metagenomas que abarcan edad, geografía y estilo de vida. Celúla. 2019;176(3):649–662. pmid:30661755
- 8.
Qin J, Li R, Raes J, Arumugam M, Burgdorf KS, Manichanh C, et al. Un catálogo de genes microbianos del intestino humano establecido por secuenciación metagenómica. naturaleza. 2010;464(7285):59–65. pmid:20203603
- 9.
Xiao L, Feng Q, Liang S, Sonne SB, Xia Z, Qiu X, et al. Un catálogo del metagenoma del intestino del ratón. Biotecnología de la naturaleza. 2015;33(10):1103–1108. pmid:26414350
- 10
Breitwieser FP, Lu J, Salzberg SL. Una revisión de métodos y bases de datos para clasificación y ensamblaje metagenómico. Briefings en bioinformática. 2019;20(4):1125–1136. pmid:29028872
- 11
Almeida A, Nayfach S, Boland M, Strozzi F, Beracochea M, Shi ZJ, et al. Un catálogo unificado de 204 938 genomas de referencia del microbioma intestinal humano. Biotecnología de la naturaleza. 2021;39(1):105–114. pmid:32690973
- 12
Parks DH, Chuvochina M, Waite DW, Rinke C, Skarshewski A, Chaumeil PA, et al. Una taxonomía bacteriana estandarizada basada en la filogenia del genoma revisa sustancialmente el árbol de la vida. Biotecnología de la naturaleza. 2018;36(10):996–1004. pmid:30148503
- 13
Youngblut ND, Ley RE. Struo2: construcción eficiente de bases de datos de perfiles de metagenomas para conjuntos de datos de genomas microbianos en constante expansión. PeerJ. 2021;9:e12198. pmid:34616633
- 14
Lapidus AL, Korobeynikov AI. Ensamblaje de datos metagenómicos: la forma de decodificar microorganismos desconocidos. Fronteras en Microbiología. 2021;12:653. pmid:33833738
- 15.
Mikheenko A, Saveliev V, Gurevich A. MetaQUAST: evaluación de ensamblajes de metagenomas. Bioinformática. 2016;32(7):1088–1090. medio:26614127
- dieciséis.
Koren S, Phillippy AM. Un cromosoma, un contig: genomas microbianos completos a partir de secuenciación y ensamblaje de lectura larga. Opinión actual en microbiología. 2015;23:110–120. medio:25461581
- 17
Ayling M, Clark MD, Leggett RM. Nuevos enfoques para el ensamblaje de metagenomas con lecturas cortas. Briefings en bioinformática. 2020;21(2):584–594. pmid:30815668
- 18
Mineeva O, Rojas-Carulla M, Ley RE, Schölkopf B, Youngblut ND. DeepMAsED: evaluando la calidad de ensamblajes metagenómicos. Bioinformática. 2020;36(10):3011–3017. pmid:32096824
- 19
Lai S, Pan S, Coelho LP, Chen WH, Zhao XM. metaMIC: identificación y corrección de ensamblajes erróneos sin referencia de ensamblajes metagenómicos de novo. bioRxiv. 2021;.
- 20
He K, Zhang X, Ren S, Sun J. Aprendizaje residual profundo para el reconocimiento de imágenes. En: Actas de la conferencia IEEE sobre visión artificial y reconocimiento de patrones; 2016. pág. 770–778. - 21
Jaganathan K, Kyriazopoulou Panagiotopoulou S, McRae JF, Darbandi SF, Knowles D, Li YI, et al. Predicción del empalme a partir de la secuencia primaria con aprendizaje profundo. Celúla. 2019;176(3):535–548.e24. pmid:30661751
- 22
Parks DH, Chuvochina M, Waite DW, Rinke C, Skarshewski A, Chaumeil PA, et al. Una taxonomía bacteriana estandarizada basada en la filogenia del genoma revisa sustancialmente el árbol de la vida. Nat Biotechnol. 2018;36(10):996–1004. pmid:30148503
- 23
Huang W, Li L, Myers JR, Marth GT. ART: un simulador de lectura de secuenciación de última generación. Bioinformática. 2012;28(4):593–594. pmid:22199392
- 24
Fritz A, Hofmann P, Majda S, Dahms E, Dröge J, Fiedler J, et al. CAMISIM: simulación de metagenomas y comunidades microbianas. Microbioma. 2019;7(1):1–12. pmid:30736849
- 25
Langmead B, Salzberg SL. Alineación rápida de lectura con intervalos con Bowtie 2. Métodos naturales. 2012;9(4):357–359. pmid:22388286
- 26
Sczyrba A, Hofmann P, Belmann P, Koslicki D, Janssen S, Dröge J, et al. Evaluación crítica de la interpretación del metagenoma: un punto de referencia del software de metagenómica. Métodos de la naturaleza. 2017;14(11):1063–1071. medio:28967888
- 27
de la Cuesta-Zuluaga J, Spector TD, Youngblut ND, Ley RE, Bordenstein S. Información genómica sobre adaptaciones de metanógenos que utilizan trimetilamina a diversos hábitats, incluido el intestino humano. mSistemas. 2021;6(1):e00939–20. pmid:33563787
- 28
Youngblut ND, De la Cuesta-Zuluaga J, Reischer GH, Dauser S, Schuster N, Walzer C, et al. El ensamblaje del metagenoma a gran escala revela nuevos genomas microbianos asociados con animales, grupos de genes biosintéticos y otra diversidad genética. Msistemas. 2020;5(6):e01045–20. medio:33144315
- 29
Pinnell LJ, Turner JW. La metagenómica de la escopeta revela la respuesta de la comunidad microbiana béntica al plástico y al bioplástico en un entorno marino costero. Fronteras en Microbiología. 2019;10. pmid:31231339
- 30
Mantri SS, Negri T, Sales-Ortells H, Angelov A, Peter S, Neidhardt H, et al. La secuenciación metagenómica de múltiples horizontes de suelo y sitios cercanos reveló una nueva diversidad de metabolitos secundarios. mSistemas. 2021;6(5):e01018–21. pmid:34636675
- 31
Nata’ala MK, Avila Santos AP, Coelho Kasmanas J, Bartholomäus A, Saraiva JP, Godinho Silva S, et al. MarineMetagenomeDB: un repositorio público de metadatos curados y estandarizados para metagenomas marinos. Microbioma ambiental. 2022;17(1):57. pmid:36401317
- 32.
Corrêa FB, Saraiva JP, Stadler PF, da Rocha UN. TerrestrialMetagenomeDB: un depósito público de metadatos seleccionados y estandarizados para metagenomas terrestres. Investigación de ácidos nucleicos. 2019;48(D1):D626–D632.
- 33.
Sevim V, Lee J, Egan R, Clum A, Hundley H, Lee J, et al. Datos del metagenoma de escopeta de una comunidad simulada definida que utiliza las tecnologías Oxford Nanopore, PacBio e Illumina. Datos de ciencia. 2019;6(1):285. pmid:31772173
- 34.
Singer E, Andreopoulos B, Bowers RM, Lee J, Deshpande S, Chiniquy J, et al. Datos de secuenciación de próxima generación de una comunidad simulada microbiana definida. Datos de ciencia. 2016;3:160081. medio:27673566
- 35.
Jo J, Oh J, Park C. Análisis de la comunidad microbiana utilizando tecnología de secuenciación de alto rendimiento: una guía para principiantes para microbiólogos. J Microbiol. 2020;58(3):176–192. pmid:32108314
- 36.
Hillmann B, Al-Ghalith GA, Shields-Cutler RR, Zhu Q, Gohl DM, Beckman KB, et al. Evaluación del contenido de información de la metagenómica de escopeta superficial. mSistemas. 2018;3(6). pmid:30443602
- 37.
Caída AP. fqtools: un paquete de software eficiente para la manipulación moderna de archivos FASTQ. Bioinformática. 2016;32(12):1883–1884. pmid:27153699
- 38.
Jiang H, Lei R, Ding SW, Zhu S. Skewer: un recortador adaptador rápido y preciso para lecturas emparejadas de secuenciación de última generación. BMC Bioinformática. 2014;15:182. pmid:24925680
- 39.
Ewels P, Magnusson M, Lundin S, Käller M. MultiQC: resuma los resultados del análisis para múltiples herramientas y muestras en un solo informe. Bioinformática. 2016;32(19):3047–3048. medio:27312411
- 40
Ioffe S, Szegedy C. Normalización por lotes: aceleración del entrenamiento profundo de redes mediante la reducción del cambio de covariable interno. 2015;.
- 41.
Kingma DP, Ba J. Adam: un método para la optimización estocástica. 2014;.
- 42.
Lundberg SM, Lee SI. Un enfoque unificado para interpretar las predicciones del modelo. En: Guyon I, Luxburg UV, Bengio S, Wallach H, Fergus R, Vishwanathan S, et al., editores. Avances en Sistemas de Procesamiento de Información Neural. vol. 30. Curran Associates, Inc.; 2017. Disponible en: https://procedings.neurips.cc/paper/2017/file/8a20a8621978632d76c43dfd28b67767-Paper.pdf.
- 43.
Shrikumar A, Greenside P, Kundaje A. Aprendizaje de características importantes mediante la propagación de diferencias de activación. 2017;.
- 44.
Lai S, Pan S, Coelho LP, Chen WH, Zhao XM. metaMIC: identificación y corrección de ensamblajes erróneos sin referencia de ensamblajes metagenómicos de novo; 2021.
- 45.
Clark SC, Egan R, Frazier PI, Wang Z. ALE: un marco de evaluación de probabilidad de ensamblaje genérico para evaluar la precisión de los ensamblajes de genoma y metagenoma. Bioinformática. 2013;29(4):435–443. pmid:23303509
- 46.
Branco P, Torgo L, Ribeiro RP. Una encuesta de modelado predictivo en dominios desequilibrados. Encuestas de Informática ACM (CSUR). 2016;49(2):1–50.
- 47.
Köster J, Rahmann S. Snakemake: un motor de flujo de trabajo de bioinformática escalable. Bioinformática. 2012;28(19):2520–2522. medio:22908215
- 48.
Abadi M, Agarwal A, Barham P, Brevdo E, Chen Z, Citro C, et al. TensorFlow: aprendizaje automático a gran escala en sistemas heterogéneos; 2015. Disponible en: https://www.tensorflow.org/.
- 49.
McInnes L, Healy J, Melville J. UMAP: Proyección y aproximación de variedad uniforme para la reducción de dimensiones. 2018;.
- 50
Azulay A, Weiss Y. ¿Por qué las redes convolucionales profundas se generalizan tan mal en transformaciones de imágenes pequeñas? JMLR. 2019;.
- 51.
Schott L, von Kügelgen J, Träuble F, Gehler P, Russell C, Bethge M, et al. El aprendizaje de representación visual no se generaliza fuertemente dentro del mismo dominio. En: ICLR; 2022.
- 52.
Hendrycks D, Basart S, Mu N, Kadavath S, Wang F, Dorundo E, et al. Las muchas caras de la robustez: un análisis crítico de la generalización fuera de distribución. En: ICCV; 2021.
- 53.
Ben-David S, Blitzer J, Crammer K, Pereira F. Análisis de representaciones para la adaptación del dominio. En: Avances en los sistemas de procesamiento de información neuronal; 2007. pág. 137–144.
- 54.
Schoelkopf B. Inteligencia artificial: Aprendiendo a ver y actuar. Naturaleza. 2015;518(7540):486–487.
- 55.
Beery S, Van Horn G, Perona P. Reconocimiento en Terra Incognita. En: ECCV; 2018.
- 56.
Gulrajani I, López-Paz D. En busca de la generalización del dominio perdido. En: ICLR; 2021.
- 57.
Miller JP, Taori R, Raghunathan A, Sagawa S, Koh PW, Shankar V, et al. Precisión en la línea: sobre la fuerte correlación entre la generalización fuera de distribución y dentro de la distribución. En: ICML; 2021.