Aspectos destacados de las mejores prácticas de GATK: el flujo de trabajo del panel de normales 4.1.9.0 Somatic Create Mutect2 de GATK

los Flujo de trabajo GATK Somatic Create Mutect2 Panel of Normals (PON) toma múltiples conjuntos de llamadas de muestra normales producidos por Flujo de trabajo de GATK Somatic SNV e INDEL 4.1.9.0 el modo de solo tumor (aunque se denomina solo de tumor, las muestras normales se dan como entrada) y recopila los sitios presentes en dos o más muestras en un VCF de solo sitios. El flujo de trabajo de PON crea un panel de normales (sitios de líneas germinales y artefactos) para usar en otros flujos de trabajo de GATK. Esta herramienta y otras herramientas de la serie Mutect2 (consulte la publicación original en BioRxiv) es una mejora de la herramienta «MuTect» original creada por Cibulskis et al, detallada en la publicación del artículo de Nature Biotechnology aquí en 2013. Tanto el flujo de trabajo PON como el flujo de trabajo de SNV e INDEL se componen en referencia a sus contrapartes oficiales de las versiones WDL de GATK.

Para obtener más información sobre los asociados GATK Somatic SNV e INDEL 4.1.9.0 flujo de trabajo, vea nuestra publicación de blog aquí.

Usando este flujo de trabajo para su investigación

El flujo de trabajo de PON (Figura 1, a continuación) captura sitios de variantes de líneas germinales y artefactos comunes y los genera en forma de un archivo VCF. El flujo de trabajo principal de Mutect2 luego usa ese archivo para filtrar variantes a nivel del sitio.

Figura 1: Descripción general del flujo de trabajo del panel de normales GATK Somatic Create Mutect2 disponible en las plataformas Seven Bridges.

Como se muestra en la Figura 1 anterior, los principales pasos del flujo de trabajo son:

  • El primer paso de este flujo de trabajo es ejecutar el GATK Somatic SNV e INDEL 4.1.9.0 en modo de solo tumor para cada muestra normal.
  • El siguiente paso es crear un GenomicDB a partir de las llamadas normales.
  • Tercero, el Importación de base de datos de genómica GATK La herramienta se utiliza para combinar varios archivos GVCF/VCF de una sola muestra antes del genotipado conjunto, en el intervalo genómico especificado.
  • Finalmente, la salida de la importación de la base de datos genómica GATK es utilizada por el Crear panel somático de normales

El flujo de trabajo de GATK Somatic SNV e INDEL 4.1.9.0 dentro del panel GATK Somatic Create Mutect2 de Normals 4.1.9.0 está paralelizado (disperso) por lecturas normales. los Herramienta de importación de base de datos genómica y Herramienta Crear panel somático de normales ambos están envueltos como un flujo de trabajo interno dentro del flujo de trabajo principal para que puedan ser paralelos juntos.

Notas importantes para usar este flujo de trabajo

  • Las entradas de BAM deben ordenarse e indexarse. Esto se puede hacer usando Bamtools, picardo, o Sambamba herramientas que están disponibles en el Galería de aplicaciones públicas.
  • La referencia FASTA y el índice requieren archivos de índice FAI y DICT. Estos archivos se pueden generar utilizando el Índices SBG FASTA
  • Por último, Recurso de línea germinal (gnomAD) archivo y su índice – base de datos de variantes de línea germinal conocidas, (ver El sitio del Broad Institute: descargas de gnomad) es una entrada opcional pero recomendada.

Evaluación comparativa de rendimiento

En Seven Bridges, nuestro equipo de bioinformática realiza evaluaciones comparativas de muchas de nuestras herramientas y flujos de trabajo para que los usuarios comprendan mejor el tiempo y el costo de ejecución. En la siguiente tabla, representamos el costo de ejecución del tiempo de ejecución en comparación con el tamaño del archivo BAM no asignado. El tiempo de ejecución de este flujo de trabajo en la infraestructura en la nube de Seven Bridges varía proporcionalmente con el tamaño de los archivos de entrada. El tamaño de un archivo BAM no asignado que contiene lecturas de secuenciación sin procesar tiene la mayor influencia en el tiempo de ejecución del flujo de trabajo.

El precio de ejecución de este flujo de trabajo que varía según el tamaño de entrada se muestra en la tabla anterior. Estos precios podrían reducirse significativamente (hasta un 75%) al utilizar Instancias puntuales de Amazon Web Services (AWS). Para aprender más sobre instancias puntualesvisita nuestro Centro de Conocimiento.

Corriendo en las plataformas de Seven Bridges

Un buen punto de partida para ejecutar este flujo de trabajo en Seven Bridges podría ser comparar los datos de su paciente de interés con muestras de sangre normales (sin tumor) de personas sanas en El conjunto de datos del Atlas del Genoma del Cáncer (TCGA). Además de nuestros conjuntos de datos alojados, también contamos con una variedad de métodos para cargar fácilmente sus propios datos en el entorno de Seven Bridges y ejecutar los análisis posteriores utilizando nuestra infraestructura en la nube. Para obtener más información sobre cómo comenzar en las plataformas de Seven Bridges, Contáctenos Este Dia.

Fuente del artículo

Deja un comentario