Vaya más allá de las llamadas de variantes somáticas: GATK Somatic SNV e INDEL (Mutect2) 4.1.9.0

los Flujo de trabajo de GATK Somatic SNV e INDEL (Mutect2) 4.1.9.0 es un flujo de trabajo llamador de variantes somáticas que utiliza ensamblaje y realineación locales para detectar variantes de un solo nucleótido (SNV) y cambios de inserción y eliminación (INDEL). Esta herramienta Mutect2 (ver la publicación original en BioRxiv) es una mejora de la herramienta «MuTect» original creada por Cibulskis et al, detallada en el Naturaleza Biotecnología publicación de artículos aquí en 2013. Mutect2 es una mejora del MuTect original al introducir el uso del ensamblador HaplotypeCaller.

La propia herramienta Mutect2, junto con algunas otras herramientas, se compilan en este Flujo de trabajo de Mutect2 (GATK Somatic SNV e INDEL 4.1.9.0). Este flujo de trabajo es capaz de operar en múltiples modos: puede usarse para detectar SNV e INDEL en una o más muestras tumorales de un solo individuo, con o sin una muestra normal coincidente. Aquí, el ensamblaje implica haplotipos completos y pares de lecturas, en lugar de bases individuales, como unidades individuales de variación biológica y evidencia de secuenciación, con el efecto de mejorar la llamada variante. Más allá del ensamblaje y la alineación locales, la herramienta Mutect2 se basa en varios modelos probabilísticos para genotipado y filtrado que funcionan bien para todas las profundidades de secuenciación.

Usando este flujo de trabajo para su investigación

El flujo de trabajo de Mutect2 se ejecuta en un solo par tumor-normal o en una sola muestra de tumor y realiza tareas adicionales de filtrado y anotación funcional. El caso de uso típico para el flujo de trabajo de Mutect2 es detectar variantes somáticas presentes en una muestra tumoral. El flujo de trabajo de Mutect2 también se puede utilizar para llamada variante mitocondrial, y detección de mosaicismo somático.

Figura 1: Descripción general del flujo de trabajo de GATK Somatic SNV e INDEL (Mutect2) 4.1.9.0 disponible en las plataformas Seven Bridges.

Para obtener más detalles sobre las entradas y salidas específicas para este flujo de trabajo, y para ver una versión ampliable de esta figura, consulte la página de descripción en Catalizador de biodatos del NHLBI y en el CGC.

Implementación en Common Workflow Language v1.0

El equipo GATK del Broad Institute creó originalmente este flujo de trabajo y lo puso a disposición del público en el formato de lenguaje de descripción de flujo de trabajo (WDL), consulte aquí. WDL es una forma conveniente de representar flujos de trabajo de procesamiento de datos de una manera legible por humanos. En cambio, Seven Bridges utiliza el Lenguaje de flujo de trabajo común (CWL), una especificación de código abierto ampliamente compatible para descripciones de flujo de trabajo. La descripción WDL de GATK de este flujo de trabajo de Mutect2 se utilizó para crear nuestra implementación en formato CWL v1.0, sin realizar ningún cambio que constituya una desviación significativa de la versión WDL. Esto se confirmó al obtener los mismos resultados para la evaluación comparativa del rendimiento del flujo de trabajo para las versiones WDL y CWL. Existe una amplia variedad de ejecutores que admiten CWL, y los flujos de trabajo creados en CWL son altamente portátiles y reproducibles. Una aplicación o flujo de trabajo de CWL no está restringido al entorno de Seven Bridges: se pueden ejecutar en una computadora portátil, en clústeres de computación de alto rendimiento y en una infraestructura de nube sin procesar, entre otros.

Tiempo y Costo de Ejecución

En Seven Bridges, nuestro equipo de bioinformática realiza evaluaciones comparativas de muchas de nuestras herramientas y flujos de trabajo para que los usuarios comprendan mejor el tiempo y el costo de ejecución. En la siguiente tabla, representamos el costo de ejecución del tiempo de ejecución en comparación con el tamaño del archivo BAM no asignado. El tiempo de ejecución de este flujo de trabajo en la infraestructura en la nube de Seven Bridges varía proporcionalmente con el tamaño de los archivos de entrada. El tamaño de un archivo BAM no asignado que contiene lecturas de secuenciación sin procesar tiene la mayor influencia en el tiempo de ejecución del flujo de trabajo.

El precio de ejecución de este flujo de trabajo varía proporcionalmente al tamaño de la muestra de entrada, que podría reducirse significativamente (hasta un 75 %) al usar Instancias puntuales de Amazon Web Services (AWS). Para aprender más sobre instancias puntualesvisita nuestro Centro de Conocimiento.

Corriendo en las plataformas de Seven Bridges

Lo alentamos a que explore las variantes somáticas en los datos del cáncer utilizando nuestro GATK Somatic SNV e INDEL 4.1.9.0 flujo de trabajo. Un buen punto de partida podría ser investigar variantes en uno de los muchos conjuntos de datos populares alojados en las plataformas de Seven Bridges, como Investigación Terapéuticamente Aplicable Para Generar Tratamientos Efectivos (TARGET) sobre el Nube de genómica del cáncer y el Programa Trans-Omics para Medicina de Precisión (TOPMed) en NHBI BioDataCatalyst impulsado por Seven Bridges. Además de nuestros conjuntos de datos alojados, también contamos con una variedad de métodos para cargar fácilmente sus propios datos en el entorno de Seven Bridges y ejecutar los análisis posteriores utilizando nuestra infraestructura en la nube. Para obtener más información sobre cómo comenzar en las plataformas de Seven Bridges, Contáctenos Este Dia.

Fuente del artículo

Deja un comentario