CoreGenomics: Explicación de las fases de 10X Genomics

Esta publicación es la continuación de la anterior que explica el Ensayo de mRNA-seq de una sola célula de 10X Genomics. Esta vez realmente estoy revisando el método como se describe en un artículo publicado recientemente en BioRxiv por Deanna Church y David Jaffe de 10X.: Determinación directa de secuencias del genoma diploide. Esto sigue a lo anterior Documento de métodos nacionales cual fue el primero Ensamblaje 10X de novo de NA12878, pero en el sistema GemCode. Si bien estamos iniciando algunos proyectos de fase en nuestra caja de cromo 10X, el interés más significativo ha estado en las aplicaciones de una sola celda. Pero si podemos combinar los dos métodos (o algo más) para obtener CNV de una sola celda, ¡entonces 10X es un ganador!




El papel describe el Cromo genómico 10X tecnología de fase. Destacan el impacto de su tecnología recordándonos primero que la mayoría de los genomas humanos secuenciados hasta la fecha se analizan alineándolos con la referencia (un punto importante que los usuarios suelen olvidar). Dicen que solo unos pocos de novo Se han creado ensamblajes humanos, pero la mayoría no representan verdaderamente genomas biológicos complejos. Los autores solo consideran dos genomas publicados como verdaderos diploides de novo asambleas – gravamen y otros. PLoS Biol 2008: La secuencia del genoma diploide de un humano individual y cao y otros. Nat Biotech 2015. Ensamblaje de novo de un genoma humano resuelto con haplotipo.

El método: Presentan la preparación de la biblioteca 10X Chromium. Esto comienza con 1,25 ng de >50 kb de ADN, de los cuales se copian 16 pb de loci genómicos aleatorios con código de barras (¿por extensión de polimerasa?) dentro de las perlas de gel de cromo. Cada uno de estos contiene alrededor de 10 moléculas por gota equivalentes a ~0,5 Mb del genoma. La parte más importante de la tecnología es la capacidad de poner solo el 0,01% del genoma humano diploide en una sola gota, lo que hace que la probabilidad de que ambos alelos estén presentes sea muy pequeña. Con 2 carriles de X Ten, puede esperar obtener una cobertura del genoma humano de aproximadamente 60X y los autores calculan el número de “lecturas vinculadas” por molécula como 60, lo que equivale a una cobertura de alrededor de 0,4x (suficiente para una secuenciación superficial de CNV para revelar la clonalidad en tumores). tal vez).

Pregunta a los autores: No entiendo la afirmación de que los genomas más pequeños obtienen una cobertura de lectura vinculada más baja: “Para genomas más pequeños, suponiendo que se cargó la misma masa de ADN y que la biblioteca se secuenció con la misma profundidad de lectura, la cantidad de lecturas enlazadas (pares de lectura) por molécula disminuiría proporcionalmente, lo que reduciría la potencia del tipo de datos. Por ejemplo , para un genoma cuyo tamaño es 1/10 del tamaño del genoma humano (320 Mb), el número medio de LinkedReads por molécula sería de aproximadamente 6, y la distancia entre LinkedReads sería de aproximadamente 8 kb, lo que dificultaría el anclaje de códigos de barras. a contigs iniciales cortos”. Mi primera suposición fue que el tamaño del genoma no tendría impacto en la profundidad de lectura vinculada, pero afectaría significativamente la cantidad del genoma presente en una sola gota. Como tal, el genoma más pequeño, con fragmentos de ADN del mismo tamaño, aún debería tener alrededor de 60 lecturas vinculadas por molécula de ADN, pero un genoma de 10 MB significaría que el 5% estaba en cada gota, lo que hace que la fase sea mucho más difícil de determinar. Por favor, siéntete libre de explicarme esto.

Los datos: En el artículo presentan datos de siete genomas humanos, secuenciados en HiSeq X Diezy ensamblado usando el “presionar el botón” Algoritmo Supernova (no se ejecutará en su Mac Book Pro ya que necesitará> 384 Gb de RAM). En solo dos días por genoma, generaron más de 100 kb de contigs con bloques de fase de 2,5 Mb. Los 7 genomas incluyen 4 con datos parentales para verificar los resultados de la fase, así como una muestra utilizada en el HGP. Incluyen una figura (ver más abajo) que muestra el ensamblaje Supernova de la muestra HGP alineado con un clon de 162 kb que forma parte de la referencia GRCh37. Coincide casi por completo con la secuencia de referencia con las 8 variantes que incluyen solo 1 SNV (verde), pero 6 variantes de homopolímero y 1 dinucleótido de longitud repetida (azul/cian). La segunda figura muestra la representación del camino que toma una secuencia FASTA a través de las “megaburbujas” que separan los alelos parentales y las “microburbujas” causadas por repeticiones más largas y homopolímeros.
1682682634 38 CoreGenomics Explicacion de las fases de 10X Genomics

1682682634 131 CoreGenomics Explicacion de las fases de 10X Genomics
¿Quién es cuidadoso mano en 10X Genomics dibujó esta representación de FASTA?
Ajuste de fase 10X a sus necesidades: Los usuarios pueden “sintonizar” el andamio N50 variando la longitud del ADN o la cobertura de secuenciación. Parece que un solo carril X Ten que genera una cobertura de 30x empujaría al andamio N50 de 17 a 12 Mb. La calidad del ADN es probablemente lo más importante y sospecho que muchas personas aceptarán una mejora significativa en la estimación de fases a partir de experimentos de menor costo.


Muchos grupos también querrán ejecutar genomas de diferentes tamaños y necesitarán estimar cuánto ADN usar y cuánta secuenciación requerirán. Para genomas pequeños, esto se vuelve realmente interesante y 10X podría ser una excelente herramienta de metagenómica que permita el análisis del nivel de tensión de muestras complejas. Para los genomas no humanos más grandes, las personas necesitarán una cantidad mucho menor de ADN en una sola ejecución, lo que puede limitar la cantidad de copias del genoma a un nivel irrazonable.
  • Humano 3Gb = 1ng = 300 copias del genoma
  • Trigo 5Gb = 0.67ng = 135 copias del genoma
  • Maíz 20Gb = 0.17ng = 8 copias del genoma
  • Salmandra 50Gb = 0.07ng = 1,3 copias del genoma
  • París japónica 150Gb = 0.02ng = 0,15 copias del genoma

Quién va a usar la eliminación progresiva de Chromium: ¿Será este tipo de datos lo suficientemente relevante como para que las personas adopten 10X Chromium como la preparación predeterminada de la biblioteca del genoma? Sospecho que muchos equipos están trabajando en cientos o incluso miles de genomas 10X Genomics en este momento y veremos muchas más publicaciones muy pronto. Si la preparación Chromium de $ 500 puede agregar valor real (biológica o clínicamente), entonces 10X tiene una posibilidad real de convertirse en un nuevo estándar para la preparación de bibliotecas. Si ese es el caso, supongo que veremos qué tan fuerte es su IP a medida que la competencia crea sus propias variantes de la tecnología.

Fuente del artículo

Deja un comentario