Asignación incorrecta de índice al control PhiX de Illumina

La multiplexación es la opción predeterminada para la mayor parte del trabajo que se lleva a cabo en mi laboratorio y es una de las razones por las que Illumina ha tenido tanto éxito. En lugar de una muestra por carril que solíamos ejecutar cuando un GA1 generaba solo unos pocos millones de lecturas por carril, ahora podemos ejecutar un experimento de RNA-seq de 24 muestras en un carril HiSeq 4000 y esperar obtener 10-20M lecturas por muestra. Para casi todo lo que no sea genomas, la secuenciación multiplexada es la norma.

Pero la secuenciación de índices puede salir mal, y esto puede suceder y sucede incluso antes de que algo entre en el secuenciador. Nos dimos cuenta de que PhiX ha estado apareciendo en la muestra Fastq demultiplexada. PhiX no lleva un índice de índice de muestra, ¡así que algo va mal! ¿Lo que está sucediendo? ¿Es esto un problema para indexar y multiplexar en general en plataformas NGS? Estas fueron las preguntas en las que estuve investigando recientemente después de nuestro cambio de HiSeq 2500 a HiSeq 4000. En esta publicación, describiré lo que hemos visto con la asignación incorrecta de índices de muestra a PhiX. Y revisaré parte de la literatura que señaló claramente el problema; en particular, me referiré a Tesis doctoral de Jeff Hussmann de 2015.


El problema de la asignación incorrecta de índices a PhiX puede ignorarse de manera segura o solucionarse fácilmente (para que pueda dejar de leer ahora). Pero comprenderlo me hizo darme cuenta de que la asignación incorrecta del índice entre samples es un problema del que no sabemos lo suficiente, y que las herramientas que estamos usando pueden no estar a la altura del trabajo (pero no cubriré esto en profundidad en esta publicación).




Los problemas con la asignación incorrecta de índices y la calidad se notaron inicialmente cuando detectamos el control PhiX de Illumina en datos Fastq demultiplexados. Illumina proporciona PhiX como una biblioteca no indexada y, como tal, nunca debe aparecer en archivos Fastq demultiplexados. En nuestra canalización de análisis predeterminada, solo debería aparecer en el archivo de “lecturas perdidas” y debería estar alrededor del 1 % en los datos de los carriles 1-7 y del 5 % en los datos del carril 8 de una celda de flujo de Illumina (el porcentaje real de PhiX puede varían por varias razones, por lo que no nos sorprende ver porcentajes más altos o más bajos de lo esperado). Todavía estamos ejecutando PhiX en casi todos los carriles de secuenciación como un control fácil para monitorear la calidad de la ejecución. Pero si PhiX obtiene un código de barras, ¿qué sucede?


La principal preocupación es que si la lectura del código de barras falla de alguna manera y la atribución de los códigos de barras es incorrecta, esto conducirá a resultados erróneos. Hay dos cosas principales que causan la asignación incorrecta de índices

  1. las lecturas se pierden porque se asignó un código de barras falso; estos datos generalmente se descartarían, deberían ser mínimos y potencialmente pueden ignorarse.
  2. los códigos de barras están mal asignados a la muestra incorrecta; Este es un problema mucho más serio, y comprender qué lo causa y la probabilidad de que suceda será fundamental para reducir los factores técnicos que podrían limitar las llamadas de variantes bajas.

Con PhiX en cada carril, deberíamos poder monitorear la asignación incorrecta de índices en cada ejecución. PhiX también puede permitirnos estimar la tasa de asignación incorrecta entre muestras, lo que será vital si los usuarios necesitan tener esto en cuenta en su análisis, particularmente en llamadas de variantes de baja frecuencia.

Informes anteriores sobre multiplexación en secuenciadores Illumina: Como se anticipó hace varios años, la secuenciación multiplex se ha convertido en una herramienta común en muchos estudios, el nivel de multiplexación varía pero es casi omnipresente; una anomalía en esto es la creación de bibliotecas indexadas en el programa de secuenciación Genomics England, pero la ejecución de no- secuenciación indexada y muestra única por carril por parte del contratista de secuenciación Illumina.

El documento de Kircher presenta datos de tres preparaciones ligeramente diferentes sin CAP (preparación de biblioteca estándar), SP-CAP (bibliotecas de captura en solución de un solo plex) y MP-CAP (bibliotecas de captura en solución de multiplex). Pudieron determinar la fracción de eventos de etiquetado erróneo causados ​​por la contaminación del código de barras durante la síntesis, combinación o manipulación de oligos, por grupos mixtos o por recombinación de PCR. Después de eliminar la posible contaminación como fuente de error, informaron que tanto no-CAP como SP-CAP tenían niveles bajos de asignación incorrecta de índices (0,018 % y 0,034 %), pero que las bibliotecas MP-CAP tenían más de diez veces más errores. asignación (0,390%). Los bajos porcentajes en las dos primeras bibliotecas se debieron a un clúster mixto que no se pudo eliminar mediante un filtrado de calidad. La alta asignación incorrecta, casi un 0,5 %, en la biblioteca MP-CAP se debió a la recombinación de la PCR durante la PCR multiplex después de la captura en solución. Es importante destacar que calcularon que si esta recombinación ocurre principalmente en las secuencias del adaptador, la mitad de las lecturas quiméricas, casi el 0,25 % de todas las lecturas del exoma, se asignarían incorrectamente a una muestra si se usara un solo índice, y esa indexación dual ser recomendado

Su análisis fue confirmado por Mitra et al 2015 quien fue más allá al demostrar que la plantilla leída en HiSeq era parte del problema: en HiSeq 2500 esto se mantiene en 4 ciclos para reducir los requisitos de memoria, pero cuando Mitra et al aumentaron la longitud de lectura de la plantilla a 20 ciclos vieron 2-5 veces mejores resultados para la asignación incorrecta de índices. Una lectura de plantilla tan larga mataría a la mayoría de nuestros instrumentos HiSeq, pero los autores sugieren actualizar la memoria y podría ser muy económico dado el impacto de la detección de clústeres de baja calidad y la asignación incorrecta de índices.

En doctorado de jeff usó lecturas de las moléculas de la biblioteca más cortas con lectura completa en los adaptadores para determinar que el control PhiX usa los cebadores ‘PE’ más antiguos, que no tienen complementariedad de secuencia con los cebadores de lectura de indexación estándar; como tales, no pueden generar una señal durante la lectura del índice. Notó la misma caída en los puntajes de calidad para las lecturas del índice PhiX en comparación con las muestras indexadas que teníamos. Pero también muestra que las lecturas de PhiX que parecen estar indexadas están físicamente más cerca de un clúster indexado que las lecturas de PhiX sin lectura de índice. Esto lo llevó a proponer el mismo modelo de sangrado índice que tengo aquí.

Jeff también investigó cuidadosamente la recombinación mediada por PCR (al igual que Kircher et al) como una fuente adicional de asignación incorrecta de índices. Esto fue informado por primera vez a principios de la década de 1990 por Meyerhans et al.. En cualquier PCR, la polimerasa puede detenerse o caerse de la plantilla creando productos de extensión corta, que luego pueden hibridarse en lugar de un cebador en la siguiente ronda de PCR. El problema con las bibliotecas de Illumina es que dicho producto podría crear una asignación incorrecta de índice quimérico debido al intercambio molecular de índices. Es probable que esto sea más pronunciado en la amplificación multiplexada después de la preparación de la biblioteca indexada, es decir, la mayoría de las estrategias de exoma y amplicoma. También afirmó que su análisis “constituyó una evidencia abrumadora de que la recombinación mediada por PCR ocurre durante la generación de grupos”. Todo su análisis se basó en la química de agrupamiento “Manteia” de HiSeq 2500; es probable que funcione de forma muy diferente a la celda de flujo con patrón. “Amplificación de exclusión” química y estamos investigando una mala asignación de índices en este momento.

En el SASI-seq codorniz de papel y otros destacó el problema de la asignación incorrecta de índices y discutió la necesidad de confirmar que no hay contaminación antes de analizar un conjunto de datos. Presentaron un método simple y económico para verificar que los resultados no estén contaminados. Prepararon una mezcla de tres amplicones con códigos de barras exclusivos, de diferentes tamaños que abarcaban el rango de tamaños de inserción que normalmente se usaría para la secuenciación de Illumina, y los agregaron a las muestras a un nivel de aumento de aproximadamente el 0,1 %. También diseñaron un conjunto de 384 secuencias de índices Illumina de 11 pb con una distancia de Hamming alta (5 pb de diferencia), niveles más altos de corrección de errores y niveles muy bajos de asignación incorrecta de códigos de barras debido a errores de secuenciación.

Nuestros resultados de análisis de asignación incorrecta de PhiX: Tomamos datos históricos para verificar si la asignación incorrecta de PhiX estaba ocurriendo en todas las celdas de flujo y pudo ver claramente que este era el caso, (A) simplemente muestra el porcentaje de PhiX que agregamos a cada carril. En (B) puedes ver que tLa mayoría de los carriles muestran un nivel razonablemente bajo de asignación incorrecta de índices a PhiX, de solo 0,01-1 % en muestras indexadas simples (verde) y de 0,01-0,0001 % en muestras duales.muestras indexadas (rojo). La indexación dual parece ayudar significativamente. También vimos que el nivel de contaminación de PhiX era peor en 2500 que en 4000, y aumentaba a medida que aumentaba la cantidad de PhiX utilizada. de hechoLa tasa de asignación incorrecta del índice PhiX se correlacionó más fuertemente con la cantidad de phiX en el carril para muestras indexadas únicas que para muestras indexadas dobles. (C). Vemos que PhiX aparece hasta en el 1 % de la muestra en los peores casos; sin embargo, esto es generalmente en una secuencia multiplexada de índice único con niveles muy altos de PhiX, por ejemplo, picos de baja diversidad.

1678115335 287 Asignacion incorrecta de indice al control PhiX de Illumina
indexado versus análisis PhiX no indexado: Si bien el control Illumina PhiX no está indexado, es posible comprar una versión indexada de SEQMATIC. Cuando comparamos PhiX indexado versus no indexado, los resultados fueron claros: PhiX no indexado muestra alrededor de 0.02% de traspaso, mientras que el índice SEQMATIC es de alrededor de 0.005%; una reducción de cuatro veces en el sangrado.


1678115335 73 Asignacion incorrecta de indice al control PhiX de Illumina
Comparación de PhiX indexado versus no indexado



Los puntajes de calidad base de lectura de índice no tienen valor: vimos eso las lecturas de PhiX mal asignadas (PhiX FQ a continuación) generalmente tenían puntajes de calidad de lectura de secuencia más bajos que las muestras asignadas correctamente (D). El las lecturas del índice PhiX mal asignadas también tuvieron puntajes de calidad generalmente más bajos que las muestras asignadas correctamente (E y F)y sería genial filtrar por calidad base puntuaciones para eliminar lecturas mal asignadas. Desafortunadamente, el puntaje de calidad que obtiene de una lectura de índice de Illumina es bastante inútil. Esto se debe principalmente a su corta duración. En realidad, obtener los puntajes de calidad del índice requiere un poco de juego con la canalización bcl-fastq predeterminada.


Estos puntajes Q de índice se descartan actualmente. Solo para obtener los datos de los gráficos a continuación, tuvimos que volver a ejecutar la celda de flujo a través de una canalización bcl-fastq modificada. Mantener las puntuaciones Q del índice requeriría cambios en nuestras canalizaciones predeterminadas y un aumento en nuestros requisitos de almacenamiento informático. Sin embargo, podemos ser capaces de desarrollar métodos similares a Agrupación de puntuación Qpara reducir estos datos adicionales y seguir permitiendo una evaluación de la calidad del índice.

1678115335 260 Asignacion incorrecta de indice al control PhiX de Illumina



Ir más allá de esta secuenciación de Illumina podría beneficiarse de ejecutar una lectura de plantilla más larga al comienzo de todas las lecturas, por ejemplo, lectura 1, i5, i7 y lectura 2. Cuál podría ser la carga computacional y exactamente el impacto en la asignación incorrecta del índice que esto tendría es difícil de predecir. Pero incluso pequeñas reducciones en errores como este valdrían la pena para aplicaciones de baja frecuencia de alelos. Esperaría que las empresas que apuntan a la detección de tumores en la población general (por ejemplo, Grial) se beneficiarían más de hacer estos experimentos.

Conclusiones del análisis de asignación incorrecta de PhiX: Según nuestro análisis y los resultados presentados en el doctorado de Jeff, hemos llegado a la conclusión de que la mala asignación del índice PhIX se debe a dos problemas: sangrado del índice y/o grupos policlonales. Y que esto se puede arreglar o ignorar de forma segura.

1678115336 366 Asignacion incorrecta de indice al control PhiX de Illumina

En la figura de arriba (1A) he tratado de presentar “sangrado de índice”: cada grupo de plantillas de biblioteca emite una señal de acuerdo con su fluoróforo base, representado por los círculos en mayúsculas como REVÓLVER, (verde=G/T, rojo=A/C), sin embargo, esta señal fluorescente “sangra” hacia afuera de cada grupo. Un clúster PhiX no indexado, representado por los círculos en minúsculas, no emite señal y se llama base desde la señal de clúster de biblioteca de “sangrado de índice” errónea como revólver. Un grupo PhiX indexado emite una señal de acuerdo con su fluoróforo base y se llama base correctamente como llamada a la acción. En figura 1B He tratado de presentar lo que puede estar sucediendo en grupos policlonales de plantilla mixta. Estos son causados ​​por la naturaleza aleatoria del agrupamiento donde algunos agrupamientos están hechos de dos moléculas molde, que pueden haberse sembrado en diferentes momentos. Un grupo producido a partir de una sola molécula de la biblioteca (α) se denomina base correctamente como REVÓLVER. Un clúster PhiX no indexado de plantilla mixta (β) se basa en la señal baja de la señal del clúster de biblioteca errónea en la indexación de solo lectura, debido a la falta de señal de índice PhiX como revólver. Un grupo PhiX indexado de plantilla mixta (γ) emite una señal de acuerdo con su fluoróforo base que es más alta que la señal del grupo de la biblioteca errónea y se denomina base correctamente como llamada a la acción.

El índice de sangrado solo debería ser un problema para los noestampado celdas de flujo, mientras que los grupos policlonales serán un problema tanto en patrones como en no-estampado celdas de flujo, es decir, HiSeq 4000 y 2500.

Como solucionar el problema: para la asignación incorrecta de índices a PhiX, la solución es relativamente sencilla. O usa un PhiX indexado, o agregar un oligo a los cebadores de lectura de indexación de modo que PhiX genere una señal. Ambas estrategias significarán que los grupos PhiX generarán una señal que supera a las señales de grupo policlonal o sangrado de índice. PhiX ya no aparecerá en su fastq demultiplexado, o estará en niveles tan bajos que solo lo vería si fuera a buscar específicamente.


Desafortunadamente mala asignación de índice entre muestras sigue siendo un problema sin resolver. En una publicación de seguimiento, voy a discutir lo que hemos visto y cuáles son las causas aparentes. Nuevamente, hay algunas soluciones relativamente simples disponibles, pero si está utilizando la secuenciación multiplexada para detectar alelos de baja frecuencia en las poblaciones; por ejemplo, cáncer, células individuales, genómica de poblaciones, entonces debe considerar si comprende cómo podrían verse afectados sus experimentos.


PD: Creo que es bastante laxo por parte de Illumina no proporcionar un PhiX indexado. El V2 PhiX se indexó, pero el V3 lo eliminó, probablemente debido a que solo había 96 índices TruSeq. ¡Vamos, Illumina, soluciona esto!

Fuente del artículo

Deja un comentario