Efectos por lotes en scRNA-seq: a E o no a E (aumento de RCC)

En la reciente conferencia Wellcome Trust sobre genómica de células individuales (Twitter #scgen16) hubo una gran charla (sus diapositivas están en línea) de Stephanie Hicks en el @irrizarrygrupo (Departamento de Bioestadística y Biología Computacional del Instituto del Cáncer Dana-Farber). Stephanie estaba hablando sobre el trabajo reciente que ha estado haciendo al observar los efectos por lotes en los datos de una sola celda, todo lo cual puede leer en su artículo sobre BioRxiv: Sobre el impacto crítico y generalizado del sesgo sistemático y los efectos por lotes en los datos de RNA-Seq de una sola célula. También puede leer sobre este artículo en NextGenSeek.

Efectos por lotes en scRNA seq a E o no a
Adaptado de la Figura 1 en hicks y otros.


Casi sin excepción, cada nueva tecnología se publica con una gran cantidad de artículos de alto impacto. Y casi sin excepción, esos documentos resultan estar muy sesgados. Esto no quiere decir que debamos esperar que se solucionen todos los detalles antes de la publicación inicial: las nuevas tecnologías requieren mucho esfuerzo y cuanto más rápido lleguen al dominio público, más pronto la comunidad podrá mejorarlas y hacerlas más sólidas. A menudo, el efecto por lotes es el primer problema identificado: con matrices, con NGS y ahora con RNA-seq de una sola célula.

Stephanie et al analizaron 15 artículos publicados de RNA-seq de una sola célula y descubrieron que en los 8 estudios que investigaban las diferencias entre los grupos, y donde podían evaluar el efecto de confusión, oscilaba entre el 82,1 % y el 100 %. (ver tabla 1 del artículo – 82,85,93,96,98,100 y 100%). Todos estos estudios se diseñaron de manera que las muestras se confundieran con el procesamiento por lotes. Informan que el número de genes detectados expresados ​​explicó una proporción significativa de la variabilidad observada, pero que esto varió entre lotes experimentales. Esta confusión de la cuestión biológica con el lote experimental paraliza efectivamente el proyecto;

“Los efectos por lotes conducen a diferencias en las tasas de detección, lo que conduce a diferencias aparentes entre grupos biológicos”


Sin embargo, los autores señalan que se pueden usar opciones de diseño experimental relativamente simples para eliminar el problema.


¿Qué significa esto para ERCC y otros complementos? En sus diapositivas finales, vea “The Wild West”, Stephanie explica claramente los problemas que enfrentamos con los efectos por lotes y en la normalización de los experimentos de RNA-seq de una sola célula.

  • Los efectos por lotes pueden ser un gran problema en los datos de scRNA-Seq (pero no siempre).
  • Los efectos por lotes y los métodos para corregir los efectos por lotes han existido durante muchos años (muchos lugares para comenzar).
  • Malas noticias: Un diseño experimental deficiente es un gran factor limitante…. también, más complicado debido a la escasez (biología y tecnología), eficiencia de captura, etc.
  • Buenas noticias: Aumentar la conciencia sobre un buen diseño experimental. Se están desarrollando nuevos métodos específicos para scRNA-Seq
Cada vez parece más posible utilizar los agregados de ARN en experimentos de scRNA-seq específicamente como una herramienta para ayudar en la normalización de los datos, y también como una forma de reducir/eliminar los efectos por lotes. Stephanie afirma que todavía existen desafíos al hacer esto, y también señala el uso de conteos UMI para ayudar a solucionar el problema al reducir el sesgo de amplificación, etc.
Sin embargo, no todos los protocolos recomiendan los complementos y ciertamente no hay una preferencia clara en la comunidad, aunque creo que esto está comenzando a surgir. Leer acerca decómo se utilizan los ERCC y los SIRV en la secuenciación de ARN unicelularen el último artículo deEl grupo de Sarah TeichmannaEBI/Sanger.

Me estoy esforzando en comprender los picos con mucho más detalle y estoy seguro de que todos los usaremos de forma rutinaria en unos meses más.

¿Qué significa esto para la elección de la plataforma scRNA-seq?Mis encuestas más breves para las tres plataformas que estamos usando o analizando en mi laboratorio son las siguientes. fluidigm sugerir el uso de la Picos de ARN ArrayControl (Thermo Fisher Scientific AM1780). Drop-seq sugieren usar los picos ERCC (aunque esto no se menciona en su protocolo en línea). Genómica 10X ¡No digas nada sobre picos en sus protocolos actuales!

Generé la figura en la parte superior de esta publicación para mostrar dónde encajan estas 3 plataformas scRNA-seq en la figura 1 de Stephanie del artículo. Tanto C1 como Drop-seq están completamente confundidos ya que solo se procesa una muestra por lote. 10X Genomics permite procesar hasta 8 muestras juntas, por lo que se puede completar un estudio “AvsB” replicado sin efecto de lote.

Pero en el futuro es probable que necesitemos 12, 24 o incluso 96 sistemas de muestras que nos permitan procesar un experimento de scRNA-seq de una sola vez. Si bien es posible diseñar chips Fluidigm C1 que puedan procesar más muestras, cada una con menos celdas, o para Drop-seq para emular 10X Genomics, o incluso para 10X Genomics para pasar a un chip de formato de muestra más grande; nada de esto resolverá el problema de recolectar grandes cantidades de muestras unicelulares sin introducir efectos por lotes más adelante en el experimento.

El mensaje para llevar a casa es dedicar tiempo al diseño experimental y replicar su estudio: ¡cosas bastante simples! La replicación biológica permitirá que los lotes se aleatoricen durante el experimento a ejecuciones de preparación de scRNA-seq y entre celdas de flujo de secuenciación si es necesario. Por lo general, esto permite eliminar los efectos por lotes del experimento, incluso si son significativos.



Fuente del artículo

Deja un comentario