CoreGenomics: SIRV: controles RNA-seq de @Lexogen

CoreGenomics SIRV controles RNA seq de
Puede ganar una línea gratuita de secuenciación HiSeq 2500 de sus propias bibliotecas de RNA-seq (con SIRV, por supuesto) solicitando el Premio de Investigación Lexogen

Los SIRV de Lexogen son probablemente los controles más complejos disponibles en el mercado hoy en día, ya que están diseñados para evaluar empalmes alternativos, sitios alternativos de inicio y finalización de la transcripción, genes superpuestos y transcripción antisentido. Consisten en siete genes artificiales in vitro transcritos como isoformas múltiples (6-18) para generar un total de 69 transcripciones. Cada uno tiene un trifosfato 5′ y una cola poli(A) de 30 nt, lo que permite los métodos mRNA-Seq y TotalRNA-seq. Las transcripciones varían de 191 a 2528nt de largo y tienen un contenido de GC variable (30-50%).

Antes de profundizar en una descripción más detallada de los SIRV de Lexogen, y cómo podríamos usarlos en nuestros estudios estándar y/o de secuencias de ARN unicelulares, pensé en comenzar con un poco de descripción histórica de cómo Surgieron los controles de ARN… ¡y eso significa volver a los días en que los microarrays eran la herramienta preferida y NGS aún no se había inventado!


Control de calidad de ARN – MAQC: Se recomienda el uso de controles en cualquier experimento, y la falta de ellos es una de las razones más citadas para el actual crisis de reproducibilidad. Casi todos los que han trabajado en la expresión diferencial de genes en los últimos quince años han oído hablar de la MAQC (Control de Calidad MicroArray) estudio. Aunque se evaluaron cuatro fuentes de ARN ARN de referencia humano universal de Stratagene y ARN del cerebro humano de Ambion las muestras se eligieron debido a la cantidad de genes expresados ​​a un nivel detectable, y el tamaño del pliegue cambia entre las dos muestras. Estas dos muestras de control se utilizaron para evaluar cinco plataformas de microarreglos, en un proyecto internacional en el que participaron 137 participantes de 51 organizaciones (ver Nat Biotech 2006). Laboratorios como el mío adoptaron y continúan utilizando los controles MAQC en nuestras canalizaciones de expresión génica diferencial, que hoy en día se basan casi en su totalidad en métodos RNA-seq. Los usamos en mi laboratorio para mostrar cómo la sensibilidad de detección cae a medida que las entradas de ARN se reducen a menos de 100 ng (algo que sigo queriendo repetir con RNA-seq).

El cambio a RNA-seq ha tenido un impacto dramático en nuestra capacidad para realizar experimentos complejos. Ya no estamos limitados a hacer preguntas sobre la expresión diferencial de genes donde tenemos información de secuencia disponible para hacer una matriz. RNA-seq nos permite analizar todo el transcriptoma; para evaluar la expresión génica diferencial (mRNA-seq enriquecido con oligo-dT es el método más utilizado), así como el empalme diferencial, la expresión específica de alelo, la longitud de la cola de poliA, el inicio y la terminación de la transcripción, microRNA, lincRNA, etc, etc, etc. (ver mi «lista de deseos» para los controles en la parte inferior de esta publicación).

Los controles MAQC que usamos simplemente no están a la altura del trabajo más complejo que presenta RNA-seq. Ambos ABRF y SEQC Los documentos utilizaron muestras MAQC, que son mezclas de múltiples individuos (Discutí estas limitaciones en una publicación de 2014), pero ambos incluían los controles ERCC también.

Hay disponibles controles más nuevos, diseñados y fabricados con más cuidado que pueden satisfacer mejor las necesidades de los biólogos; y aquí es donde entran los SIRV.

1673876038 860 CoreGenomics SIRV controles RNA seq de
El flujo de trabajo SIRV: de la muestra a la respuesta
Control de calidad del ARN: Lexogen y más allá: Los SIRV están diseñados para representar gran parte, pero no toda, la complejidad de los transcriptomas eucariotas, por ejemplo, expresión génica diferencial, corte y empalme diferencial, variación de la longitud de la cola de poliA, contenido de GC, etc. Los SIRV están diseñados para agregarse a las muestras antes de la extracción de ARN o de comenzar la preparación de la biblioteca de RNA-seq. Deben permitir una evaluación objetiva de los sesgos técnicos en la preparación, secuenciación y análisis de bibliotecas; y, en última instancia, debería mejorar nuestra capacidad para obtener conocimientos biológicos a partir de la comparación de las condiciones experimentales. Son un gran avance desde los controles MAQC y un paso significativo por delante de los controles ERCC1.0, que están restringidos a transcripciones de un solo exón.

Cómo se fabrican los SIRV: Los SIRV se diseñaron para ser similares a las estructuras de genes humanos con genes de múltiples exones superpuestos que se transcriben tanto en sentido como antisentido, con empalme alternativo y sitios de inicio y finalización de transcripción alternativos. Los genes se transcriben in vitro a partir de plásmidos linealizados para producir transcritos completos que están sujetos a un control de calidad y cuantificación muy cuidadosos. Esto incluye análisis espectrofotométricos, de peso molecular y de Agilent Bioanalyser. Después de QC y QT, los transcritos de SIRV se mezclan en concentraciones equimolares (E0), o en variaciones de 8 veces (E1) o 128 veces (E2).

1673876039 191 CoreGenomics SIRV controles RNA seq de
Diseño de SIRV: una comparación de SIRV1 y KLK5


Cómo se utilizan los SIRV: Agregar SIRV a sus muestras requiere una consideración cuidadosa de cómo utilizará los datos que proporcionan en la evaluación posterior. Hoy en día, el control más importante en mi laboratorio es simplemente si la preparación de la biblioteca ha funcionado o, lo que es más importante, dónde no funcionó, ya sea el laboratorio o la muestra la causa de la falla. Nuestro uso de controles MACQ en una placa de muestras es excelente, pero extender esto a un control interno en cada muestra será mejor. Sin embargo, no quiero que los controles dominen el experimento o aumentarán demasiado los costos de preparación y secuenciación de la biblioteca.

Los SIRV en sí mismos no necesitan muchos datos para generar resultados útiles y alrededor del 1% de sus lecturas de secuenciación deberían ser suficientes para la mayoría de los laboratorios. Sin embargo, determinar cuánta mezcla de SIRV agregar a sus muestras antes de la extracción, o su ARN antes de la preparación de la biblioteca, puede requerir algunas pruebas empíricas, ya que la cantidad de ARN en una muestra o una célula difiere mucho. Como regla general, el 95 % del ARN es ARN ribosómico y el otro 5 % es ARNm (y ARN no codificante). Para un experimento que comience con 100 ng de TotalRNA en un flujo de trabajo mRNA-seq, aproximadamente 50 pg representarían el 1 % de los 5 ng de mRNA presentes.

Los SIRV están disponibles en tres configuraciones E0, E1 y E2 que mezclan los ARN transcritos in vitro en una variación de concentración equimolar (mezcla E0), hasta 8 veces (mezcla E1) o hasta 128 veces (mezcla E2). Es importante destacar que los SIRV están construidos en un formato modular y deben ser compatibles con otros controles de punta como el ERCC. Los módulos adicionales deben abordar las longitudes de la transcripción, la variación de la longitud de la cola de poliA, etc.

Coincidiendo con el seminario web el 19 de octubreLexogen lanzará el “Suite SIRV” (ver «¿Cómo se analizan los SIRV? debajo) para el análisis de datos de picos. Esto también incluirá una herramienta de «Diseñador de experimentos» para calcular las proporciones de refuerzo recomendadas en función de la entrada conocida o esperada para el contenido de ARN, la proporción de ARNm y el tipo y la eficiencia del flujo de trabajo.

SIRV en RNA-seq a granel: Los experimentos de RNA-seq a granel pueden usar SIRV como controles de proceso en lugar de las muestras MAQC Brain y UHRR, lo que permite ejecutar 96 muestras completas en cada placa. Asumiendo la entrada de 100 ng de TotalRNA, solo se necesitan 50 pg de SIRV por muestra, con 5 ng agregados a la mezcla maestra de oligo-dT utilizada en el paso de enriquecimiento. Se recomienda el uso de SIRV E0 para el control de calidad del proceso, pero E1 y E2 pueden ser útiles al evaluar nuevos métodos para determinar la exactitud y precisión de la detección y cuantificación de transcritos diferenciales.

SIRV en scRNA-seq: El RNA-seq de una sola célula ha adoptado rápidamente controles de picos con Hashimshony et al presentando su uso de picos de ERCC en el protocolo CELSeq. Ambas cosas Wu et al 2013 y Truetlein et al 2014 utilizó las mezclas de ERCC a una dilución de 1:40 000 agregadas a la mezcla de lisis celular del protocolo Fluidigm C1. Y Svensson y otros utilizar el Picos de ERCC y SIRV a evalúe la sensibilidad y la precisión de varios protocolos en una canalización de análisis estándar. Esto demuestra la utilidad de usar complementos de control de ARN, pero también el requisito de una dilución cuidadosa para evitar inundar los experimentos de RNA-seq de una sola célula con datos de control, o no tener suficientes datos de control de calidad antes de interpretar los resultados. Suponiendo que cada célula individual tiene alrededor de 20 pg de TotalRNA, solo se necesitan 200 fg de SIRV por muestra, la cantidad de SIRV agregada y exactamente dónde agregarlo, el protocolo depende en gran medida del protocolo RNA-seq de una sola célula que se utiliza.

1673876039 377 CoreGenomics SIRV controles RNA seq de

Cómo se analizan los SIRV: Lexogen lanzará el “Suite SIRV” basado en Galaxy para cargar, evaluar y comparar datos adicionales. Esto permitirá a los usuarios de SIRV comparar los resultados de sus experimentos con datos anónimos y debería ayudar a determinar si su propio experimento es bueno. atrás en 2003/4 yo desarrolle rptDB: una herramienta para comparar datos de control de calidad entre matrices Affymetrix. Esto tuvo más de 3500 muestras enviadas y permitió una llamada rápida y fácil sobre si sus datos eran «buenos» o «malos», ¡muy dependiente del contexto, por supuesto! Como usuario, si hubiera recibido datos de un laboratorio central o un proveedor de servicios, o estuviera descargando datos de RNA-seq para un metanálisis, y luego pudiera seleccionar solo datos donde se usaron controles SIRV u otros, y donde los resultados fueron demostrado ser de alta calidad, lo más probable es que me ahorre un tiempo considerable en la limpieza de datos antes de comenzar.

Los SIRVS no están diseñados para usarse como una herramienta de normalización. Si bien se han considerado los complementos, en realidad no son lo suficientemente confiables para los procedimientos de normalización estándar. El desarrollo de nuevos algoritmos de normalización parece ofrecer esperanza para el futuro (ver Risso 2014), y enfoques como este podrían ser aplicables a los SIRV. Sospecho que esta será un área activa de desarrollo de algoritmos en los próximos dos años debido al gran interés en el RNA-seq de una sola célula.


La competencia: controles alternativos de RNA-seq

Lentejuelas: ‘Lentejuelas’ (secuenciación de complementos) fueron desarrollados por el Instituto Garvan y publicados recientemente en Nature Methods. Las lentejuelas son conceptualmente similares a los SIRV. Son un conjunto de isoformas de ARN sintético que se alinean a un artificial en silico cromosoma, sin homología con los genomas conocidos. Representan isoformas de ARNm empalmadas de longitud completa, en un rango de concentraciones. Se pueden utilizar para evaluar la expresión génica diferencial y las canalizaciones de empalme alternativas. Los autores afirman que las lentejuelas se pueden utilizar para la normalización y se refieren al mismo Naturaleza Biotecnología como hice arriba. En su artículo de Nature Methods, muestran algunos resultados muy buenos de la normalización de escala usando lentejuelas y espero que estos resultados finalmente se puedan lograr con cualquier serie de refuerzo bien diseñada.
En las publicaciones consecutivas de Nature Methods, el equipo de Garvan muestra cómo se pueden usar las lentejuelas en RNA-seq y secuencia de ADN experimentos para evaluar sesgos y determinar los límites de detección, cuantificación y métodos analíticos. Los genes de lentejuelas se mezclan en una dilución en serie doble, con un mínimo de tres genes por dilución, para abarcar un rango de ~106 veces. El equipo también desarrolló 24 Sequins para representar genes de fusión del cáncer y los utilizó para evaluar la detección y cuantificación de genes de fusión. También informaron que las lecturas divididas superaron significativamente a los pares de lectura en su correlación con la concentración de Sequin; esto tiene un impacto significativo en el formato de secuenciación, ya que muchos grupos hoy en día usan lecturas de extremos emparejados donde las lecturas de un solo extremo más largas pueden ser más sensibles y también ser alrededor de un 40% más barato.

ERCC 2.0: el original Controles ERCC1.0 son una mezcla de 92 transcripciones de un solo exón relativamente simples de diferente longitud y contenido de GC. Se utilizan en una mezcla a concentraciones conocidas que se añaden a las muestras antes de la preparación de la biblioteca. ERCC2.0 tiene como objetivo actualizar los picos para representar mejor la complejidad del transcriptoma y proporcionar controles derivados de FFPE. Nuevamente, son conceptualmente similares a los SIRV y Lexogen fue uno de los 9 grupos invitados a presentar en el taller NIST ERCC2.0 de 2014 en la Universidad de Stanford.

Conclusiones: El uso de controles en los experimentos de RNA-seq es un requisito absoluto si desea obtener lo mejor de sus experimentos. Bulk RNA-seq puede beneficiarse de un control de calidad de datos relativamente simple de los controles antes de pasar a análisis de empalme y expresión génica diferencial más complejos. E incluir controles adicionales puede facilitar la comparación de conjuntos de datos longitudinales o entre laboratorios. El RNA-seq de una sola célula ha demostrado un requisito absoluto para incluir complementos, aunque los artículos más recientes sugieren que las transcripciones enriquecidas pueden no reflejar realmente los ARNm humanos en los protocolos utilizados, debido a las colas de poli-A mucho más cortas (30 vs. 200+bp), y que pueden subestimar la sensibilidad de detección hasta diez veces.

Los controles SIRV, más recientemente SEQUIN y pronto ERCC2.0 se pueden mejorar aún más y los fabricantes no deben considerar que su trabajo ha terminado. Con protocolos como ISO-seq de Pacific Bioscience y el advenimiento de Secuenciación directa de ARN de Oxford Nanopores se podrían evaluar transcripciones cada vez más largas y esto deberá controlarse. Es probable que la secuenciación por fases, posiblemente a partir de moléculas largas de ARN en 10X Genomics, necesite controles en los que se escalonan las variantes. Además, la secuenciación de PacBio y Nanopore también ofrece la capacidad de detectar y cuantificar las modificaciones de la base del ARN. Todo esto muestra hasta dónde tienen que llegar los controles que podríamos usar.

Mi lista de deseos de controles de ARN:
  1. normalización de la expresión génica diferencial
  2. empalme diferencial
  3. expresión específica de alelo
  4. transcripción y variación de la longitud de la cola poliA
  5. contenido de GC
  6. iniciación y terminación de la transcripción
  7. ARN no poliadenilados, por ejemplo, microARN, lincARN
  8. mapeo de pseudogenes
  9. límites de detección
  10. Detección de variantes de ARN en diferentes MAF
  11. ARN FFPE degradado y de alta calidad
  12. Spike-in’s con los cebos correspondientes para la captura en solución
  13. Spike-in RNA encapsulado en células sintéticas
  14. Variantes escalonadas en ARN largos
  15. Modificaciones de bases de ARN

Fuente del artículo

Deja un comentario