Las razones y el fundamento detrás del RNA-Seq unicelular
“¡Para estudiar biología humana, debemos conocer nuestras células!” – esta es una cita de un artículo publicado hace un par de años [1], donde los autores del artículo presentaron ideas iniciales y pruebas de concepto detrás de The Human Cell Atlas Project, un esfuerzo de colaboración internacional que tiene como objetivo definir todos los tipos de células humanas. El objetivo de este proyecto era integrar perfiles moleculares distintivos (como la expresión génica) con descripciones celulares tradicionales (como la ubicación y la morfología). Uno de los métodos experimentales clave utilizados para este propósito es el RNA-Seq de células individuales (scRNA-Seq), que se refiere a una clase de métodos para perfilar el transcriptoma de células individuales.
Antes de la aparición de las metodologías de células individuales, los análisis de transcriptomas se realizaban inicialmente en grandes poblaciones de células o muestras de tejido completo (o “bultos”). Esto se debió a las dificultades técnicas para aislar una cantidad lo suficientemente significativa de moléculas de ARN para poder cuantificarlas con precisión, a partir de una muestra tan pequeña como una sola célula. La expresión de la transcripción diferencial se realizó por primera vez utilizando tecnología de micromatrices basada en hibridación, que se reemplazó lentamente con las técnicas de secuenciación de próxima generación (NGS) denominadas RNA-Seq. Ambos métodos requieren la cuantificación conjunta de las expresiones génicas en todas las células de una muestra y, por lo tanto, enmascaran las diferencias entre los diferentes tipos de células. Estas medidas de cuantificación podrían ser bastante engañosas porque las expresiones génicas dentro de pequeñas poblaciones de células se verán influenciadas por la expresión génica de las poblaciones celulares predominantes. [2, 3]. Por lo tanto, aunque las celdas dentro de una muestra en realidad pueden ser bastante heterogéneas, los métodos “a granel” no pueden resolver esas diferencias.
Por el contrario, el análisis scRNA-Seq permite a los investigadores explorar el transcriptoma completo de miles de células individuales, agrupándolas en grupos que se aproximan a los tipos de células en función de la similitud de los perfiles de transcripción. Esta resolución a nivel celular abre la posibilidad de analizar transcriptomas de las poblaciones de células aisladas, mitigando los problemas de los métodos a granel discutidos anteriormente. Eso conduce a la identificación de poblaciones de células raras, así como al descubrimiento de otras nuevas. Una de las aplicaciones de scRNA-Seq más utilizadas es la identificación de células tumorales malignas dentro de una muestra de masa tumoral. Además, encontrar genes expresados diferencialmente entre diferentes subpoblaciones de células podría conducir a la identificación de genes marcadores para tipos de células específicos. [2].
En esta publicación de blog, primero describimos los principios y métodos generales del análisis de datos de scRNA-Seq desde los conceptos básicos de construcción de bibliotecas y preprocesamiento de las lecturas de secuencia de entrada, al secundario procesamiento de datos pasos necesarios para normalizar y reducir la dimensionalidad a través de decenas de miles de células, al río abajo o análisis terciarios utilizados para identificar poblaciones celulares. Luego describimos un flujo de trabajo recientemente lanzado en Cancer Genomics Cloud, Agrupación de muestras múltiples e identificación de marcadores genéticos con Seurat, una canalización fácilmente implementable para el análisis posterior de experimentos scRNA-seq. Demostramos las capacidades de este flujo de trabajo utilizando dos conjuntos de datos publicados previamente de células pancreáticas. [12, 13].
Los pasos básicos de scRNA-Seq
El flujo de análisis típico de scRNA-Seq se puede dividir en tres fases: preprocesamiento, procesamiento de datos y análisis posteriorque se muestra en la Figura 1 [3].

Preprocesamiento
El primer paso para obtener información del transcriptoma de una célula individual es la aislamiento de células individuales viables del tejido de interés. Las células aisladas se lisan para permitir la captura de moléculas de ARN. La mayoría de los protocolos de células individuales analizan moléculas de ARNm poliadenilado, porque el análisis de la fracción de ARN no codificante representa un desafío importante [2]. La construcción de las bibliotecas de secuenciación para scRNA-seq es similar a la utilizada para los métodos de RNA-Seq a granel, excepto que se deben tomar medidas para aislar las células antes de la extracción de ARN y capturar el ARN de cada célula individualmente para el código de barras. [2]. Después de la captura, el ARN se convierte en ADN complementario (ADNc) mediante una transcriptasa inversa. Luego, los cDNA se amplifican exponencialmente por PCR o, linealmente por in vitro transcripción seguida de otra ronda de transcripción inversa. Después de la construcción de la biblioteca, las bibliotecas de secuencias se agrupan y secuencian mediante NGS. El análisis y la interpretación de los datos de secuenciación se realizan utilizando herramientas y canalizaciones similares a las que se utilizan para RNA-Seq a granel. [2].
Alineación es el primero y uno de los pasos más críticos del análisis computacional scRNA-seq. En general, el objetivo del paso de alineación es encontrar la ubicación transcriptómica original de las lecturas de secuenciación obtenidas experimentalmente. La elección de la herramienta de alineación y su algoritmo (consciente de empalme o pseudoalineación) afecta directamente todos los pasos posteriores del análisis y los hallazgos biológicos. El segundo paso es el éxito cuantificación de una lectura de secuenciación en una ubicación genómica específica, representada por una matriz de recuento. Los pasos de alineación y cuantificación a menudo se realizan juntos, y las herramientas más populares utilizadas para este propósito son Recuentos Cell Ranger, Salmon Alevin, Kallisto BUStools Workflow, zUMIs, Single-Cell Smart-seq2 Workflow v3.0.0, y ESTRELLAsolo, todos los cuales (excepto CellRanger) están disponibles en la galería de aplicaciones públicas en la plataforma CGC. Las matrices de recuento de genes y células obtenidas se utilizan como entradas para más procesamiento de datos analiza [2, 3].
Procesamiento de datos
Antes de nuevos análisis, control de calidad de datos scRNA-seq debe llevarse a cabo. En este paso, cualquier dato de mala calidad, que podría resultar de una variedad de causas [2,3], se excluye del análisis posterior. Actualmente, no hay consenso sobre las estrategias de filtrado exactas, pero los criterios comúnmente utilizados incluyen el tamaño relativo de la biblioteca, la cantidad de genes detectados y la fracción de lecturas asignadas a genes codificados por mitocondrias o ARN de inserción sintética. [2]. El siguiente paso es normalización, una parte crucial del flujo de análisis, que aborda las limitaciones presentadas por el ruido técnico o el sesgo. A lo largo de los años, se han desarrollado varios métodos de normalización, que van desde variaciones de métodos de secuenciación masiva hasta enfoques completamente nuevos diseñados específicamente para estudios de células individuales. [4]. Después de la normalización vienen pasos de análisis como agrupamiento y reducción de dimensionalidad. Estos métodos implican la comparación de células en función de la similitud de sus perfiles de expresión génica, pero no todos los genes son fiables: algunos genes pueden tener patrones de expresión poco informativos, en particular genes con expresión baja. Por lo tanto, un selección de características El paso ayuda a seleccionar los genes biológicamente más significativos, mientras elimina los que contienen ruido aleatorio. El enfoque más simple aquí es considerar los genes más variables en función de su expresión en la población. [3].
En algunos casos, se necesita un paso adicional: corrección del efecto por lotes. RNA-seq en general es presa de problemas bien conocidos de efecto por lotes, y scRNA-seq puede ser particularmente sensible. Esto se aplica si los investigadores tienen múltiples conjuntos de datos que desean analizar juntos, como ejecuciones en serie de las mismas bibliotecas, o incluso experimentos separados que se originan a partir del mismo tipo de muestras biológicas. El paso de corrección del efecto por lotes controla la variación técnica cuando se combinan celdas de diferentes lotes o de diferentes estudios. Hasta la fecha se han desarrollado algoritmos de eliminación de efectos por lotes múltiples, generalmente basados en la detección supervisada o no supervisada de vecinos mutuos más cercanos (MNN) en el espacio de expresión de alta dimensión. [5].
Finalmente, los datos de scRNA-seq son altamente dimensionales; p.ej, un único conjunto de datos puede ser una matriz de más de 10 000 muestras en 187 000 transcripciones. Por lo tanto, un reducción de dimensionalidad es un paso necesario para visualizar e interpretar los resultados. El análisis de componentes principales (PCA) es un algoritmo matemático que reduce la dimensionalidad de los datos y es una herramienta básica y ampliamente utilizada en el procesamiento de datos scRNA-seq. Desde el desarrollo de la tecnología RNA-seq, los investigadores han favorecido este método de reducción de dimensión lineal. Además, existen métodos no lineales como la aproximación y proyección de variedad uniforme (UMAP) y la incrustación de vecinos estocásticos distribuidos en t (t-SNE) para reducir la dimensión, que también se usan ampliamente en el análisis scRNA-seq. [2].
Análisis aguas abajo
Después de los datos procesado, unos métodos que agrupamos en análisis aguas abajo se utilizan para extraer conocimientos biológicos y describir los sistemas biológicos subyacentes. Estas descripciones se obtienen ajustando modelos interpretables a los datos. Agrupación suele ser el primer paso de un análisis posterior, ya que nos permite explorar los datos y resumir datos complejos de scRNA-seq en un formato digerible. Los grupos se obtienen agrupando células en función de la similitud de sus perfiles de expresión génica y nos permiten inferir la identidad de las células miembro. [6]. Podemos acercarnos y alejarnos cambiando la resolución de los parámetros de agrupamiento, y podemos experimentar con diferentes algoritmos de agrupamiento para obtener perspectivas alternativas de los datos. Los algoritmos de agrupamiento más utilizados son el agrupamiento basado en gráficos, la cuantificación vectorial con k-medias y el agrupamiento jerárquico. El agrupamiento basado en gráficos (precisamente, el algoritmo de Lovaina) se utiliza en el Seurat Paquete R, como un método que construye un gráfico usando celdas como nodos, donde las celdas con transcriptomas similares están conectadas por bordes. El algoritmo de Louvain luego agrupa las celdas tratando de dividir el gráfico para maximizar la modularidad. Este método supera a otros cuando se trata de grandes conjuntos de datos en términos de velocidad y precisión. [3, 7].
Para interpretar los resultados de la agrupación, identificamos los genes que impulsan la separación entre las agrupaciones. Estos genes marcadores facilitar la asignación de significado biológico a cada grupo. El enfoque más sencillo para detectar genes marcadores es probar la expresión diferencial entre todos los grupos. Si un gen se expresa fuertemente de manera diferencial entre grupos, es probable que haya impulsado la separación de células en el algoritmo de agrupación. [3].
La identificación de genes marcadores tiene gran importancia en anotación de grupo de celdas. Este sigue siendo uno de los desafíos clave de la investigación de scRNA-seq. Una posible solución podría provenir de la generación de los datos en sí, ya que cuantos más datos se acumulen, más clústeres desconocidos se pueden emparejar con clústeres previamente conocidos. [8]. Por lo general, hay dos formas de anotar grupos de celdas: manual y automáticamente. La identificación de grupos se puede realizar manualmente utilizando bases de datos disponibles que contienen genes marcadores para varios tipos de células. La anotación automática de tipos de celdas se basa en referencias y utiliza herramientas desarrolladas por la comunidad para anotar celdas automáticamente al comparar datos nuevos con referencias existentes. [9].
Otro tipo de análisis posterior de scRNA-Seq es análisis de expresión génica diferencial (DGE) entre condiciones con réplicas biológicas. La DGE entre condiciones se puede realizar por separado para cada tipo de célula, lo que permite la interpretación directa de las diferencias subyacentes en las vías y mecanismos biológicos. [10]. Para hacer que el análisis sea computacionalmente manejable, la prueba DGE se realiza en pseudobulto perfiles de expresión, generados sumando los recuentos de todas las celdas con la misma combinación de etiqueta y muestra. Esto aprovecha la resolución que ofrecen las tecnologías de celda única para definir las etiquetas y la combina con el rigor estadístico de los métodos existentes para los análisis DGE que involucran una pequeña cantidad de muestras. [3].
Además, scRNA-Seq puede facilitar la predicción de un linaje teórico trayectoria a lo largo de una escala de pseudotiempo para descubrir los programas moleculares que impulsan los procesos de desarrollo. Esto se debe a que puede revelar los perfiles de expresión génica de los estados estacionario y de transición de las células capturadas. Suponiendo que las células capturadas no solo están al principio o al final de la transición, sino también en fases intermedias de desarrollo, se podría crear un mapa de trayectoria de linaje a lo largo de una escala de pseudotiempo y, posteriormente, identificar factores candidatos asociados con las poblaciones en transición eliminando los sesgos generados por otros tipos de células [11].
Flujo de trabajo de agrupación de muestras múltiples e identificación de marcadores genéticos
En este blog, destacaremos nuestro nuevo flujo de trabajo scRNA-Seq, Flujo de trabajo de agrupación de muestras múltiples e identificación de marcadores genéticos con Seurat 4.1.0, que cubre todos los pasos del procesamiento de datos: control de calidad, normalización, selección de características, corrección del efecto por lotes y reducción de la dimensionalidad, así como agrupación e identificación de marcadores genéticos como análisis posteriores. Este flujo de trabajo es la última solución de Seven Bridges para procesar múltiples conjuntos de datos de scRNA-seq de entrada, basado en la última versión del paquete Seurat (v4.1.0), que ofrece múltiples opciones para cada uno de los pasos de análisis estándar de scRNA-seq. Nuestra solución es compatible con matrices de recuento de genes y células generadas por varios cuantificadores de uso común (p. ej., CellRanger, Salmon Alevin, Kallisto BUStools, STAR) que provienen de conjuntos de datos únicos o múltiples de una sola célula de diferentes lotes, así como muestras únicas o múltiples combinadas en un Objeto SingleCellExperiment R. Los resultados incluyen un informe HTML detallado, que contiene métricas de calidad y gráficos de resultados de agrupamiento, una tabla con todos los marcadores de genes específicos del grupo detectados y el objeto Seurat R resultante.
Demostramos la versatilidad de la tubería con varias opciones implementadas para elegir en cada uno de los pasos de análisis: filtrado, normalización, corrección del efecto por lotes y expresión diferencial realizada después del paso de agrupamiento. La solución se basa en Seurat v4.1.0, pero se utilizan otros paquetes y métodos de R donde ciertos pasos no se pueden procesar con Seurat, o cuando la solución de Seurat es mucho más lenta. El control de calidad se puede realizar de forma manual o automática utilizando varias opciones para la normalización (LogNormalize, Deconvolution, SCnorm y Linnorm) y para la corrección del efecto por lotes (Seurat y Harmony). Para el agrupamiento, la canalización utiliza el enfoque basado en gráficos de Seurat, con opciones para diferentes resoluciones de agrupamiento. Después de realizar la identificación de los marcadores genéticos para cada grupo, un investigador puede probar la expresión diferencial utilizando varias opciones, incluida la suma de rangos de Wilcoxon, la regresión logística, los modelos lineales generalizados distribuidos binomiales negativos y de Poisson, las pruebas de razón de verosimilitud, el análisis ROC, MAST y DESeq2.
Diseño de tuberías
El pipeline consta de las siguientes herramientas (Figura 2):
- Carga de conjuntos de datos de expresión de RNA-seq de una sola célula;
- Control de Calidad y Preprocesamiento;
- agrupación e identificación de marcadores genéticos; y
- Herramienta de generación de informes HTML de celda única

Validación de la solución
Para demostrar las capacidades del flujo de trabajo y al mismo tiempo validarlo, se utilizó un objeto SingleCellExperiment como entrada, que contenía Muraro previamente fusionado [12] y Segerstolpe [13] conjuntos de datos de células pancreáticas. Ambos conjuntos de datos se preprocesaron primero para mantener tipos de células pancreáticas específicas (células alfa, beta, gamma, ductales y acinares) de individuos sanos. A continuación, los conjuntos de datos combinados se procesaron con el Agrupación de muestras múltiples e identificación de marcadores genéticos con Seurat 4.1.0 canalización con la configuración predeterminada. Los efectos del paso de corrección por lotes, realizado con el paquete Harmony, se muestran en la Figura 3.

Después de realizar los pasos de agrupamiento e identificación de marcadores genéticos para varias resoluciones de agrupamiento que van de 0,05 a 0,6, elegimos 0,05 como la resolución más adecuada en función de los gráficos UMAP cuando se presentan los tipos de células y otros resultados obtenidos con el Agrupación de muestras múltiples e identificación de marcadores genéticos con Seurat 4.1.0 tubería. Además, el ajustado rand se calculó el índice, una métrica que mide la similitud entre dos agrupamientos (0-1); el valor más alto de 0,53 se obtuvo para una resolución de agrupamiento de 0,05. Los gráficos UMAP para la resolución de agrupamiento elegida se muestran en la Figura 4, con el espacio de color dividido por conjunto de datos (A), tipo de celda (B) y agrupaciones automatizadas (C).

Finalmente, para validar los resultados y conectar los marcadores de genes identificados con grupos/tipos de células específicos, encontramos marcadores de genes conocidos para cada uno de los tipos de células pancreáticas y producimos gráficos de características correspondientes (Figura 5). Todos los genes marcadores de tipos celulares específicos coincidían con los grupos correspondientes.

Evaluación comparativa de rendimiento
La Tabla 1 a continuación resume los recursos computacionales que encontramos que funcionan bien para ejecutar el flujo de trabajo de agrupamiento de muestras múltiples e identificación de marcadores genéticos con Seurat 4.1.0 a través de AWS en diferentes conjuntos de datos utilizando el entorno de nube de Seven Bridges. Esta tabla proporciona valores típicos que puede esperar al ejecutar este flujo de trabajo para conjuntos de datos de diferentes números de celdas, de 1 a 160 000 celdas por conjunto de datos, y usando 1 o 2 resoluciones de agrupamiento. Nos muestra que, después del tamaño del conjunto de datos, la cantidad de resoluciones de agrupamiento diferentes especificadas es el factor más importante que influye en la duración y el costo del flujo de trabajo. Otras cualidades del conjunto de datos, incluida la complejidad de la muestra y las secuencias de genes objetivo, también pueden influir en la duración.
# de celdas | # de resoluciones | Duración | Costo | Instancia (AWS) |
1,2k | 2 | 6 minutos | 0.06$ | c4.2xgrande |
4,6k | 2 | 8 minutos | 0.07$ | c4.2xgrande |
8,7k | 2 | 15 minutos | 0.14$ | c4.2xgrande |
11,7k | 2 | 34 minutos | 0.31$ | c4.2xgrande |
1,2k + 4,6k + 8,7k + 11,7k | 2 | 25 minutos | 0.23$ | c4.2xgrande |
30k | 2 | 15 minutos | 0.14$ | c4.2xgrande |
50k | 2 | 43 minutos | 1.21$ | c5.9xgrande |
61k | 1 | 2h59min | 5$ | c5.9xgrande |
61k | 2 | 6h43min | 11.23$ | c5.9xgrande |
84k | 1 | 2h3min | 3.44$ | c5.9xgrande |
84k | 2 | 4h7min | 6.89$ | c5.9xgrande |
160k | 1 | 10h 5min | 16.87$ | c5.9xgrande |
160k | 2 | 21h 35min | 36.10$ | c5.9xgrande |
Tabla 1. Evaluación comparativa de rendimiento para el agrupamiento de muestras múltiples y la identificación de marcadores genéticos con Seurat 4.1.0
Los precios enumerados varían según la selección de instancias bajo demanda o al contado. Ver el Asesor de instancias de spot para obtener más información sobre las instancias bajo demanda frente a las puntuales.
En conclusión
Los avances en la tecnología de secuenciación de células individuales permiten análisis cada vez más precisos y eficientes, y cada vez más investigadores los incorporan a su trabajo. Se espera que scRNA-Seq siga desempeñando un papel importante en el campo de la transcriptómica. Sin duda, un mayor desarrollo de las técnicas de scRNA-Seq mejorará nuestra comprensión de la biología tumoral y destacará objetivos farmacológicos prometedores. A medida que el campo continúa creciendo, la infraestructura de computación basada en la nube de CGC, junto con numerosos conjuntos de datos de cáncer disponibles y flujos de trabajo de procesamiento de datos de una sola célula fáciles de usar como el que se presenta en este blog, serán fundamentales para ayudar a los investigadores a extraer nuevos conocimientos. del cáncer y sus procesos patológicos.
Referencias
- Regev, A., et al. “Participantes de la reunión del Atlas de células humanas: El atlas de células humanas”. Elife 6.
- Haque, A., et al. “Una guía práctica para la secuenciación de ARN unicelular para investigación biomédica y aplicaciones clínicas”. Genoma Med. (2017): 75.
- Amezquita, Robert A., et al. “Orquestación del análisis unicelular con Bioconductor”. Métodos de la naturaleza 17.2 (2020): 137-145.
- Lytal, Nicholas, Di Ran y Lingling An. “Métodos de normalización en datos de RNA-seq de una sola célula: una encuesta empírica”. Fronteras en genética 11 (2020): 41.
- Haghverdi, Laleh, et al. “Los efectos por lotes en los datos de secuenciación de ARN de una sola célula se corrigen al hacer coincidir los vecinos más cercanos mutuos”. Biotecnología de la naturaleza 36.5 (2018): 421-427.
- Luecken, Malte D. y Fabian J. Theis. “Las mejores prácticas actuales en el análisis de RNA-seq de una sola célula: un tutorial”. Biología de sistemas moleculares 15.6 (2019): e8746.
- Kiselev, Vladimir Yu, Tallulah S. Andrews y Martin Hemberg. “Desafíos en el agrupamiento no supervisado de datos de RNA-seq de una sola célula”. Nature Reviews Genetics 20.5 (2019): 273-282.
- Adil, Asif, et al. “Transcripción de una sola célula: métodos actuales y desafíos en la adquisición y el análisis de datos”. Fronteras en neurociencia 15 (2021): 591122.
- Recursos web para la anotación de tipos de células: 10x Genomics
- Análisis de expresión génica diferencial en datos scRNA-seq entre condiciones con réplicas biológicas: genómica 10x
- Wu, Szu-Hsien Sam, Ji-Hyun Lee y Bon-Kyoung Koo. “Rastreo de linaje: la reconstrucción computacional va más allá del límite de la imagen”. Moléculas y células 42.2 (2019): 104.
- Muraro, Mauro J., et al. “Un atlas de transcriptomas unicelulares del páncreas humano”. Sistemas celulares 3.4 (2016): 385-394.
- Segerstolpe, Åsa, et al. “Perfil de transcriptoma unicelular de islotes pancreáticos humanos en salud y diabetes tipo 2”. Metabolismo celular 24.4 (2016): 593-607.