Clasificación de entropía de datos de secuenciación de ARN de una sola célula para distinguir la heterogeneidad celular significativa del ruido técnico o biológico

Un equipo dirigido por investigadores del Wellcome-MRC Instituto de Células Madre de Cambridge ha desarrollado la clasificación por entropía (ES), un marco matemático que distingue genes indicativos de identidad celular. ES logra esto sin supervisión al cuantificar si es más probable que las correlaciones observadas entre las características hayan ocurrido debido al azar versus una relación dependiente, sin la necesidad de un umbral significativo definido por el usuario. En datos sintéticos, los investigadores demuestran la eliminación de señales ruidosas para revelar una resolución más alta de los patrones de expresión génica que los métodos de selección de características comúnmente utilizados. Luego aplican ES a los datos de secuenciación de ARN unicelular de embrión humano previos a la implantación (scRNA-seq). Estudios anteriores no lograron identificar sin ambigüedades la masa celular interna temprana (ICM), lo que sugiere que el embrión humano puede divergir del paradigma del ratón. En contraste, ES resuelve el ICM y revela bifurcaciones de linaje secuencial como en el modelo clásico. Por lo tanto, ES proporciona un enfoque poderoso para maximizar la extracción de información de conjuntos de datos de alta dimensión, como los datos scRNA-seq.

Flujo de trabajo de FFAVES y ESFW

Las métricas definidas por ES están codificadas en dos algoritmos. El primero, FFAVES, utiliza ES para identificar puntos de datos en una matriz discreta que estadísticamente es probable que muestren un estado incorrecto. El segundo algoritmo, ESFW, asigna un peso de importancia a cada característica de los datos. Las ponderaciones más altas indican que es más probable que una característica pertenezca a un conjunto de características dependientes, mientras que las ponderaciones más bajas corresponden a características que se expresan aleatoriamente en los datos. Los cuadros amarillo, azul y verde proporcionan el flujo de trabajo propuesto para aplicar FFAVES y ESFW a datos de alta dimensión para la selección de características sin supervisión. Los cuadros morados y rojos describen cada algoritmo.

Disponibilidadhttps://github.com/aradley/FFAVES

Radley A, Corujo-Simon E, Nichols J, Smith A, Dunn SJ. (2022) La clasificación de entropía de los datos de secuenciación de ARN de una sola célula revela la masa celular interna en el embrión humano previo a la implantación. Informes de células madre [Epub ahead of print]. [article]



Fuente del artículo

Deja un comentario