Asegúrate de que las probabilidades estén a tu favor.

En el mundo de la bioinformática, todos debemos tener cuidado al analizar nuestros datos. Recibo innumerables preguntas sobre qué conjunto de referencia se debe usar al analizar la expresión génica o los datos de expresión de proteínas.

Si está pensando “¿qué es un conjunto de referencia?”, no se preocupe. No estás solo. Muchos investigadores han sido víctimas del uso del conjunto de referencia predeterminado ofrecido por la mayoría de los programas de análisis de vías. Y podría estar comprometiendo su análisis de datos sin siquiera darse cuenta. En esta publicación de blog, definiré el conjunto de referencia e intentaré aclarar la cuestión de cuál es el mejor conjunto de referencia para usar.

¿Qué es un conjunto de referencia?

Todos hemos tenido la experiencia de recibir un boleto de rifa y el boleto dice: «Debe estar presente para ganar». Lo que están haciendo es establecer el grupo de candidatos de los cuales sacar un boleto ganador (y también tratar de mantenerlo allí, pero eso está más allá del alcance de esta discusión). Realizar análisis de vías y otros análisis de enriquecimiento es algo similar a eso.

​​Es muy intuitivo que el tamaño del grupo de candidatos afectará dramáticamente las probabilidades de ganar. Usando nuestro ejemplo de boletos de rifa, digamos que se entregan 1,000 boletos y solo habrá un ganador. A primera vista, creemos que nuestras probabilidades de ganar son de 1 en 1.000. Pero ahora digamos que la multitud de personas que realmente están presentes para el sorteo es de solo 100 personas. Debido a que «debemos estar presentes para ganar», nuestras probabilidades de ganar ahora son de 1 en 100. Además, si los organizadores de la rifa quisieran hacer trampa, podrían, por ejemplo, hacer que la rifa se lleve a cabo en una habitación pequeña en la que solo inviten sus amigos y parientes. Si esta sala alberga solo a 10 personas en el momento del sorteo, las probabilidades de ganar ahora serían de 1 en 10. Por lo tanto, las probabilidades dependen realmente del conjunto del que se seleccionan los boletos ganadores. Lo mismo ocurre con la vía y otros análisis basados ​​en el enriquecimiento.

Digamos que tiene 1000 genes o proteínas significativos que fueron seleccionados como expresados ​​diferencialmente (DE) en su condición. Como prologué en mi párrafo inicial, la pregunta es qué antecedentes se deben usar al tratar de comprender qué vías o términos GO son significativos. Los valores p calculados durante el análisis son solo otra forma de informarle sobre las probabilidades de que una vía determinada sea significativa solo por casualidad. Y, como vimos en el experimento de la rifa, la elección del fondo puede tener un efecto dramático en los resultados (probabilidades).

¿Qué fondo debo usar?

¿Deberíamos usar todos los genes codificadores de proteínas? ¿Qué hay de todos los genes en las bases de datos NCBI o Ensemble?

La respuesta es que siempre debemos usar el conjunto de genes que se midieron. Esto es como decir, “debes estar presente para ganar”. Si no se midió el gen o la proteína, no debe estar en la mezcla. Entonces, si usa un conjunto arbitrario de genes para el fondo (por ejemplo, todos los genes NCBI o todos los genes Ensemble), su estadística estará muy sesgada. Todos los programas de enriquecimiento en los que solo se envían genes o proteínas DE hacen esto. De manera similar, si solo usa el conjunto de genes DE como fondo y luego selecciona desde allí, también puede sesgar sus resultados (esto es como hacer el sorteo entre sus 10 amigos y aumentar sus probabilidades de éxito).

Para ejemplificar esto, tomé el conjunto de 1172 genes significativos (p|0,6|) de un conjunto de datos público (GSE47363) y lo pasé por un análisis de enriquecimiento simple. En el primer experimento, utilicé el conjunto de genes que se midieron como fondo, unos 20 000 genes. Luego ejecuté exactamente el mismo conjunto de genes DE, pero esta vez usé «genes NCBI» proporcionados por otra popular aplicación de análisis de vías basada en la web como fondo (alrededor de 30,000 genes). Consulte la Figura 1 a continuación.

Figura 1: Comparación de los resultados de la ruta en un conjunto de DEG con diferentes antecedentes. A la izquierda, usamos el conjunto de genes que se midieron (20k). A la derecha usamos 30k genes de NCBI como fondo. Observe la gran diferencia en el número de vías significativas y los valores de p.

Si bien la ruta superior es la misma en ambos casos, notará que poco más es igual. En el primer conjunto de resultados, obtenidos con los antecedentes apropiados, vemos un total de 64 vías significativas (valores de p de FDR

Podrías decir: “Bueno, el primer camino es el mismo. Entonces, si un camino es realmente relevante, estará en la cima sin importar cuál sea el fondo”. No es verdad. El hecho de que los dos conjuntos de resultados tengan el mismo camino en la parte superior es solo una coincidencia. Para ilustrar aún más, comparé el uso de todos los genes medidos como fondo de referencia o el uso de la base de datos de genes NCBI completa y el efecto en una sola vía.

Para este ejemplo, utilicé 36 000 genes medidos, de los cuales el 10 % se expresan diferencialmente, o 3600 genes. Ambos números son similares a los que obtendría en un experimento típico de RNA-seq. A continuación, asumí que 100 genes están asociados con una única vía arbitraria y que 12 genes de mi conjunto de datos expresados ​​diferencialmente están enriquecidos en esta lista. Como puede ver en la Tabla 1 a continuación, cuando utilicé la lista total de genes de medida como fondo, descubrí que esta vía no estaba enriquecida en mi conjunto de datos con un valor p de 0,19. Sin embargo, manteniendo todo lo demás igual pero, en cambio, analice utilizando un conjunto de referencia predeterminado que es aproximadamente igual al número en la base de datos NCBI (52,000), esta vía ahora es significativa con un valor p de 0.02. Con solo usar la referencia «predeterminada», identifiqué un término GO enriquecido en mi conjunto de datos que probablemente sea un falso positivo.

Tabla 1: Comparación de los resultados en un solo camino utilizando diferentes antecedentes. A la izquierda, usamos el conjunto de genes que se midieron (36k). A la derecha usamos 52k genes del NCBI como fondo. Observe que el valor p se vuelve significativo cuando se usa el conjunto de referencia más grande.

¿Qué hay en un valor p?

El propósito mismo de los valores de p es brindarnos los medios para distinguir entre las vías que realmente están involucradas con el fenotipo y las vías que pueden tener algunos genes expresados ​​diferencialmente solo por casualidad. Todas las rutas con un valor de p menor que el umbral de significancia (por ejemplo, 5 %) deben estudiarse cuidadosamente, no solo el resultado más alto, o los tres primeros para el caso. Si tiene demasiados caminos significativos y selecciona de ellos solo los que «parecen familiares» o «tienen sentido», sus resultados estarán severamente sesgados. Y, por cierto, nunca puedes descubrir nuevos fenómenos si investigas solo aquellos que ya sabes que están involucrados.

Si tiene demasiados DEG, una mejor manera es volver a los criterios que usó para seleccionar sus genes expresados ​​diferencialmente, usar umbrales más estrictos para los valores p y/o doblar los cambios y volver a hacer su análisis. En la mayoría de los casos, el uso de umbrales razonables para sus genes le brindará un conjunto de vías significativas que realmente le ofrecerán una buena comprensión del fenómeno biológico subyacente. Suponiendo, por supuesto, que haya utilizado un buen método de análisis de rutas.

Para resumir, usar el conjunto de genes o proteínas de fondo adecuado puede tener un efecto dramático en la cantidad de resultados significativos y la cantidad de falsos positivos. Debe utilizar todo el conjunto de genes que se midieron como antecedentes apropiados al analizar sus datos. ¡Nada más y nada menos! Esto no es una recomendación o consejo. Esto es imprescindible para garantizar la validez científica de sus hallazgos. Es por eso que en iPathwayGuide, le pedimos que envíe su lista completa de genes o que especifique explícitamente los antecedentes. Si alguna vez usa una aplicación que solo requiere que envíe los genes significativos, pregúntese: «¿Quién estaba en la sala cuando se eligieron a los ganadores?»

Para más sobre este tema, puedes leer:

Fuente del artículo

Deja un comentario