Análisis Multi-Omics en el CGC: Aplicaciones en Investigación Epigenética

El valor del análisis multiómico

La creciente diversidad de grandes conjuntos de datos sobre el cáncer ha llevado a una mayor capacidad para la investigación multiómica. Análisis multiómico es un enfoque prometedor para revelar la funcionalidad de sistemas y procesos biológicos complejos. Sin embargo, el análisis multiómico es un proceso complejo que debe diseñarse y realizarse cuidadosamente, desde el muestreo hasta la interpretación de los resultados. Existen innumerables aplicaciones en las que el análisis multiómico podría proporcionar nuevos conocimientos sobre la biología de las enfermedades: por subtipificación y clasificación de enfermedades basadas en perfiles multiómicos, por ejemplo, así como para la predicción de biomarcadores para el diagnóstico. En aplicaciones de medicina de precisión, el análisis multiómico se puede utilizar para la identificación de los genes impulsores de la enfermedad específica de un paciente. El análisis multiómico también se puede utilizar para predicciones de evaluación clínica y predicción de riesgos.

Desafíos en el Análisis Multi-Omics

Existen numerosos desafíos logísticos para realizar análisis multiómicos. Los conjuntos de datos grandes, heterogéneos y multiómicos pueden tener un impacto negativo en la transferencia y administración de datos, lo que tradicionalmente puede conducir a un análisis computacionalmente intensivo. Por ejemplo, los archivos producidos por las tecnologías modernas de secuenciación de próxima generación (NGS) suelen ser bastante grandes y difíciles de transferir, administrar y procesar. Como tal, los investigadores necesitarán recursos computacionales flexibles para procesarlos, pero también para controlar y optimizar los costos de hacerlo. También está el problema de la heterogeneidad de los conjuntos de datos -ómicos individuales, que a menudo son heterogéneos en el sentido de que son generados por una amplia gama de plataformas en una variedad de formatos, lo que requiere reformatear y unificar los datos, y también puede requerir una variedad de herramientas para el análisis secundario. Otra dificultad en la preparación de un análisis multiómico es la falta de una metodología formal sobre la cual basar un proceso de investigación. En lugar de un marco definido de análisis multiómico, se han adoptado y utilizado varios métodos estadísticos y de aprendizaje automático para estos fines. Ha habido un aumento en la creación de numerosos métodos para el análisis multiómico en los últimos años, y esto ha dificultado que los investigadores identifiquen la herramienta adecuada para sus necesidades particulares de investigación sin una formación avanzada.

La hipótesis de investigación única para probar dentro de un análisis multiómico dado es solo la mitad del desafío, también hay muchas preguntas técnicas a considerar al elegir métodos para los métodos de análisis. Por ejemplo, ¿qué tipos de plataformas multiómicas proporcionan el mayor valor o cómo se recolectan y preparan las muestras? ¿Cómo se van a integrar los datos multiómicos? La elección de los métodos correctos para la integración y el análisis de datos depende principalmente de la aplicación y la hipótesis en la que se centra la investigación. Por ejemplo, un investigador puede desear encontrar subtipos de enfermedades basados ​​en modalidades de datos de diferentes experimentos -ómicos, o identificar genes impulsores de ciertas enfermedades que son específicas de un determinado paciente.

Análisis multiómico eficiente hecho posible en el CGC

En general, los investigadores que buscan realizar análisis multiómicos necesitan recursos computacionales flexibles para procesar archivos y conjuntos de datos tan grandes, junto con funciones para controlar y optimizar los costos de la nube. Además, los investigadores necesitarán un sistema de administración de archivos para almacenar fácilmente sus archivos y compartirlos con los colaboradores. Independientemente de los métodos o la aplicación elegidos, casi todos los análisis multiómicos tendrán un flujo similar al que se muestra en Figura 1 abajo. Primero, los investigadores comienzan con una hipótesis importante para su investigación. Con base en la hipótesis, a continuación diseñarán un experimento, recolectarán muestras y las procesarán con diferentes tecnologías -ómicas (NGS, espectrometría de masas o similar). A continuación, el investigador obtendrá los archivos de datos brutos resultantes con contenidos y formatos diversos, que querrá analizar de forma conjunta.

Figura 1: Flujo de análisis de Multi-Omics. La línea naranja rodea todas las tareas posteriores que se pueden realizar utilizando la plataforma CGC para el análisis multiómico.

Aquí es donde el CGC puede optimizar el análisis multiómico. La línea naranja en Figura 1 abarca todas las tareas posteriores que se pueden realizar en el análisis multiómico utilizando la plataforma CGC. Los usuarios pueden realizar análisis de datos, preparar datos para el análisis conjunto y, posteriormente, realizar el análisis conjunto, todo en un proyecto sin necesidad de transferir datos. Además, todos estos procesos se pueden realizar con todas las opciones de investigación colaborativa que ofrece el CGC.

El CGC tiene un historial de trabajo con una variedad de datos multiómicos. En la última década, la plataforma ha crecido en términos de servicios ofrecidos y se ha convertido en un centro para compartir datos provenientes de muchos conjuntos de datos ómicos diferentes, agregando nuevos conjuntos de datos casi cada trimestre. Los nuevos conjuntos de datos incluyen fuentes como TCGA, CPTACdatos de la Portal de datos del ICGCy muchos otros (ver tabla 1). Dentro de esta variedad de conjuntos de datos, los investigadores pueden encontrar datos de varias configuraciones experimentales diferentes, como RNA-seq, WES, WGS, ATAC-seq y ChIP-seq, proteómica e incluso imágenes. Los datos se almacenan en muchos formatos, desde datos sin procesar sin procesar, como archivos FASTQ, hasta VCF y tablas de expresión génica.

Tabla 1: Conjuntos de datos disponibles en el CGC. Este es un subconjunto de los numerosos conjuntos de datos alojados en la plataforma CGC y ofrece un ejemplo típico de la diversidad de configuraciones experimentales y tipos de archivos representados en los conjuntos de datos.

Funciones clave de CGC para potenciar el análisis multiómico

Procese archivos sin procesar con varias canalizaciones listas para usar. En CGC, una aplicación es un programa preparado específicamente para que pueda ejecutarse en la nube a través de la plataforma CGC. Se basa en el lenguaje de flujo de trabajo común (CWL) y la tecnología Docker. Estos pueden ser simples (una herramienta de línea de comandos) y también pueden ser complejos (análisis completo realizado a partir de varias aplicaciones conectadas en un solo flujo de trabajo). Más de 610 aplicaciones ya están disponibles y listas para usar en CGC. Se pueden copiar y ejecutar fácilmente en el proyecto del usuario, se pueden modificar según las necesidades del usuario y los usuarios también pueden crear sus propias aplicaciones. No hay limitaciones con respecto a la tecnología -ómica, por lo que los usuarios pueden transferir cualquier tipo de análisis al CGC. Si un usuario no es un experto en estadística y programación, esto no es una barrera para el progreso: la mayoría de las herramientas y paquetes suelen tener tutoriales y ejemplos de análisis que se pueden reproducir fácilmente con un conocimiento técnico mínimo.

El Navegador de datos es una interfaz para buscar y filtrar datos de conjuntos de datos públicos. Un motor de búsqueda con una interfaz gráfica, el Navegador de datos permite a los investigadores buscar varios tipos de datos, lo que permite el descubrimiento de diferentes datos de experimentos ómicos de esta manera. Para una consulta de búsqueda, los usuarios pueden incluir muchos campos de metadatos diferentes, lo que les permite describir mejor la relación entre los diversos datos de interés. Actualmente, esto no es posible con la típica búsqueda por facetas (a través de portales de nodos de datos). Por ejemplo, los usuarios de Data Browser pueden buscar todos los pacientes con datos de RNA-seq y datos proteómicos, simultáneamente. Además, los investigadores de campos de metadatos personalizados pueden usar para anotar archivos, lo que es útil para comparar datos entre sí.

Prepare y analice los datos resultantes en un análisis conjunto directamente con el Data Cruncher. los Triturador de datos es una herramienta de análisis interactivo que utiliza JupyterLab y RStudio como entorno computacional. Permite a los usuarios realizar análisis directamente donde residen los datos (sin necesidad de transferir los datos y los costos de salida asociados). Los resultados se guardan directamente en un proyecto CGC. Con respecto a las aplicaciones multiómicas, Data Cruncher le permite preprocesar archivos y preparar datos para su análisis directamente en el proyecto. El Cruncher de datos se puede utilizar para tareas como el filtrado, la armonización en la fase de preprocesamiento, la escritura de análisis de datos conjuntos, la preparación de informes personalizados y la visualización, y más. Con respecto al análisis multiómico, otra característica útil de Data Cruncher es la capacidad de explorar un conjunto de datos (o nuevos conjuntos de datos) más a fondo después de ejecutar los flujos de trabajo iniciales en algunos de sus datos. Al hacerlo, los usuarios pueden saber con anticipación qué conjuntos de datos multiómicos y tipos de análisis tienen más sentido combinar, antes de dedicar más tiempo y recursos. Por ejemplo, si un usuario está utilizando datos de metilación del ADN de un gen con expresión alterada, ¿tendrá cobertura para los datos correspondientes en otro conjunto de datos de interés? El uso de Data Cruncher permite a los usuarios planificar su procedimiento experimental antes de dedicar más tiempo y recursos. En este sentido, Data Cruncher también es útil para los usuarios que desean realizar un trabajo exploratorio rápido sin perder tiempo descargando un gran conjunto de datos: pueden usar Data Cruncher para el análisis interactivo en Jupyter o RStudio. cuadernos Además, si un usuario tiene un análisis personalizado que debe ejecutarse muchas veces, puede implementarlo como un flujo de trabajo de CWL en la plataforma y ejecutarlo a gran escala, optimizado para el tiempo de ejecución y la eficiencia computacional.

Centrarse en la epigenética: puntos destacados del flujo de trabajo

En este blog, destacaremos tres flujos de trabajo específicos para la investigación epigenética: dos desarrollados por el Consorcio ENCODE y disponible en la plataforma CGC, y un flujo de trabajo de análisis multiómico desarrollado por Seven Bridges. ENCODE significa «Enciclopedia de elementos de ADN», y el Consorcio ENCODE es una colaboración internacional continua de grupos de investigación financiados por la Instituto Nacional de Investigación del Genoma Humano (NHGRI). El objetivo del Consorcio ENCODE es crear una lista completa de elementos funcionales en el genoma humano que controlan las células y la actividad génica, incluidos elementos que actúan a nivel de proteína y ARN, elementos reguladores y más. Como tal, hay un enfoque en el estudio de las modificaciones epigenéticas: modificaciones en el ADN o la cromatina que afectan la expresión génica, sin cambios en la secuencia, como la metilación del ADN, la modificación de histonas/remodelación de la cromatina y la interferencia del ARN. Estos cambios se pueden detectar con secuenciación de bisulfito (metilación del ADN), secuenciación de ARN pequeño (ARNi), ChIP-seq (modificación de histonas) y ATAC-seq (accesibilidad a la cromatina). En este blog, nos centraremos en ATAC-seq y ChIP-seq:

ATAC-seq significa Ensayo de cromatina accesible por transposasa con secuenciación de alto rendimiento. Es un método que se ha utilizado para estudiar la accesibilidad de la cromatina en todo el genoma en modelos de cáncer. Este método prueba la accesibilidad del ADN con la transposasa Tn5 hiperactiva, que inserta adaptadores de secuenciación en las regiones accesibles de la cromatina. Las lecturas de secuenciación se pueden usar para inferir regiones de mayor accesibilidad, así como para mapear regiones de unión del factor de transcripción y posición del nucleosoma, así como sitios de metilación del ADN. Los estados de enfermedad, como el cáncer, pueden exhibir firmas únicas o cambios en el perfil de accesibilidad de la cromatina.

ChIP-Seq (abreviado de «inmunoprecipitación de cromatina seguida de secuenciación de alto rendimiento») es un método poderoso para identificar sitios de unión de ADN en todo el genoma para factores de transcripción y otras proteínas asociadas a la cromatina. Combina ensayos de inmunoprecipitación de cromatina (ChIP) con secuenciación NGS estándar. La aplicación de NGS a ChIP ha revelado información sobre los eventos de regulación de genes que desempeñan un papel en diversas enfermedades y vías biológicas, como el desarrollo y la progresión del cáncer. ChIP-Seq permite un examen exhaustivo de las interacciones entre proteínas y ácidos nucleicos a escala de todo el genoma. Este método también identifica los sitios de unión de las proteínas asociadas al ADN y se puede utilizar para mapear los sitios de unión globales para una proteína determinada. Las firmas ChIP-seq pueden ser útiles para identificar estados de enfermedad o para identificar el número de pases en líneas celulares.

Mejora de la investigación epigenética con análisis multiómicos

Para que los investigadores puedan realizar análisis epigenéticos de manera eficiente utilizando estas tecnologías en la nube, necesitarán un almacenamiento adecuado para grandes conjuntos de datos, automatización para flujos de trabajo de ejecución prolongada con configuraciones complejas, nodos de cómputo paralelos para completar rápidamente el análisis, características para compartir resultados y datos fácilmente. así como la confianza en la reproducibilidad de los resultados. El CGC es un excelente entorno para este tipo de investigación epigenómica, ya que cumple y supera todos estos requisitos. La galería de aplicaciones públicas de CGC tiene varios flujos de trabajo de epigenómica para usar en las plataformas, para una variedad de tecnologías experimentales que incluyen: metilación de ADN (Bismark, BitMapperBS) y ARN pequeño (QuagmiR, MicroRazerS), y canalizaciones ENCODE ATAC-seq y ChIP-seq.

Una vez que se ejecutan estos flujos de trabajo y se recopilan los datos, el siguiente paso es obtener información biológica sobre estos datos. Una de las mejores formas de hacer esto es usar varios tipos de datos -ómicos juntos en un análisis multiómico. Por ejemplo, puede tener datos de RNA-seq y datos de ATAC-seq: los datos de RNA-seq se encuentran entre dos estados de enfermedad y pueden tener los mismos tipos de muestra para los datos de ATAC-seq. El análisis multiómico aquí le permitiría ver los genes expresados ​​​​diferencialmente en función de los picos de ATAC-seq. También podría usar estos datos de RNA-seq junto con los datos de ChIP-seq y preguntar si las regiones que muestran cambios en el panorama de modificación de histonas muestran cambios similares en el perfil de expresión de RNA en las mismas regiones.

Para resaltar aún más las capacidades de investigación de análisis epigenómico y multiómico de la plataforma CGC, destacaremos los flujos de trabajo ATAC-seq y ChIP-seq transferidos desde ENCODE Consortia, así como nuestro propio flujo de trabajo de análisis multiómico. Estos flujos de trabajo son los ENCODE ATAC-ver Pipelinela Tubería ENCODE ChIP-seq 2y el Análisis conjunto de RNA-Seq y ATAC/ChIP-Seq Pipeline, respectivamente. Estos flujos de trabajo destacados hacen del CGC la plataforma ideal para explorar la accesibilidad de la cromatina y sus relaciones con la regulación génica en el pronóstico y la terapia del cáncer. En combinación con conjuntos de datos actualizados disponibles públicamente y las características de exploración y análisis de datos descritas anteriormente, la plataforma CGC potencia la investigación epigenética en la nube.

El oleoducto ENCODE ATAC-seq

Uno de los flujos de trabajo mejor desarrollados, mejor documentados y ampliamente utilizados para ATAC-seq es del Consorcio ENCODE. los Tubería ENCODE ATAC-seq realiza el control de calidad y procesamiento de la señal, produciendo alineaciones y medidas de enriquecimiento. Nuestro equipo de bioinformática adaptó este flujo de trabajo para optimizarlo en la nube e implementarlo en CWL. El ENCODE ATAC-Seq Pipeline procesa datos ATAC-Seq replicados o no replicados, de extremo único y emparejado. Los cuatro pasos principales del análisis de la canalización de ATAC-Seq son: control de calidad de prealineación, alineamiento, procesamiento de postalineación y control de calidad avanzado específico de ATAC-seq, y llamada máxima para identificar regiones accesibles (que es la base para análisis aguas abajo avanzado).

Figura 2. Instantánea de la tubería ATAC-seq

En la siguiente tabla, hemos resumido los recursos que encontramos que funcionaron bien para ejecutar ENCODE ATAC-Seq Pipeline a través de Amazon Web Services (AWS) en diferentes conjuntos de datos utilizando el entorno de nube de Seven Bridges. Esta tabla proporciona valores típicos de lo que puede esperar al ejecutar ENCODE ATAC-Seq Pipeline a través de Seven Bridges para entradas de diferentes tamaños. El paso del flujo de trabajo que consume más tiempo es la alineación de las biorreplicas. Aumentar el número de instancias paralelas para que coincida con el número de trabajos de todos los pasos de alineación, además de aumentar «Alinear – Número de CPU» según el tamaño de los archivos de entrada, acelerará la ejecución. Además, la ejecución se puede optimizar aún más aumentando lo siguiente: “Filtro: número de CPU”, “Filtro para Xcor: número de CPU”, “Xcor: número de CPU” y “Pico de llamadas: número de CPU”.

Tabla 2: Evaluación comparativa de ENCODE ATAC-seq

La canalización 2 de ENCODE ChIP-Seq

los Canalización 2 de CHIP-Seq de ENCODE el análisis estudia las modificaciones de la cromatina y los patrones de unión de los factores de transcripción y otras proteínas. Combina ensayos de inmunoprecipitación de cromatina con secuenciación NGS estándar. El flujo de trabajo se basa en la canalización ChIP-Seq 2 y, al igual que su contraparte ATAC-seq, también fue desarrollado originalmente por el consorcio ENCODE. Similar a la tubería ATAC-seq de ENCODE, esta tubería está disponible como una aplicación pública en CGC, optimizada e implementada en CWL por nuestro equipo de bioinformática. ENCODE ChIP-Seq Pipeline 2 está diseñado para procesar datos ChIP-Seq de un solo extremo y de dos extremos. Toma una lista de archivos FASTQ de biorreplicas, un archivo de referencia, un archivo TAR de índice y un archivo de tamaños de cromosomas como entradas requeridas. Brevemente, los pasos del flujo de trabajo del análisis ChIP-Seq consisten en el mapeo de lecturas, incluida la eliminación de duplicados, el análisis de correlación cruzada, la llamada de picos con filtrado de lista negra y el marco estadístico, que se aplican a los picos replicados al final para evaluar la concordancia de los datos biológicos. replica

Figura 3. Instantánea de CHip-seq Pipeline 2

En Tabla 3 a continuación, hemos resumido los recursos que encontramos que funcionaron bien para ejecutar ENCODE ChIP-Seq Pipeline 2 a través de AWS en diferentes conjuntos de datos utilizando el entorno de nube de Seven Bridges, proporcionando valores típicos de lo que puede esperar al ejecutar ENCODE ChIP-Seq Pipeline 2 a través de Seven Bridges para diferentes números de biorreplicas, controles y para diferentes tamaños de fastq.gz. El paso del flujo de trabajo que consume más tiempo es la alineación de las biorreplicas/controles. Aumentar la cantidad de instancias paralelas para que coincida con la cantidad de trabajos de todos los pasos de alineación acelerará la ejecución.

Tabla 3: Evaluación comparativa de ENCODE ChIP-Seq Pipeline 2

El análisis conjunto de la canalización de RNA-Seq y ATAC/ChIP-Seq

los Análisis conjunto de la canalización RNA-Seq y ATAC/ChIP-Seq fue el resultado de una iniciativa de CGC para construir un flujo de trabajo multiómico que integraría los resultados de varias tecnologías NGS que brindan información sobre la regulación de la transcripción en el nivel de gen/transcripción, así como en el nivel epigenético. Por lo tanto, la canalización de análisis conjunto de RNA-Seq y ATAC/ChIP-Seq se diseñó para procesar múltiples muestras de experimentos de RNA-Seq y ATAC-Seq o ChIP-Seq, y también genera diferentes informes HTML con representación gráfica del resultado. como múltiples archivos en formato CSV. El diseño de la tubería se presenta en Figura 4 abajo. Comienza con la comparación del recuento de transcritos y los datos del conjunto de picos para identificar genes expresados ​​diferencialmente y regiones de unión. Las características diferenciales detectadas luego se superponen y se utilizan para el análisis de enriquecimiento del conjunto de genes. El flujo de trabajo consta de tres partes funcionales: análisis descendente de conjuntos de picos, análisis descendente de datos de expresión génica y análisis de enriquecimiento combinado.

Figura 4: Análisis conjunto de la descripción general de la canalización de RNA-Seq y ATAC/ChIP-Seq

El flujo de trabajo del análisis conjunto de RNA-Seq y ATAC/ChIP-Seq se ha evaluado para diferentes tamaños y cantidades de archivos de entrada. En Tabla 4 abajo. Las pruebas se realizaron con el tipo de instancia predeterminado. Además, el costo puede reducirse significativamente mediante el uso de instancias puntuales. Visite el Centro de conocimiento para obtener más detalles.

En conclusión

La gran cantidad de información resultante del análisis multiómico junto con las herramientas epigenéticas detalladas anteriormente es solo una de las muchas aplicaciones potenciales de la plataforma CGC. Casi todos los campos de las ciencias biológicas se benefician de los conocimientos adquiridos a partir de capacidades mejoradas para el análisis multiómico. Seven Bridges y el CGC ayudan a aprovechar todo el potencial de la investigación multiómica a través de nuestra infraestructura basada en la nube, acceso y análisis optimizados de conjuntos de datos y una variedad de herramientas, flujos de trabajo y cuadernos interactivos.

¿Interesado en aprender cómo empezar? Póngase en contacto con nosotros hoy. Asegúrese de recibir actualizaciones de Seven Bridges siguiéndonos en LinkedIn y ​Twitter.



Fuente del artículo

Deja un comentario