encontrar nuevas uniones intrón-exón usando los datos públicos de Encode RNASeq

Me han pedido que busque algunas uniones intrón-exón nuevas/sospechadas/anteriormente no caracterizadas en datos públicos de RNASeq.
He usado los BAM bajo http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeCaltechRnaSeq/.

El siguiente comando se usa para construir la lista de BAM:

curl -s  "http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC/wgEncodeCaltechRnaSeq/" |
tr ' <>"' "n" | grep -F .bam | grep -v bai | sort | uniq | sed 's/.bam$//' | sed 's/$/ \/' 

wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep1V2 
wgEncodeCaltechRnaSeqGm12878R1x75dAlignsRep2V2 
wgEncodeCaltechRnaSeqGm12878R1x75dSplicesRep1V2 
wgEncodeCaltechRnaSeqGm12878R1x75dSplicesRep2V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il200AlignsRep1V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il200AlignsRep2V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il200SplicesRep1V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il200SplicesRep2V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il400AlignsRep2V2 
wgEncodeCaltechRnaSeqGm12878R2x75Il400SplicesRep2V2 
(...)

Esta lista se inserta como una lista denominada MUESTRAS un archivo MAKE.

Para cada BAM, usamos samtools para recuperar las lecturas en las regiones de interés. Luego, las lecturas se filtran con samjs (https://github.com/lindenb/jvarkit/wiki/SamJS) para mantener solo las lecturas que llevan una unión intrón-exón en las ubicaciones deseadas. Básicamente, el filtro basado en javascript recorre la cadena CIGAR de la lectura, calcula el intervalo genómico omitido cuando el operador cigarro es una eliminación o una región/intrón omitido. La lectura se imprime si describe la nueva unión intrón-exón.

Todo en uno:

Eso es,

Pedro

Fuente del artículo

Deja un comentario