TIL que puede descargar datos SRA de AWS

El Archivo de lectura de secuencia (SRA) es el repositorio más grande disponible públicamente de datos de secuenciación de alto rendimiento. (Dato curioso: solía llamarse Archivo de lectura corta, ya que la mayoría de los datos procedían de secuenciadores de lectura corta). La herramienta fastq-dump desde el Kit de herramientas SRA se puede utilizar para descargar datos SRA. Hace un tiempo supe de fasterq-dumpque como su nombre indica es una versión más rápida de fastq-dump. A continuación se muestran los tiempos transcurridos para descargar SRR390728 usando las dos herramientas.

time fastq-dump SRR390728
# Read 7178576 spots for SRR390728
# Written 7178576 spots for SRR390728
# 
# real    15m22.349s
# user    3m16.858s
# sys     0m22.203s

time fasterq-dump --split-files SRR390728
# spots read      : 7,178,576
# reads read      : 14,357,152
# reads written   : 14,357,152
# 
# real    7m3.119s
# user    2m12.225s
# sys     0m21.876s

Hay una herramienta llamada prefetchpero fasterq-dump realiza el prefetch paso y conversión FASTQ en un solo paso, lo que significa que no necesita usar prefetch con fasterq-dump.

he estado usando fasterq-dump y hace el trabajo, pero es muy lento y, a veces (más a menudo de lo que me gustaría) se bloquea en medio de una descarga.

Busqué una solución más rápida y encontré paralelo-fastq-dump, que hábilmente divide una descarga en bloques independientes y descarga cada bloque en paralelo. Sin embargo, la descarga simplemente se colgó cuando traté de usarla.

Finalmente descubrí que AWS aloja todos los datos de SRA y los ha hecho accesibles gratuitamente desde Amazon S3.

Descargar el mismo conjunto de datos de AWS tomó solo 30 segundos en comparación con más de 7 minutos usando fasterq-dump.

time aws s3 sync s3://sra-pub-run-odp/sra/SRR390728 SRR390728 --no-sign-request
# download: s3://sra-pub-run-odp/sra/SRR390728/SRR390728 to SRR390728/SRR390728
# 
# real    0m29.429s
# user    0m2.701s
# sys     0m1.640s

El cubo S3 está en el us-east-1 región, por lo que si se encuentra en los EE. UU. y en la costa este, debería tener velocidades de descarga mucho más rápidas que yo (ya que estoy descargando desde Japón).

Tengo un escrito más largo y más explicativo en mi repositorio de GitHub.

Imprimir amigable, PDF y correo electrónico

Fuente del artículo

Deja un comentario