El Archivo de lectura de secuencia (SRA) es el repositorio más grande disponible públicamente de datos de secuenciación de alto rendimiento. (Dato curioso: solía llamarse Archivo de lectura corta, ya que la mayoría de los datos procedían de secuenciadores de lectura corta). La herramienta fastq-dump
desde el Kit de herramientas SRA se puede utilizar para descargar datos SRA. Hace un tiempo supe de fasterq-dump
que como su nombre indica es una versión más rápida de fastq-dump
. A continuación se muestran los tiempos transcurridos para descargar SRR390728 usando las dos herramientas.
time fastq-dump SRR390728
# Read 7178576 spots for SRR390728
# Written 7178576 spots for SRR390728
#
# real 15m22.349s
# user 3m16.858s
# sys 0m22.203s
time fasterq-dump --split-files SRR390728
# spots read : 7,178,576
# reads read : 14,357,152
# reads written : 14,357,152
#
# real 7m3.119s
# user 2m12.225s
# sys 0m21.876s
Hay una herramienta llamada prefetch
pero fasterq-dump
realiza el prefetch
paso y conversión FASTQ en un solo paso, lo que significa que no necesita usar prefetch
con fasterq-dump
.
he estado usando fasterq-dump
y hace el trabajo, pero es muy lento y, a veces (más a menudo de lo que me gustaría) se bloquea en medio de una descarga.
Busqué una solución más rápida y encontré paralelo-fastq-dump, que hábilmente divide una descarga en bloques independientes y descarga cada bloque en paralelo. Sin embargo, la descarga simplemente se colgó cuando traté de usarla.
Finalmente descubrí que AWS aloja todos los datos de SRA y los ha hecho accesibles gratuitamente desde Amazon S3.
Descargar el mismo conjunto de datos de AWS tomó solo 30 segundos en comparación con más de 7 minutos usando fasterq-dump
.
time aws s3 sync s3://sra-pub-run-odp/sra/SRR390728 SRR390728 --no-sign-request
# download: s3://sra-pub-run-odp/sra/SRR390728/SRR390728 to SRR390728/SRR390728
#
# real 0m29.429s
# user 0m2.701s
# sys 0m1.640s
El cubo S3 está en el us-east-1
región, por lo que si se encuentra en los EE. UU. y en la costa este, debería tener velocidades de descarga mucho más rápidas que yo (ya que estoy descargando desde Japón).
Tengo un escrito más largo y más explicativo en mi repositorio de GitHub.