Las entradas de SRA nunca deberían desaparecer en el aire

Me encontré con un problema molesto anoche y estaba bastante molesto, pero tuve la disciplina de esperar hasta la mañana para desahogarme públicamente. Ahora estoy más malhumorado sobre el tema, no furioso pero sí bastante frustrado. La versión rápida de lo que sucedió es que estoy tratando con retraso de pasar por un código de análisis reproducible muy bien documentado para explorar algunas preocupaciones que tengo con el análisis, y el código está funcionando en una entrada SRA, y esa entrada SRA es el punto completo. del analisis Y esa entrada de SRA que sé que alguna vez existió ahora no lo hace, aparte de este código y la preimpresión que lo acompaña, es como si nunca hubiera existido, lo cual es terrible. Y estoy irritado con todos los que contribuyeron a ese terrible resultado, comenzando con NCBI.
Bien, la versión larga. A principios de este año, Ultima Genomics salió a la luz y Fui uno de los pocos medios a los que dieron una entrevista anticipada (30 kilobases de ARN infeccioso me impidieron visitar). Después de eso y otras exageraciones, Sina Booeshaghi y Lior Pachter de Cal Tech dieron un golpe crítico a los datos y rápidamente produjeron un Preimpresión de BioRxiv eso fue muy crítico con la calidad de los datos de Ultima. Basaron esto en un preimpresión del Broad Institute y Ultima y luego agregó algunos datos de otra preimpresión. Hay aspectos de la forma en que Booeshagi & Pachter preprocesaron los datos de Ultima con los que tengo reservas y quería recorrer su canalización y luego ver por mí mismo cuánto cambiarían los cambios en el aspecto de preocupación (truncar los datos de Ultima antes de la alineación o pseudoalineación) cosas. Y me encontré con un bache desagradable: la entrada SRA SRR18145555 para los datos de Ultima a los que se hace referencia en el código simplemente ya no existe

Entonces, comenzando mi lanzamiento de ladrillos con NCBI, esta es la primera parte terrible. Cuando yo digo SRR18145555 Lo digo en serio. Si lo busca en SRA (y ENA nunca obtuvo una copia o también la eliminó), no obtendrá nada. No hay mensaje «este registro eliminado por solicitud del remitente» o tal, simplemente nada. Es bastante tonto que el NCBI permita a los remitentes retirar datos meses después (este no es un caso de «oopsie, presioné el botón equivocado») y después de que los datos hayan sido objeto de una importante discusión científica pública, ¡pero hacerlo sin dejar rastro es inconcebible!

Esto apunta a un problema relacionado y potencialmente muy serio. La preimpresión de Broad/Ultima dice que los datos se pueden encontrar en Gene Expression Omnibus en GSE197452. Esa entrada es interesante y problemática porque para las plataformas enumera cuatro y son tres cajas de Illumina y 454GS. Lo cual es claramente una tontería, ya que todo esto se presentó en 2022.

GSE a su vez para cada uno de los tres conjuntos de datos, y están correctamente etiquetados Illumina y Ultima apunta a GSM6297379 como el conjunto de datos Ultima (nuevamente en GEO). Que también enumera 454 GS como el instrumento. Tal vez este fue un caso de «Tengo que elegir algo, así que elegiré un cuadro de cierre temático», pero me molesta que los metadatos se corrompan de esta manera: a la gente como yo le gusta buscar esos datos. Entonces, para empezar, ¿podría NCBI agregar Ultima a su lista de plataformas?

De acuerdo, GSM629737 a su vez apunta al experimento SRA SRX16043372 y que en este momento tiene dos entradas de ejecución SRA y tienen números enteros más altos incrustados (SRR20002549 y SRR20002550)

por lo que deben ser cargas posteriores de Broad (que posee todas estas entradas).

Pero eso es realmente un problema grave, ya que la preimpresión de Broad hace afirmaciones sobre los datos y, de manera crítica, la preimpresión de Broad en BioRxiv se publicó el 29 de mayo. Este es un problema muy similar a la programación de computadoras: tenemos una cadena de punteros y el último ahora apunta a la nada; Las acciones de Broad han provocado que el código de preimpresión de Booeshaghi & Pachter tenga una falla de segmento efectiva. Pero también significa que el indicador de nivel superior no es ni remotamente lo suficientemente específico: es realmente terrible que la preimpresión de Simmons et al del Broad diga «puede encontrar los datos que analizamos en esta entrada» cuando, en última instancia, los datos que apuntan a puede cambiar con las mareas. Si deseo reproducir los resultados de Simmons, ¿qué conjunto de datos es el correcto? Y con los nuevos datos, ¿sigue siendo válida la versión del preprint del 25 de mayo?

Lo más probable es que los nuevos datos representen un nuevo software de química y/o basecalling de Ultima y podrían cambiar sustancialmente las conclusiones de Booeshaghi & Pachter, pero no es razonable esperar que el grupo Caltech gire constantemente una rueda de ardilla de datos. Pero ciertamente sería interesante iterar su análisis (y otros) en los datos más nuevos, pero como no puedo volver a ejecutar el análisis en los datos antiguos, no es posible realizar una comparación.

Idealmente, tendríamos una versión tanto de la química como de la basecaller en la preimpresión de Broad, pero no parece haber ninguna. Incluso en la comunidad de Oxford Nanopore, y la ONT ha sido muy abierta al respecto, los preprints y las publicaciones a menudo pierden la información crítica sobre qué tipo de poro, qué basecaller, qué versión de basecaller, qué modelo de basecalling, etc., se usaron. – sí, es una gran cantidad de minucias para recopilar, pero en realidad son minucias muy importantes para respaldar una ciencia reproducible y comparable.

El mundo científico nunca será perfecto, pero esto parece una serie de errores realmente obvios y evitables. ¿No podemos hacerlo mejor?

Fuente del artículo

¿Que te ha parecido?

Deja un comentario