5 formas de analizar sus datos ómicos sin pagar por software

Usted es un científico de la vida que realiza investigaciones de vanguardia que implican experimentos en los que recopila datos ómicos: transcriptómica, genómica, proteómica, metilación, RNASeq, ATACSeq, célula única, etc. Está trabajando en un problema emocionante y muy importante. Tiene excelentes muestras y un diseño de experimento elegante. Has realizado tus experimentos y recopilado tus datos. Ahora, solo necesita extraer de estos datos las ideas que sabe que están allí y reunir resultados convincentes que demuestren sus hipótesis. Esa es la parte del análisis de datos: transformar esos datos ómicos en conocimiento. ¿Qué harás para analizar estos datos? Llegar a este punto fue muy costoso. Hacer esos experimentos y ejecutar las muestras ya le cuesta miles o decenas de miles de dólares. ¿Cuánto le costará este análisis de datos? ¿Puedes tal vez hacerlo gratis?

Bueno, ¿qué hiciste la última vez que necesitaste un corte de pelo? ¿Te cortó el cabello un estilista estudiante o un estilista experimentado? El primero sería mucho más barato, incluso gratuito. Si no ha usado el primero, probablemente le importe, aunque sea mínimamente, su apariencia. Cuando se trata de analizar sus datos, su trabajo y su reputación científica están en juego. ¿No te importaría tu trabajo y tu posición en la comunidad científica al menos tanto como te preocupas por tu cabello?

Aquí hay 5 formas de evitar pagar por el software de análisis de datos (y sus costos ocultos):

¿Por qué pagaría por un software para analizar sus datos ómicos? Parece que hay tantas maneras en las que uno puede analizar sus datos que uno debería estar loco, o al menos imprudente, para pagar por dicho software. Examinemos estos:

1. Utilice una de las muchas plataformas de análisis de software gratuitas disponibles en línea.

El beneficio es obvio: puede analizar sus datos. Ahora. Gratis. No hay nada mejor que esto. ¿O sí?

Si bien puede parecer una excelente manera de ahorrar dinero, considere cómo el uso de tales plataformas de análisis gratuitas lo afectará a usted y a la calidad de su trabajo a largo plazo. Dicen que no existe tal cosa como un almuerzo gratis. ¿Ahorrar dinero ahora le costará más a largo plazo?

Un artículo reciente publicado en Métodos de la naturaleza trató de abordar esta pregunta (Vol. 13 No.9 | septiembre de 2016
Impacto de las anotaciones de genes desactualizados en el análisis de enriquecimiento de vías). Los autores de este artículo (que no tienen ninguna relación con nosotros) analizaron 3.900 publicaciones publicadas durante varios años antes e hicieron un descubrimiento sorprendente. Descubrieron que el 67 % de los artículos que analizaron usaban software obsoleto que capturaba solo el 26 % de los procesos y vías biológicos que se conocían en ese momento. Sí, lo leiste bien. Sobre dos tercios de estos documentos basaron sus conclusiones y hallazgos en solo alrededor de una cuarta parte de lo que se sabía en ese momento. Con resultados como este, puede estar ahorrando dinero, pero está perdiendo tiempo, esfuerzo y, potencialmente, credibilidad. Lo último que desea es escuchar de los revisores de su propuesta de subvención o documento que no consideró tal o cual vía o fenómeno que se conoce desde hace un tiempo.

Si tachamos los sitios web gratuitos de la lista, ¿qué otras opciones tenemos?

2. Pídale a uno de sus estudiantes que analice sus datos.

Las ventajas son muchas: el estudiante ya está allí, se le puede pagar de otras fuentes, necesita aprender a hacer este tipo de cosas de todos modos, etc. Además, hay muchos análisis bioinformáticos gratuitos y de alta calidad. software, como los de Bioconductor. ¿Por qué no hacer que un estudiante los use?

Sí, un estudiante existente le ahorrará dinero por adelantado, pero la calidad de los resultados no estará al mismo nivel que la de un analista de datos experimentado (sin ofender al estudiante). Primero, si está generando datos ómicos, probablemente sea un científico de la vida que entrena a estudiantes de ciencias de la vida. Eso significa que el estudiante probablemente no tenga los antecedentes y la experiencia necesarios para analizar con éxito datos ómicos complejos. Tienes estudiantes muy brillantes, pero no hay mucho que puedan aprender por su cuenta, en una nueva área. He estado usando R durante varios años, soy autor de varios paquetes en Bioconductor, aconsejé a más de 10 estudiantes de doctorado en esta área, escribí un libro sobre el uso de R y todavía no siento que domine completamente el entorno R. ¿Cómo cree que le iría a su estudiante en este sentido? Además, es fácil presionar botones y llamar a algunas rutinas escritas por otras personas, pero la habilidad crucial es poder mirar los resultados y comprender si son válidos o no, y cómo arreglar las cosas si algo no está bien. Te guste o no, existe una gran posibilidad de errores y análisis inexactos. Es posible que no extraiga de sus datos todo el conocimiento que podría obtener si se realizara un análisis adecuado. Los resultados pueden no ser convincentes. Puede terminar buscando falsos positivos que pueden retrasar su investigación varios meses. En el mundo de los negocios, a esto se le llama “costos de oportunidades perdidas”: todas las cosas invisibles e intangibles que hubieras hecho si hubieras tenido resultados correctos y completos antes. Es posible que no cumpla con fechas límite importantes, o que tenga que bajar la calificación de la revista a la que envía su próximo artículo por falta de resultados de análisis convincentes. Ninguno de estos reducirá el saldo en ninguna de sus cuentas de investigación; sin embargo, todos representan costos significativos que afectarán su posición profesional a largo plazo.

3. Contratar a un estudiante/puesto/asistente de investigación para este propósito específico.

Si hace esto, puede abordar algunos de los problemas anteriores. En principio, puede contratar a alguien con conocimientos y experiencia en ciencia de datos/análisis de datos. Dado que esta es su especialidad, es probable que sepan lo que están haciendo con sus datos. Hay un montón de software de análisis de datos de alta calidad para alguien con los antecedentes y la experiencia adecuados. Sin embargo, aquí hay algunas desventajas. En primer lugar, esta es una solución muy costosa. No está pagando por ningún software, pero probablemente esté pagando mucho más por el personal. Entre el salario, los beneficios y los beneficios, probablemente le cueste entre 45 000 y 80 000 al año mantener un analista de datos a tiempo completo en su equipo. Eso es probablemente un orden de magnitud más de lo que podría pagar por un software de análisis de datos de última generación. Además, el volumen de datos que genera puede no ser suficiente para mantener a esta persona ocupada el 100 % de su tiempo.

4. Colabora con otra persona para analizar tus datos.

Eso también suena muy bien en teoría: encuentre un colaborador que sea experto en análisis de datos, como una facultad de ciencias de la computación/estadística/bioestadística, y pídale que analice sus datos. Aquí están los problemas con esta solución. Si realmente está colaborando con un colega de la facultad, probablemente tenga su propio programa de investigación centrado en el desarrollo de métodos y algoritmos novedosos. Por lo tanto, es probable que empujen la tarea de analizar sus datos a uno de sus estudiantes o posdoctorados. Y eso devuelve sus valiosos datos a manos de un estudiante, aunque probablemente sea uno más calificado. Otra posibilidad es que su colega desarrolle un nuevo enfoque de análisis y lo use para sus datos. Eso tampoco es exactamente lo que quieres. Cuando publica su artículo, probablemente quiera usar métodos y algoritmos que sean _ya_ revisado por pares y aceptado como válido. Lo último que quieres es tener que luchar para probar la validez de tus resultados, tanto como la validez de los métodos de análisis de datos, al mismo tiempo, en el mismo documento. Por supuesto, puede esperar hasta que envíen y publiquen su nuevo método y luego publiquen su artículo, pero eso llevaría algunos meses…

5. Utilizar una instalación central de análisis de datos (p. ej., un núcleo de bioinformática o bioestadística)

Como ex director de un núcleo de bioinformática en un importante centro integral de cáncer, puedo decirles que esta no es una mala opción. Las instalaciones principales cuentan con expertos altamente calificados que definitivamente saben lo que están haciendo. Su trabajo es precisamente ayudar a personas como tú. Además, no es necesario que los pagues todo el año, sino que pagas solo cuando los necesites, durante el tiempo que los necesites. Por lo tanto, el dinero que gasta en su análisis de datos es directamente proporcional a sus necesidades (por ejemplo, la cantidad de experimentos que realiza y la cantidad de datos que genera). Las desventajas incluyen un costo relativamente alto por análisis. Las instalaciones centrales deben cubrir sus costos, incluido el espacio, el personal, el equipo y el software que utilizan; sí, la mayoría de las instalaciones centrales en realidad usan software comercial porque aumenta su productividad al tiempo que proporciona la precisión y la calidad que necesitan. Otras desventajas están relacionadas con la disponibilidad del núcleo y el tiempo de respuesta. La mayoría de los núcleos están muy, muy ocupados, por lo que es posible que deba esperar hasta que alguien de su equipo acceda a sus datos. El punto más importante sobre el uso de una instalación central es tener las expectativas correctas tanto en términos de cronograma como en términos de entregables (ver también abajo).

Entonces, ¿cuál es la mejor manera de analizar mis datos ómicos?

Cuando era el director central en mi institución anterior, a menudo obtenía datos de varios usuarios principales con la solicitud de «simplemente analizarlos». Esta no es la mejor manera de hacer ciencia. Como experto en bioinformática, yo mismo o cualquier miembro de mi equipo podía implementar las herramientas de análisis y los algoritmos más sofisticados para analizar cualquier conjunto de datos. Sin embargo, independientemente de mis conocimientos y habilidades, yo, como bioinformático, no soy la mejor persona para analizar su datos. No sé nada sobre su experimento, fenotipo o condiciones. No tengo idea de las hipótesis que llevaron al diseño del experimento que generó estos datos. por otro lado, el PI que concebidoy diseñado este experimento, son la mejor persona del mundo para analizar su datos. A veces, los IP delegan por completo el análisis de sus experimentos, ya sea a un colaborador más joven oa un núcleo. En mi opinión personal, esto es un error. El escenario que se encuentra a menudo en el que uno proporciona los datos sin procesar en un extremo, aplica un conjunto de algoritmos preestablecidos y obtiene un conjunto de tablas, figuras y otras cosas similares en el otro extremo es muy subóptimo. El análisis de datos debe ser un proceso a realizar por una persona muy experimentada, con un profundo conocimiento sobre el fenotipo, el experimento y las hipótesis que los sustentan. El análisis de datos debe ser una exploración inteligente y altamente sofisticada en la que el experto humano hace preguntas muy específicas de sus datos.

¿Cómo se puede hacer esto? No es muy difícil. Si trabaja con un colaborador o un núcleo, encuentre el tiempo para sentarse con este analista de datos y pasar juntos por este proceso. Usted, el líder del proyecto y la mente maestra detrás de los experimentos, debe hacer preguntas específicas y explicar las hipótesis que el experimento probará. Su software y/o su analista de datos deberían poder explorar estas hipótesis una por una y proporcionar evidencia para probar o refutar estas hipótesis.

Nuestro software iPathwayGuide fue diseñado con este objetivo en mente. Nuestra plataforma le permite a usted, el científico de la vida, explorar sus datos de una manera muy intuitiva, sin usar líneas de comando ni código. Con un poco de orientación de su parte, nuestro software podrá contarle la historia detrás de su experimento. Puede hacer preguntas específicas, según su conocimiento sobre el fenotipo y la hipótesis detrás del diseño de su experimento, y nuestro software identificará los mecanismos detrás de los cambios medidos. Puede hacer preguntas como «¿Cómo afectan la apoptosis mis genes expresados ​​diferencialmente involucrados en la vía MAPK y presentes en la membrana celular?» o “¿Cómo se vería afectado este mecanismo si elijo tratar a mis sujetos con el fármaco X?”. Un informe escrito generado automáticamente, la capacidad de personalizar las cifras según sus necesidades y la capacidad de compartir de forma gratuita, completan los conjuntos de capacidades que le permitirán aumentar considerablemente su productividad y avanzar rápidamente en su investigación. Nuestros clientes muy satisfechos van desde IP individuales en instituciones como Stanford, la Universidad de Chicago, Columbia, la Universidad Médica de Carolina del Sur, etc., hasta los Institutos Nacionales de Salud y las empresas de biotecnología. ¡Póngase en contacto con nosotros si desea saber cómo su investigación puede llegar al siguiente nivel!

Fuente del artículo

¿Que te ha parecido?

Deja un comentario