La forma en que interprete mi título probablemente dependa de su experiencia con tecnologías de lectura prolongada y el deseo (o la falta de él) de administrar una tienda estrictamente Illumina. Para aquellos que están acostumbrados a los datos de PacBio u ONT, Illumina CLR es un Producto Mínimo Viable, y probablemente lo dirán con un acento ácido en “Mínimo” o poniendo comillas en el aire alrededor de “Viable” (o quizás ambos). Si le gusta la idea de apegarse a Illumina y evitar complicar el flujo de trabajo de su laboratorio con múltiples instrumentos (y la inversión en múltiples instrumentos), entonces quizás lo vea como el jugador más valioso en este espacio. Y diría que los defensores de las verdaderas plataformas de lectura larga, y en particular los fabricantes de las mismas, deberían prestar atención a algunos aspectos de CLR y cómo Illumina lo está posicionando; sería una tontería que los competidores solo se burlaran de esta oferta.
Illumina CLR se basa de hecho en el enfoque Longas MorphoSeq, como se especuló durante mucho tiempo. El flujo de trabajo consiste básicamente en una ronda de etiquetado para instalar sitios de cebado de PCR, alguna forma de mutagénesis para instalar mutaciones “marcadas” en los fragmentos, PCR de largo alcance para amplificar los fragmentos marcados y luego ese ADN fluye hacia una preparación de biblioteca de etiquetado de Illumina estándar. flujo de trabajo. Tenga en cuenta que el código de barras de la muestra no puede ocurrir hasta la segunda etiquetación. La naturaleza exacta de la generación de puntos de referencia es uno de los secretos que Illumina todavía oculta. En la literatura, se han utilizado tanto el tratamiento con bisulfito débil como la PCR mutagénica. Una posibilidad interesante es tener una enzima termolábil y mutagénica como una citosina desaminasa en la primera reacción de tagmentación; esto sería eliminado por calor en la PCR inicial.
El flujo de trabajo sencillo definitivamente será un punto de venta; los verdaderos competidores de lectura larga todavía tienen flujos de trabajo que son complejos y su automatización aún no está muy extendida.
Después de la secuenciación, el software integrado en el componente FPGA de DRAGEN identifica las lecturas con puntos de referencia y las ensambla localmente para formar lecturas sintéticas o lecturas vinculadas. Lo que lleva a la primera queja del conocedor: ¿Podría Illumina dejar de afirmar que CLR no es una tecnología de lectura sintética? Hasta que NovaSeq saque lecturas de varios kilobases de la celda de flujo, las lecturas de varios kilobases que salen de NovaSeq son lecturas sintéticas. ¡Deja de intentar convencer a alguien de lo contrario, y si te has convencido a ti mismo, Illumina comienza a no convencerte a ti mismo!
Eso también nos lleva a otra falla con los mensajes de Illumina sobre CLR: no han revisado cuidadosamente sus materiales. Como señaló Mick Watson en Twitter, el diagrama que presentan muestra un solo punto de referencia, y luego un montón de lecturas que se agrupan mágicamente sin ninguna guía de punto de referencia. Eso va a ser brutalmente confuso para cualquier cliente potencial que intente comparar su comprensión de la tecnología con los materiales de marketing de Illumina.
Odio esta imagen porque no hay un vínculo evidente entre los bloques de fragmentos 2 y 3, ni entre el 3 y el 4. Este fragmento en particular no se reconstruiría. https://t.co/TZwRIbz1tm
— Mick [email protected] 🐄 (@BioMickWatson) 8 de febrero de 2023
Mientras me meto con el marketing de Illumina, ¿quién fue el genio que decidió que el inicialismo de este producto debería ser CLR, uno que ya usa el competidor PacBio? Bueno, ya no se usa mucho: Illumina ha nombrado su producto para colisionar con una oferta obsoleta de PacBio. Sin duda, generará confusión en los usuarios, ya que buscan en la literatura y encuentran documentos sobre CLR que son la oferta de PacBio. Diablos, habrá artículos futuros que hablen sobre PacBio CLR, dada la larga incubación de algunas publicaciones académicas.
Y un tiro al azar más: ¿por qué el CEO Francis de Souza dijo este otoño “estas no son lecturas estroboscópicas”? Las lecturas estroboscópicas son otra oferta de PacBio que se suspendió hace aproximadamente una década. ¿Quién comercializa diciendo “nuestro producto definitivamente no es el producto oscuro y obsoleto que nadie usó?”
Volver a Illumina CLR. Illumina está haciendo algunas afirmaciones interesantes sobre la longitud de las lecturas sintéticas generadas. Si bien la mayoría de las lecturas están en el rango de 5-6 Kb, hay algunas que llegan a alrededor de 30 kb, lo cual es bastante impresionante para la PCR de largo alcance.
Illumina también enfatiza cuán poco ADN, como en 10 nanogramos, puede entrar en el proceso y afirma que esto es una ventaja competitiva. Pero este es también uno de los parámetros que aún no han bloqueado, por lo que su “X menos que los competidores” debe tomarse con calma. Y ya es cuestionable, aunque uno debe observar cuidadosamente los métodos de preparación de biblioteca disponibles. para PacBio y Oxford Nanopore para estar seguro, y con mucho cuidado. Por ejemplo, PacBio tiene una entrada ultra baja que puede tomar alrededor de 10, pero no se recomienda para genomas tan complejos como el humano. El kit de código de barras rápido de ONT requiere solo 50 nanogramos de entrada de acuerdo con la entrada de la tienda Nanopore. También está la nueva preimpresión maravillosamente titulada “Bailando el limbo de Nanopore” que explora la generación de datos útiles de la comunidad simulada de Zymo a partir de tan solo 1 nanogramo de ADN de entrada.
Illumina también está tratando de afirmar que no requieren ninguna preparación especial de ADN. Lo cual también es cierto para los competidores, aunque para PacBio el rendimiento por ejecución (y, por lo tanto, el costo por gigabase y las ejecuciones necesarias para completar un genoma) dependen de la longitud del fragmento. Pero obtienes lo que pagas: si los fragmentos son cortos, no obtendrás tanta información de lectura larga.
Illumina mostró algunos datos interesantes sobre el abuso deliberado de muestras o la adición de contaminantes y luego la generación exitosa de datos CLR. Todo esto encaja en su narrativa de “compre CLR y no tendrá que cambiar mucho de lo que está haciendo”. Por supuesto, algunas muestras están más allá de la esperanza: si desea obtener información de largo alcance de las muestras FFPE, su única esperanza es la ligadura de proximidad, ya que el ADN mismo se corta en pedazos diminutos una vez que invierte el proceso FFPE. PacBio y Nanopore son sensibles a la calidad del ADN y las mezclas de reparación de ADN suelen ser parte del protocolo, pero no es intrínsecamente obvio por qué las muescas en el ADN no serían un problema para esa primera PCR de largo alcance (supongo que una muesca en solo se puede tolerar una hebra). Pero sería inteligente que los competidores produjeran datos similares. en el ADN del que se abusa deliberadamente para crear muescas, sitios básicos y otras lesiones.
Un gran diferenciador entre Illumina CLR y las verdaderas plataformas de lectura larga es que Illumina primero se enfoca solo en la secuenciación del genoma humano. No está claro si se trata principalmente de un requisito del software DRAGEN o si los aspectos del flujo de trabajo (¿quizás los puntos de referencia?) deben ajustarse para la complejidad de la muestra o el contenido de GC; hay más cosas que Illumina no ha revelado públicamente. Seguro que mucha gente se centra en las muestras de ADN humano, pero hay muchos otros usos interesantes para las lecturas largas verdaderas, ya sean transcriptomas (con ONT que tiene la única oferta directa de ARN), de novo genomas y mucho más.
Illumina tampoco ha publicado aún las especificaciones finales sobre cuánta capacidad de secuenciación se requerirá para generar un genoma humano. El enfoque CLR requiere un grado de sobremuestreo que puede estar en el rango de 8 a 10 veces, con un aumento similar en los costos de secuenciación y una reducción en la capacidad de secuenciación si se mide en genomas por secuenciador por unidad de tiempo. El lanzamiento del segundo producto será un kit específico que enfoca CLR en un conjunto limitado de regiones difíciles del genoma, reduciendo así la carga de sobremuestreo. No se anunciaron los detalles de este flujo de trabajo.
En cuanto al rendimiento, Illumina parece centrarse en las estadísticas de detección de SNP y llamar correctamente a los SNP en regiones difíciles y generar bloques de haplotipos. No tomé las notas adecuadas, así que no recuerdo cuánto se discutió en términos de variantes estructurales. Pensé que mencionaron algunos ejemplos, pero otros que vieron afirmaron que no. Pero en cualquier caso, ese será un gran inconveniente del enfoque dirigido: perder la capacidad de detectar variantes estructurales en regiones no dirigidas. Ciertamente, esto no amenazará el impulso de BioNano para reemplazar la citogenética; Una persona experimentada me dijo que ninguno de los médicos con los que trabajan confía en las llamadas de inversión de datos de lectura corta por estar quemado por abundantes falsos positivos.
Illumina tiene una historia curiosa en el espacio de lectura larga. Fueron y compraron Moleculo en 2013, lo comercializaron como un producto sintético de lectura larga pero no muy bien y en su mayoría fue olvidado. De hecho, vi un periódico usándolo hace solo un día, lo que me sorprendió. En colaboración con académicos, Illumina publicó varios artículos sobre Contigüity Preserving Transposition (CPT), y finalmente desarrolló un versión de un solo tubo — que se parece mucho a la tecnología de secuenciación universal TELL-Seq y los enfoques stLFR de BGI/MGI/Complete Genomics, que utilizan transposasas unidas a perlas con un código de barras específico de perlas agregado. Illumina admite análisis TELL-Seq en BaseSpace. Pero Illumina nunca comercializó CPT.
Aparte, ¿por qué TELL-Seq no ha recibido más amor? Requiere un formato de lectura muy inusual y, por lo tanto, no se puede mezclar con otros tipos de bibliotecas, pero aún parece una estrategia útil para la secuenciación de genomas y metagenomas de Illumina, pero solo hay dos o más citas en PubMed (aunque hay un montón de algoritmo documentos sobre BioRxiv, por lo que a una parte de la comunidad informática le encanta). Una explicación obvia es que la mayoría de las personas enfocadas en este tipo de datos han decidido que las verdaderas lecturas largas son el camino a seguir; si es así, eso es un mal augurio para el éxito comercial de Illumina CLR.
¿Por qué no? Una diferencia notable entre los enfoques Illumina CLR y CPT-Seq/TELL-SEq/stLFR es el proceso de fabricación más complejo para perlas con códigos de barras individuales. El proceso Moleculo y las primeras versiones de CPT requerían muchos pasos de pipeteo por muestra, por lo que está más claro por qué Illumina nunca los empujó con tanta fuerza.
Volver a Illumina CLR. Illumina también presentó citas brillantes de sitios de pruebas beta sobre la facilidad de uso del flujo de trabajo de CLR. Pero alguien en quien confío me afirmó que cada uno de los probadores CLR nombrados ha comprado un PacBio Revio, por lo que no está claro que Illumina realmente haya convencido a estos usuarios de que CLR vence a HiFi.
Entonces, en resumen, CLR está avanzando, pero aún no conocemos muchos detalles clave. Para los laboratorios que prefieren concentrarse en la secuenciación del genoma humano en Illumina, CLR ofrece una opción probablemente costosa para aumentar sus capacidades al proporcionar un grado limitado de información de largo alcance. Si dichos laboratorios optarán por usar CLR inicialmente en muestras o solo como un método reflejo para volver a probar un subconjunto limitado de muestras es una tendencia interesante a tener en cuenta.
Para la competencia, los mensajes sobre las cantidades de entrada, la calidad de la muestra de ADN y, en particular, la simplicidad y escalabilidad del flujo de trabajo deben tomarse muy en serio. El hecho de que Illumina CLR sea un flujo de trabajo simple que es muy fácil de automatizar y escalable para agrupar miles de muestras (incluso si nadie lo hará por humanos) también debe verse como una amenaza: simplemente aún no existen protocolos automatizados generalizados ( algunos de mis co-panelistas en el reciente Panel GEN Live AGBT definitivamente llamaría a los protocolos “torpe”) para las verdaderas plataformas de lectura larga y sus espacios de código de barras a menudo son limitados. Explorar la solidez de la generación de bibliotecas frente a muestras contaminadas o abusadas también debería ser una prioridad para los verdaderos competidores de lectura larga. También existe el desafío importante, pero sin duda difícil, de cambiar las conversaciones sobre el rendimiento y la precisión de los datos de las llamadas puramente SNP (muy compatibles con Illumina) a la determinación de la variante estructural. Y esperaría que los verdaderos proveedores de lectura larga insistieran en la aplicabilidad limitada de los productos Illumina CLR iniciales cuando sus plataformas pueden ejecutarse en toda la gama de especies biológicas, tanto genomas como transcriptomas, además de aplicarse a la verificación de plásmidos y varios sintéticos. aplicaciones de biología.