Inferir parámetros de evolución del cáncer en la leucemia linfocítica crónica

Citación: Lee ND, Bozic I (2022) Inferir parámetros de la evolución del cáncer en la leucemia linfocítica crónica. PLoS Comput Biol 18(11): e1010677. https://doi.org/10.1371/journal.pcbi.1010677

Editor: Jasmine Foo, Universidad de Minnesota, ESTADOS UNIDOS

Recibió: 26 de mayo de 2022; Aceptado: 24 de octubre de 2022; Publicado: 4 de noviembre de 2022

Derechos de autor: © 2022 Lee, Bozic. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de atribución de Creative Commonsque permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que se acredite el autor original y la fuente.

Disponibilidad de datos: Todo el código para análisis y simulaciones se puede encontrar en https://github.com/nathanlee543/Cancer_Inf_Sims. El manuscrito es un estudio computacional y no se han generado nuevos datos, además de los datos simulados. Los datos simulados están disponibles en el repositorio de Github. Los datos de CLL analizados provienen de trabajos publicados anteriormente (Gruber, M., Bozic, I., Leshchiner, I. et al. Growth dynamics in naturalmente progresiva leucemia linfocítica crónica. Nature 570, 474-479 (2019). https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6630176/) y se encuentra a disposición del público en los cuadros complementarios de dicha obra.

Fondos: El(los) autor(es) no recibió financiación específica para este trabajo.

Conflicto de intereses: Los autores han declarado que no existen intereses contrapuestos.

Introducción

Cuando una célula acumula una secuencia de mutaciones conductoras (alteraciones genéticas que brindan una ventaja proliferativa en relación con las células circundantes), puede comenzar a dividirse sin control y eventualmente desarrollar las características complejas de un cáncer. [1–3]. Miles de mutaciones impulsoras específicas se han implicado en la carcinogénesis, y los tumores individuales albergan desde unos pocos hasta docenas de impulsores, según el tipo de cáncer. [4]. También surgen mutaciones que no tienen un efecto significativo en la aptitud celular, tanto antes como después de la iniciación del tumor. [5]. Estas mutaciones neutrales, o «pasajeros», pueden alcanzar frecuencias detectables por deriva genética aleatoria o la selección positiva de una mutación conductora en la misma célula. [6–9]. La carga mutacional detectable por secuenciación masiva revela decenas de miles de pasajeros por tumor [10, 11].

Las tecnologías de secuenciación del genoma han revelado los perfiles genéticos heterogéneos e informativos producidos por el proceso evolutivo que impulsa la carcinogénesis. [12, 13]. Estos perfiles genéticos se han utilizado para obtener información sobre características específicas del proceso carcinogénico que opera en pacientes individuales. Por ejemplo, la función de reloj molecular de las mutaciones pasajeras se ha empleado para medir el momento de los eventos tempranos en la formación de tumores, así como para identificar etapas de tumorigénesis y metástasis. [14–22]. Otros estudios han estimado las tasas de mutación [5, 23, 24]ventajas de crecimiento selectivo de los subclones de cáncer [25–28]y el efecto de la estructura espacial en la evolución del cáncer [29–31]. Observamos que los enfoques anteriores generalmente solo estiman uno o algunos parámetros de la evolución del cáncer. Además, muchos métodos de última generación hacen uso de enfoques computacionalmente costosos. [24, 30, 32] o simplificar suposiciones, como aproximar la expansión tumoral como determinista o ignorar la muerte celular [27, 32]. Nuestro enfoque se basa en fórmulas analíticas y muestreo, que para números realistas de subclones y puntos de tiempo es eficiente y no requiere simulación de crecimiento tumoral o ajuste de modelo computacionalmente costoso.

Los modelos matemáticos de la progresión del cáncer, especialmente cuando se usan junto con datos experimentales y clínicos, pueden proporcionar información importante sobre la historia evolutiva del cáncer. [9, 19, 33–37]. Los procesos de ramificación, un tipo de proceso estocástico, se pueden usar para modelar cómo las diferentes poblaciones de células que se dividen, mueren y mutan en un tumor evolucionan con el tiempo. [38]. Su teoría y aplicaciones han sido bien desarrolladas para modelar la naturaleza de múltiples etapas del desarrollo del cáncer. [25, 29, 35, 38–40]. Aquí usamos un modelo de proceso ramificado de carcinogénesis para derivar una reconstrucción integral de la evolución de un tumor individual.

Los tumores pueden crecer durante muchos años, incluso décadas, antes de alcanzar un tamaño detectable [16]. Por lo general, las muestras de tumor utilizadas para la secuenciación se obtendrían al final de la progresión natural sin tratar del tumor. Más recientemente, la secuenciación longitudinal, en la que se secuencia un tumor en múltiples momentos durante su desarrollo, ha brindado una mejor resolución de la dinámica de crecimiento del tumor y la evolución en varios tipos de cáncer. [27, 41–44]. La leucemia linfocítica crónica (LLC) es un sistema ideal para estudiar la evolución del cáncer porque se puede monitorizar, a través de muestras de sangre periférica, sin tratamiento hasta la progresión de la enfermedad [45].

Establecemos que dos secuencias longitudinales a granel y las mediciones del tamaño del tumor son suficientes para reconstruir prácticamente todos los parámetros (tasa de mutación, tasas de crecimiento, tiempos de aparición de mutaciones conductoras y tiempo desde la mutación conductora) de la evolución del cáncer en pacientes individuales. Nuestro enfoque analítico produce fórmulas simples para los parámetros; por lo tanto, la estimación de los parámetros que rigen el crecimiento del cáncer no es computacionalmente intensiva, independientemente del tamaño del tumor. Nuestro marco hace posible una reconstrucción personalizada y de alta resolución de la línea de tiempo de eventos selectivos de un cáncer y una caracterización cuantitativa de la dinámica evolutiva de los subclones que componen la población de células cancerosas.

Resultados

Modelo

Consideramos un proceso de ramificación multitipo de expansión tumoral (Figura 1A). El crecimiento tumoral se inicia con una sola célula iniciada en el tiempo 0. Las células tumorales iniciadas se dividen con velocidad b y morir con ritmo d. Estas células ya tienen las mutaciones impulsoras necesarias para la expansión, por lo que asumimos b > d. La población de células iniciadas puede extinguirse debido a fluctuaciones estocásticas o sobrevivir a la deriva estocástica y comenzar a crecer (en promedio) exponencialmente con una tasa de crecimiento neta r = bd. Nos centraremos solo en aquellas poblaciones que sobrevivieron a la deriva estocástica.

miniatura

Figura 1. Modelo de proceso de ramificación estocástica de evolución tumoral.

( a ) Modelo de proceso de ramificación estocástica para la expansión tumoral. Las células tumorales iniciadas (azul) se dividen con la tasa de natalidad bmorir con tasa de mortalidad dy acumular mutaciones de pasajeros con tasa de mutación tu. Las células tipo 1, que portan la mutación conductora, se dividen con la tasa de natalidad b1morir con tasa de mortalidad d1y acumular mutaciones de pasajeros con tasa de mutación tu. (b) El tumor iniciado, o tipo 0, (azul) el crecimiento de la población se inicia a partir de una sola célula. Una mutación conductora ocurre en una sola célula de tipo 0 en el momento t1, comenzando la población tipo 1 (rojo). La muestra del tumor se recolecta y se secuencia a granel a veces t1 + t y t1 + t + Δ, donde la fracción del conductor es α1 y α2, respectivamente. El tamaño del tumor (en número de células) es METRO1 y METRO2 en las fechas de recolección de la primera y segunda muestra. (c) En el momento en que se observa el tumor, tiene un alto nivel de heterogeneidad genética debido a las mutaciones que se han acumulado en las poblaciones de tipo 0 (azul) y tipo 1 (rojo). Cada estrella amarilla representa una mutación pasajera diferente.

https://doi.org/10.1371/journal.pcbi.1010677.g001

En algún momento t1 > 0 se produce una nueva mutación conductora en una sola célula tumoral iniciada, iniciando un nuevo proceso independiente de nacimiento-muerte, con tasa de natalidad b1 y tasa de mortalidad d1 (Figura 1B). La tasa de crecimiento neto de las celdas con el nuevo controlador es r1 = b1d1. El nuevo impulsor aumenta la tasa de crecimiento, es decir, r1 > r. Definimos la ventaja de crecimiento selectivo del conductor por gramo = (r1/r − 1). Además, ambas poblaciones de células (con y sin conductor) acumulan mutaciones de pasajeros con tarifa tu (Figura 1C).

Después de que ocurra la mutación del controlador, un tiempo adicional t pasa antes de que se observe el tumor. Las células de tipo 0 son tumores iniciados originalmente y las células de tipo 1 contienen la mutación conductora. En Materiales y Métodos también analizamos el caso más general de dos mutaciones conductoras anidadas o hermanas, así como el caso completamente generalizado de cualquier estructura clonal que pueda surgir durante la expansión del tumor.

Estimaciones de parámetros a partir de dos mediciones longitudinales

Demostramos que con dos mediciones de secuenciación masiva longitudinal, es posible estimar con precisión las tasas de crecimiento neto, el tiempo de aparición de una mutación conductora, el tiempo entre una mutación conductora y la observación, y la tasa de mutación en el tumor. El tumor se secuencia primero en el momento de la observación, t1 + tdonde tanto el tiempo de mutación del controlador, t1y el tiempo desde la mutación del controlador hasta la observación, tson aún desconocidos (Figura 1B). Se realiza una segunda secuenciación masiva en t1 + t + Δ, un Δ conocido en unidades de tiempo después de que se observa el tumor por primera vez (Fig. 1B). Más tarde, aplicamos nuestro método a los datos CLL de la Ref. [27], donde el tamaño medio de Δ para todas las muestras de pretratamiento secuenciadas es de 1,8 años (0,6–4,9 años). En general, esperamos que en el caso de valores de Δ más pequeños, los errores de medición tengan un efecto mayor en las tasas de crecimiento estimadas, debido a un cambio menor esperado en el recuento de células cancerosas y la estructura subclonal durante un intervalo de tiempo más pequeño. A partir de los datos de secuenciación a granel, la fracción de células que portan la mutación conductora, α1 y α2se puede medir en los puntos de tiempo t1 + t y t1 + t + Δ, respectivamente. Denotamos el número total de células en el tumor en los dos puntos de tiempo de secuenciación masiva como METRO1 y METRO2. Para los cánceres líquidos, los recuentos de células de la población de células cancerosas relevantes sirven como indicadores de la progresión del cáncer. En el caso de la LLC, el recuento de glóbulos blancos (WBC) es útil como medida de la carga tumoral en la sangre periférica, ya que se toma de forma rutinaria e incluye la población de células cancerosas. Las estimaciones más precisas de la carga tumoral incluirían el recuento absoluto de linfocitos (ALC) y el número de linfocitos B. Tanto los recuentos de ALC como de WBC pueden sufrir imprecisiones debido a la prevalencia de células difuminadas en la CLL, lo que a menudo resulta en una subestimación de estos recuentos. [46].

Al equiparar los valores esperados de los tamaños de la población de tipo 0 y tipo 1 en los dos puntos temporales de secuenciación masiva con el número medido de células presentes en los clones 0 y 1, obtenemos estimaciones de las tasas de crecimiento neto de los dos subclones:
(1) (2)

A partir de las estimaciones de la tasa de crecimiento y los tamaños de los subclones, podemos aproximar el valor esperado del tiempo que tarda una población en un proceso de ramificación en alcanzar un tamaño observado. [38]. Esto da una estimación del tiempo t desde la aparición de la mutación del conductor hasta la observación:
(3)

Usando los datos de secuenciación masiva del segundo punto de tiempo, γel número de pasajeros subclonales entre las frecuencias especificadas F1 y F2, se puede medir. Uso de resultados de trabajos anteriores [47]obtenemos el valor esperado de γ (Materiales y Métodos), que se puede utilizar para estimar la tasa de mutación tu:
(4)

los metro mutaciones del pasajero que estaban presentes en la célula tipo 1 original cuando ocurrió la mutación del conductor (Fig. 1C) están presentes en todas las células de tipo 1. metro puede estimarse a partir de datos de secuenciación a granel y usarse para estimar el tiempo de aparición del conductor. Maximizamos la función de verosimilitud PAGS(metro|t1) con respecto a la hora de comparecencia del conductor, t1(ver Materiales y métodos) para obtener la estimación de máxima verosimilitud
(5)

Usando fórmulas (4) y (5), ahora podemos estimar t1.

Estimaciones verificadas en tumores simulados

Para evaluar la precisión de las estimaciones de parámetros para varios modos de evolución tumoral, simulamos el crecimiento tumoral realizando una simulación de Monte Carlo, que simula el nacimiento, la muerte y la acumulación de mutaciones en las células individuales que componen un tumor. Esta simulación genera los datos de frecuencia de mutación y tamaño del tumor utilizados por las estimaciones (ver Sección de métodos para detalles de la simulación). Simulamos tres tipos diferentes de tumores (de crecimiento lento, de crecimiento rápido y sin muerte celular), con una tasa de mutación alta y baja para cada uno (Tabla S1).

En una simulación de un tumor de crecimiento rápido con una única mutación conductora subclonal que confiere una fuerte ventaja de crecimiento selectivo del 100 %, podemos estimar con precisión las tasas de crecimiento, la tasa de mutación, el tiempo del evento conductor y el tiempo desde el evento conductor (Fig. 2A y 2B). Las tasas de crecimiento de los subclones tumorales y conductores iniciados se pueden estimar con un alto grado de precisión, logrando un error porcentual medio (MPE) de 0,03 % y -0,07 % para la tasa de mutación más baja (tu = 1) escenario. La tasa de mutación tu y estimaciones del tiempo de aparición del conductor, t1y el tiempo desde que el conductor, t, también se puede estimar con precisión, con MPE de -0,9 %, 3,8 % y -0,4 %, respectivamente. Estimaciones para tu, t1y t tienen un grado de variación algo mayor en comparación con las estimaciones de la tasa de crecimiento, debido a la aleatoriedad inherente del número de mutaciones y el tiempo para alcanzar el tamaño observado que se producen en cada realización del proceso estocástico.

Para el régimen de parámetros sin muerte celular y el régimen para un tumor de crecimiento lento, nuevamente logramos altas precisiones para las tasas de crecimiento neto (S1(A), S1(B), S2(A) y S2(B) Figs). En la tasa de mutación más baja (tu = 1) escenario, estimaciones de parámetros para la tasa de mutación tu y hora de aparición del conductor t1 se puede estimar con precisión para ambos regímenes, con MPE de -1,3 % y 4,9 % para el caso sin muerte celular, y MPE de -3 % y 3,7 % para el tumor de crecimiento lento.

Notemos que el estimador de t (tiempo transcurrido desde el evento impulsor) está sesgado, y la extensión depende de la relación entre la tasa de natalidad y la tasa de crecimiento neto, y el tamaño del tumor. La causa subyacente del sesgo se debe a una suposición simplificadora en la derivación del estimador (ver Métodos, «Derivación de estimaciones de parámetros evolutivos»), y este sesgo disminuye a medida que aumenta el tamaño del tumor y a medida que la proporción de crecimiento y tasa de división se acerca a 1. Para los tres modos principales de crecimiento en nuestro estudio, realizamos métodos Monte Carlo adicionales. simulaciones para cuantificar con precisión el efecto de la relación muerte:nacimiento y el tamaño del tumor en la precisión del estimador (Fig. S5). Para los tres modos de crecimiento, observamos una disminución monótona del error a medida que el tamaño del tumor aumenta a tamaños clínicamente más realistas. Para un tamaño de tumor de 109todos los modos de crecimiento tienen un MPE de menos del 4 %, por lo que para un tamaño de cáncer clínicamente realista: 1011 para el conjunto de datos de CLL, esperamos una precisión aún mayor.

También realizamos simulaciones de Monte Carlo para los casos más complejos de dos subclones de controladores anidados y dos hermanos (ver Métodos para la derivación de estimadores) para los mismos tres modos de crecimiento del cáncer utilizados para el caso del subclón controlador único anterior: crecimiento rápido (Fig. 2C y 2D), sin muerte celular (S1(C) y S1(D) Fig), y lento crecimiento (S2(C) y S2(D) Fig). Para dos subclones de controladores anidados, el segundo subclón de controladores también lleva la mutación de controladores de su subclón parental (S4 (A) Fig). Para dos subclones de controladores hermanos, los controladores ocurren en subclones separados (S4 (B) Fig). Las estimaciones de la tasa de crecimiento muestran una buena concordancia con los valores de verdad básicos, con MPE cercanos a 0. Las estimaciones de la tasa de mutación también tienen una buena precisión, con valores absolutos de sus MPE todos ≤4%. En cuanto a los casos de subclones individuales ya discutidos, las estimaciones de tiempo para las simulaciones de subclones anidados y hermanos tienen una mayor variación. La estimación de t—tiempo entre la última mutación del controlador y el diagnóstico— muestra una buena precisión para los tumores de crecimiento rápido, pero errores mayores para los casos sin muerte celular y de crecimiento lento. Tanto para las simulaciones anidadas como para las hermanas, las estimaciones para los tiempos de las mutaciones del controlador 1 y 2 (t1 y t2respectivamente) tienen MPE inferiores al 6%.

miniatura

Figura 2. Precisión de las inferencias de parámetros a partir de datos simulados.

Simulamos el crecimiento del tumor realizando una simulación de Monte Carlo, que simula el nacimiento, la muerte y la acumulación de mutaciones en las células individuales que componen un tumor, y genera los datos de frecuencia de mutación y tamaño del tumor utilizados por las estimaciones. Las simulaciones son de tumores de crecimiento rápido con (a) subclon conductor único y tasa de mutación tu = 1, (b) subclon de controlador único y tu = 3, (c) dos subclones de controladores anidados con tu = 1, y (d) dos subclones de controladores hermanos con tu = 1. Los errores porcentuales medios (MPE) de las estimaciones se muestran en negro sobre las gráficas, y los errores porcentuales absolutos medios (MAPE) se muestran en gris. Los recuadros contienen los cuartiles 25 a 75, con la mediana indicada por una línea negra horizontal gruesa. Los bigotes de los diagramas de caja indican los percentiles 2,5 y 97,5. Los violines son estimaciones de densidad suavizadas de los puntos de datos de porcentaje de error. Los valores completos de los parámetros y el número de ejecuciones se incluyen en la tabla S1.

https://doi.org/10.1371/journal.pcbi.1010677.g002

Corrección de recuentos de mutaciones observados a partir de datos de secuenciación del genoma

Observamos que en nuestra estimación del tiempo de aparición del conductor, t1 (ver fórmula (5)), utilizado para la comparación con datos simulados, empleamos una corrección para metroel número de mutaciones que estaban presentes en la célula fundadora tipo 1 en t1. A partir de los datos de secuenciación, estos metro las mutaciones son indistinguibles (Fig. 3A) de las mutaciones que ocurrieron después t1 en células tipo 1 y alcanzó la fijación en la población tipo 1 [47]. Así, el valor de metro observado a partir de datos de secuenciación, metroobservaciónsobreestimará la verdad metro. En Materiales y Métodos mostramos que el valor esperado del número de pasajeros que ocurrieron después t1 y la fijación alcanzada en la población de tipo 1 es tu/r1. Restamos este factor de corrección de metroobservación:
(6)

miniatura

Fig. 3. Correcciones para recuentos de mutaciones observadas.

(a) Si las mutaciones de los pasajeros (círculos con estrellas) que ocurren después de que el conductor alcanza la fijación en la población de conductores (rojo), entonces son indistinguibles de los pasajeros que estaban presentes en la primera celda con el conductor, que se acumularon en el tipo- 0 población (azul). La estimación de cuándo se produjo el impulsor debe tener en cuenta estas mutaciones (encerradas en un círculo). En (b), comparamos los errores porcentuales de las estimaciones de parámetros para el tiempo desde el inicio del tumor hasta la aparición de un subclon conductor, t1, con y sin esta corrección (Ec. (6)). Los errores de la estimación con corrección se muestran en azul y los de la estimación sin corrección (ecuación (5)) en naranja. Los errores se trazan como una estimación de la densidad del núcleo para las simulaciones de Monte Carlo de un tumor de crecimiento lento con tasa de mutación tu = 5. Se enumeran los errores porcentuales medios (MPE) y los errores porcentuales absolutos medios (MAPE). (c) Las mutaciones presentes en dos o menos lecturas variantes (rojo) se filtran en el posprocesamiento. Se incluyen mutaciones con más de dos lecturas variantes (negro). El número de mutaciones subclonales entre frecuencias. F1 y F2, γ, que se utiliza en la estimación de la tasa de mutación, debe corregirse para las mutaciones que se filtran. En (d), el porcentaje de errores para el observado (naranja) y corregido (azul) γ (Eq (7)) se trazan como estimaciones de la densidad del kernel. Las mutaciones observadas son aquellas que pasaron el posprocesamiento, es decir, aquellas que tienen más de L = 2 lecturas mutantes. Las frecuencias de mutación verdaderas se generaron a partir de 135 ejecuciones supervivientes de una simulación de Monte Carlo de un tumor de crecimiento rápido con tasa de mutación tu = 1, a partir del cual se simularon lecturas de secuenciación con una cobertura promedio de 200x (ver Materiales y métodos). Los errores porcentuales se calculan en relación con el verdadero γ medida a partir de las verdaderas frecuencias de mutación.

https://doi.org/10.1371/journal.pcbi.1010677.g003

La corrección por el metro mutaciones presentes en la célula tipo 1 original (6) en el momento t1 mejora la precisión de la estimación del tiempo de aparición de la mutación del controlador t1. Para el tumor de rápido crecimiento con tasa de mutación tu = 1 (S3(A) Fig), la corrección reduce el error porcentual medio (MPE) de la t1 estimación de 14,0% a 3,8%. Para el tumor de crecimiento lento con tasa de mutación tu = 5 (Fig. 3B), la corrección reduce el MPE del t1 estimación de 22,0% a 5,7% (Fig. 3B).

Otro problema surge al obtener el recuento de mutaciones γnúmero de mutaciones con frecuencia entre F1 y F2, a partir de datos de secuenciación del genoma. Cuando los datos de secuenciación se procesan posteriormente mediante el filtrado de mutaciones con L o menos lecturas variantes, las mutaciones de baja frecuencia serán difíciles de detectar [35] (Figura 3C). Para una muestra con una cobertura de secuenciación promedio de R y pureza del tumor pagsmutaciones con frecuencia de alelo mutante por debajo L/(relaciones públicas) normalmente no será observable. Como resultado, dado que las mutaciones con frecuencias entre F1 y F2 Cuenta hacia γsi F1 ≤ 2L/(relaciones públicas), el número observado de mutaciones subclonales entre frecuencias F1 y F2, γobservaciónsubestimará el valor real, γ. Para los cánceres con una carga mutacional baja, como la CLL, establecimos un nivel relativamente bajo F1 (1%) para tener suficiente resolución para inferir la tasa de mutación. En consecuencia, algunas mutaciones con frecuencia superior F1 probablemente se filtrarán, y lo explicamos al corregir el número esperado de tales mutaciones subclonales presentes en las frecuencias de células cancerosas (CCF) entre F1 y 2L/(relaciones públicas) (ver Materiales y métodos):
(7)

Antes de aplicar nuestra metodología a los datos de secuenciación de pacientes, estimamos la validez de la corrección anterior aplicada a los recuentos de mutaciones simuladas observadas. Cuando simulamos lecturas de secuenciación a partir de frecuencias de mutación simuladas (ver Materiales y métodos) y post-proceso mediante la eliminación de mutaciones con L = 2 o menos lecturas de variantes, el ajuste que derivamos para el recuento de mutaciones γ (7) es fundamental, incluso para una cobertura de secuenciación promedio de 200x (Fig. 3D). Sin ninguna corrección, lo observado γ tiene MPE de -53.3% en comparación con el verdadero γpero con la corrección, el calculado γ tiene MPE de -1.4%. Cuando la cobertura promedio es 100x, esta corrección se vuelve aún más importante, ya que se descartan muchas de las mutaciones de baja frecuencia (S3 (B) Fig). Sin ninguna corrección, lo observado γ tiene MPE de -79.7%. Con la corrección calculada γ tiene MPE de -3.4%. La exactitud de la γ la medición afecta nuestra estimación de la tasa de mutación (4).

Estimación de parámetros para pacientes individuales con CLL

Usamos nuestras fórmulas para inferir los parámetros de evolución del cáncer específicos de cada paciente para cuatro pacientes con CLL cuyos patrones de crecimiento y dinámica clonal se analizaron en [27]. A estas CLL se les midieron los recuentos de glóbulos blancos periféricos y se realizó la secuenciación del exoma completo (WES) al menos dos veces antes del tratamiento. Consideramos pacientes cuyos recuentos de glóbulos blancos se clasificaron con un patrón de crecimiento de tipo exponencial, con promedio γobservación > 2 y con 3 o menos subclones macroscópicos (es decir, subclones con fracciones de células cancerosas del 20 % o más durante al menos un punto de tiempo previo al tratamiento). Nuestro marco está diseñado específicamente para estudiar la dinámica del cáncer que evoluciona naturalmente, sin ser perturbada por el tratamiento, que alterará drásticamente la dinámica y el tamaño del cáncer. Para el cálculo de la γobservación mutaciones entre frecuencias F1 y F2establecimos F1 = 1% por la dificultad de detectar variantes de baja frecuencia F2 al 20% para minimizar la superposición con posibles mutaciones impulsoras de los subclones macroscópicos. La media γobservación para los cuatro pacientes analizados oscila entre 2,5 y 19,3, con una mediana de 5,2. Como en la ref. [27]realizamos reconstrucción subclonal para cada paciente usando PhylogicNDT [43]. Para obtener intervalos de confianza para nuestras estimaciones de parámetros, utilizamos un procedimiento de muestreo para tener en cuenta las incertidumbres del modelo y la medición, incluidas las incertidumbres en las frecuencias de los subclones, las curvas de crecimiento ajustadas y el proceso de Poisson para la acumulación de mutaciones (consulte Materiales y métodos). Para el tumor de cada paciente, calculamos estimaciones de la tasa de crecimiento de cada clon, la tasa de mutación del exoma, las veces que surgió cada subclon y cuánto tiempo se expandió cada subclon antes de que se detectara el tumor (Tablas 1 y 2). También estimamos en qué momento el cáncer fue clínicamente detectable, tomando muestras de la distribución de parámetros de crecimiento ajustados y resolviendo el problema de búsqueda de raíces resultante para que el tiempo alcance un tamaño detectable en nuestro modelo de crecimiento (consulte Materiales y métodos). Para la CLL específicamente, calculamos el tiempo de leucocitosis, un recuento de glóbulos blancos anormalmente alto. Reconstruimos estas historias para tumores con varias estructuras clonales.

miniatura

Tabla 1. Parámetros inferidos para pacientes con LLC con patrones de crecimiento exponencial, para los cuales hay al menos dos mediciones de secuenciación masiva longitudinales antes del tratamiento.

Las estimaciones se calculan a partir de las mediciones del tamaño del tumor y las frecuencias de mutación de la secuenciación del exoma completo. Las tasas de mutación son solo para el exoma. Las estimaciones de tiempo son en términos de la edad del paciente en años.

https://doi.org/10.1371/journal.pcbi.1010677.t001

miniatura

Tabla 2. Intervalos de confianza para parámetros inferidos para pacientes con LLC con patrones de crecimiento exponencial, para los cuales hay al menos dos mediciones de secuenciación masiva longitudinales antes del tratamiento.

Las estimaciones se calculan a partir de las mediciones del tamaño del tumor y las frecuencias de mutación de la secuenciación del exoma completo. Las tasas de mutación son solo para el exoma. Las estimaciones de tiempo son en términos de la edad del paciente en años.

https://doi.org/10.1371/journal.pcbi.1010677.t002

Los pacientes 3 y 21 son ejemplos de LLC con un único subclon (Figura 4). Para el paciente 3, el clon 0, el ancestro común más reciente (MRCA) de la LLC de este paciente, se inició cuando el paciente tenía 14,6 años. [1.4, 26.8] años (mediana y [95% confidence interval] de estimación). El clon 0 creció con una tasa de crecimiento neta de 0,51 [0.20, 0.85] por año. Aproximadamente dos décadas después, se inició el Clon 1 cuando el paciente tenía 33,5 años. [24.1, 39.2] años. El clon 1 se expandió con una tasa de crecimiento de 0,85 [0.65, 1.04] por año (correspondiente a una ventaja de crecimiento selectivo del 68,7% sobre el Clon 0), y el paciente fue diagnosticado aproximadamente tres décadas después a los 63 años.

miniatura

Figura 4. Reconstruyendo la línea de tiempo de la evolución de la LLC en pacientes.

Aplicamos nuestra metodología para estimar las tasas de crecimiento subclonal, las tasas de mutación y los plazos evolutivos en los tumores CLL de la Ref. [27]. La altura vertical de un clon representa su registro10-Tamaño a escala. Las mutaciones se agruparon en clones y los árboles filogenéticos se infirieron utilizando PhylogicNDT [43]. Los bordes de los árboles están coloreados por el número de clon y están etiquetados con las mutaciones del controlador, si las hay. Para cada paciente, mostramos estimaciones de la edad del paciente al inicio de la LLC y los tiempos de aparición de los subclones de LLC. La línea blanca discontinua indica cuándo se diagnosticó al paciente. Las flechas negras sólidas indican los tiempos de las mediciones de secuenciación masiva.

https://doi.org/10.1371/journal.pcbi.1010677.g004

Para el paciente 21, estimamos que el clon parental (MRCA, Clon 0) de la LLC de este paciente se inició cuando el paciente tenía 6,4 años. [0.3, 16.7] años, y creció con una tasa neta de crecimiento de 0.79 [0.30, 1.14] por año. El clon 1 apareció cuando el paciente tenía 19,6 [10.8, 24.0] años, y creció más rápidamente que el Clon 0, con una ventaja de crecimiento selectivo de ~90% sobre el Clon 0). El clon 1 contenía una mutación FGFR1, que podría haber estado actuando como impulsor del aumento de la proliferación neta. El clon 1 luego creció durante ~15 años antes de que el paciente fuera diagnosticado a los 35 años.

Los pacientes 6 y 9 presentan estructuras clonales más complejas (Figura 4). El clon 0, el clon parental de la LLC del paciente 9, surgió cuando el paciente tenía 4,9 años. [1.2, 10.8] años, y tuvo una tasa de crecimiento de 0.28 [0.17, 0.42] por año. El clon 1 surgió cuando el paciente tenía 18,8 [8.8, 35.1] años. Curiosamente, durante la observación clínica entre el diagnóstico y el tratamiento, el Clon 1 disminuyó de tamaño, con una tasa de crecimiento de -0,40 [-0.45, -0.19] por año. En línea con hallazgos recientes [50], encontramos que a veces la tasa de crecimiento estimada durante el período de observación, como la tasa de crecimiento negativa del Clon 1, es menor que la tasa de crecimiento mínima posible necesaria para alcanzar el tamaño del clon observado. En ese caso, para calcular la tasa de mutación, el tiempo de los impulsores, el tiempo de detección y el tiempo entre los impulsores y el diagnóstico, usamos la tasa de crecimiento mínima. El clon 2, que contenía una mutación KRAS, tuvo la mayor tasa de crecimiento neto de los tres clones (0,67 [0.49, 0.94] por año), lo que corresponde a una ventaja de crecimiento selectivo del 140,9% sobre el clon parental. El clon 2 surgió cuando el paciente tenía 21,3 [7.7, 31.7] años.

Estimamos que la LLC del paciente 6 se inició cuando el paciente tenía 2,8 [0.1, 13.2] años. El clon parental leucémico, Clon 0, luego creció a una tasa de 0.68 [0.15, 1.30] por año. Aproximadamente 33 años después de la aparición del Clon 0, cuando el paciente tenía 35,4 [21.7, 46.1] años, apareció el primer subclón, el Clon 1. El clon 3 surgió dentro del clon 1 cuando el paciente tenía 45,9 años. [31.3, 54.6] años. El clon 3 albergaba una mutación impulsora en ASXL1 y tenía una ventaja de crecimiento selectivo del 60,8 % sobre el clon 0. El paciente fue diagnosticado a los 58 años y finalmente necesitó tratamiento 12,0 años después del diagnóstico.

La tasa de mutación promedio en los cuatro pacientes con LLC que analizamos es de 0,30 mutaciones/año. Esta tasa es superior al exoma, que representa aproximadamente el 1% del genoma humano. Nuestra tasa de mutación estimada promedio en los exomas de CLL es similar a la tasa de acumulación de mutaciones medida en tejidos humanos de 40 mutaciones por año en todo el genoma. [51]. Otro trabajo reciente ha estimado una tasa de mutación de 17 mutaciones por año en células madre hematopoyéticas humanas/progenitores multipotentes [52]. Nuestras tasas de mutación estimadas durante la progresión de la CLL están a la par o son más altas que las estimaciones recientes en células hematopoyéticas sanas [52], en línea con la expectativa de que las tasas de mutación pueden aumentar en el cáncer. Los tiempos estimados de aparición de los subclones CLL son muy largos, del orden de 10 años o más. Este hallazgo está de acuerdo con los resultados de Gruber et al. [27], que encuentran pocos subclones CLL nuevos durante años a una década de evolución. Observamos que el inicio de la CLL ocurrió temprano en la mayoría de los pacientes, dentro de los primeros quince años de sus vidas, de acuerdo con trabajos recientes en otros tipos de cáncer. [19, 36]. Encontramos que los pacientes con CLL alcanzan la leucocitosis un promedio de 1,5 años antes del primer momento en el que se realizó la secuenciación del genoma del cáncer. Para tres de los pacientes, nuestro tiempo estimado de leucocitosis fue antes del diagnóstico, en promedio 1,3 años antes del diagnóstico.

Discusión

Usamos un modelo de proceso de ramificación estocástica para reconstruir el momento de los eventos impulsores y cuantificar la dinámica evolutiva de diferentes poblaciones subclonales de células cancerosas. Estimamos las tasas de crecimiento de los subclones tumorales, la ventaja de crecimiento selectivo de las mutaciones conductoras individuales, la tasa de mutación en el tumor, el tiempo entre el inicio del tumor y la aparición de una mutación conductora subclonal, y el tiempo entre la mutación conductora y la observación del tumor. Juntos, esto nos permite estimar la edad del paciente al inicio del tumor, así como la edad de aparición de un conductor subclonal.

El trabajo anterior ha calculado el orden relativo de los eventos del controlador [18, 21, 53]mientras que otros estudios han proporcionado estimaciones para las tasas de mutación escaladas y el tiempo de los eventos [24, 32]. Sin embargo, presentamos estimaciones para tiempos y tasas de mutación absolutas, sin escalar, que son fácilmente interpretables y no dependen implícitamente de parámetros desconocidos. Suponemos que las mutaciones se acumulan con el tiempo, lo que simplifica las derivaciones y está respaldado por datos experimentales recientes que muestran que las células que no se dividen pueden acumular mutaciones a un ritmo similar al de las células que se dividen. [54]. Otras posibles suposiciones con respecto a la acumulación de mutaciones incluyen mutaciones que ocurren en la división celular [55] o suponiendo que la tasa de mutación es proporcional al estado del número de copias [56]. Por ejemplo, un trabajo reciente informó que algunas firmas mutacionales en cánceres humanos se generan durante la mitosis. [55]. Otro trabajo ha demostrado que la tasa de acumulación de variantes somáticas de un solo nucleótido es proporcional al número de copias. [56]. Suponemos además que todas las subpoblaciones de cáncer tienen la misma tasa de mutación de pasajeros. En el caso de que las mutaciones ocurran predominantemente en la división celular, suponiendo que la tasa de división celular sea comparable en todos los subclones tumorales, nuestras estimaciones seguirían siendo válidas. En el caso de un subclón que tenga una tasa de mutación elevada (p. ej., debido a una amplificación cromosómica, una mutación en un gen de la vía de reparación del ADN o una tasa de división celular aumentada), subestimaríamos la tasa de mutación y sobrestimaríamos el tiempo de la(s) mutación(es) impulsora(s). ) en ese subclón. En los otros subclones, lo contrario sería cierto.

Para CLL individuales que se sometieron a secuenciación masiva en dos puntos de tiempo [27], inferimos las tasas de crecimiento de los subclones individuales, la tasa de mutación en el tumor, los momentos en que los subclones de cáncer comenzaron a crecer, el tiempo entre las mutaciones impulsoras y el diagnóstico del paciente, y el momento en que el cáncer es clínicamente observable. Nuestras inferencias están limitadas por el número relativamente bajo de mutaciones presentes en la CLL, así como por la cobertura de la secuenciación. [27], por lo que establecemos un recuento mínimo de mutaciones de pasajeros al seleccionar casos específicos para analizar. Se espera que la precisión de las estimaciones presentadas aquí sea mayor con la secuenciación del genoma completo disponible, con una mayor cobertura de secuenciación o en tipos de cáncer con más mutaciones, con algunas limitaciones importantes. El crecimiento exponencial, el comportamiento medio de nuestro modelo de proceso de ramificación, ha sido bien documentado in vivo [27, 57–59]pero los tumores a menudo también pueden exhibir un crecimiento sigmoidal (por ejemplo, modelos logísticos de Gompertz), donde el crecimiento exponencial inicial es seguido por una desaceleración en el crecimiento [58, 60–63]. Nuestros estimadores solo deben usarse para cánceres que muestren un crecimiento exponencial; para otros modos de crecimiento, como la clase de crecimiento logístico de pacientes con LLC en la Ref. [27], las estimaciones de los parámetros tendrían que derivarse específicamente para el modo particular de crecimiento observado. El crecimiento exponencial es el patrón de crecimiento del cáncer común más simple y, sin embargo, estimar las tasas de crecimiento exponencial requiere al menos dos puntos de tiempo longitudinales. Para ajustar todos los parámetros para pacientes con dinámicas de crecimiento más complejas, se necesitarán muestras longitudinales adicionales; este tipo de análisis estaría aún más limitado debido a la escasez de muestras longitudinales previas al tratamiento en muchos tipos de cáncer. En el caso de tumores sólidos, el número de células se puede estimar a partir de mediciones del volumen del tumor. [64], sin embargo, potencialmente se necesitarían múltiples biopsias para tener en cuenta completamente la heterogeneidad genética existente. Además, la estructura espacial, el modo de evolución y la recolección de biopsias de un tumor sólido influyen en qué tan bien se pueden observar los espectros de selección y mutación. [30, 31, 65]. El trabajo computacional y de modelado reciente, en combinación con la secuenciación cuidadosa de varias regiones y la secuenciación de una sola célula, han comenzado a desentrañar estos factores de confusión. [26, 29, 30].

Nuestro modelo y las derivaciones asumen una tasa de mutación fija tu después de la transformación y tasas de crecimiento fijas de los subclones de cáncer, similar a los enfoques anteriores [24, 30, 35]. Algunos subclones de cáncer individuales (como el Clon 1 de Pt. 9) no solo no crecen exponencialmente, sino que en realidad disminuyen en números absolutos de células, incluso si el tumor en general está experimentando una expansión. Este fenómeno ha sido observado previamente [27, 66], y podría deberse a que el subclón en declive es superado por subclones más aptos. Los eventos repentinos de inestabilidad genómica, o un cambio en la mutación del cáncer y/o la tasa de crecimiento a lo largo del tiempo también podrían introducir errores en nuestras inferencias de parámetros. Los datos de secuenciación recientes apuntan a procesos mutacionales que cambian con el tiempo durante la evolución del cáncer [20, 67]; la incorporación de posibles cambios en la mutación y/o la tasa de crecimiento en el modelo requeriría una densidad mucho mayor de secuenciación y datos clínicos [37]al igual que emplear un modelo de crecimiento más complejo (por ejemplo, crecimiento sigmoidal o impulsado por los límites).

materiales y métodos

Modelo de proceso de ramificación de la evolución tumoral.

Empleamos un modelo continuo de proceso de ramificación de múltiples tipos de evolución del cáncer. Para el caso de un subclón de un solo controlador, hay dos tipos de celdas, tipo 0 y tipo 1. La expansión tumoral es iniciada por una única célula tumoral de tipo 0 o iniciada. Las células tipo 0 se dividen con la tasa b y morir con ritmo darrojando una tasa neta de crecimiento de r = bd. En el momento t1, se introduce una única mutación conductora en una célula seleccionada al azar en la población tipo 0, fundando una nueva población de células tipo 1. Esta población de tipo 1 experimenta su propio proceso de ramificación independiente. Se dividen con tasa b1morir con tasa d1y tienen una tasa de crecimiento neta r1 = b1d1. Si la mutación conductora le da a las células de tipo 1 una ventaja de crecimiento selectivo sobre la población de tipo 0, entonces r1 > r. Con las proporciones de las tasas de crecimiento indicadas como s = r1/rla ventaja de crecimiento se puede cuantificar como gramo = (s − 1) ⋅ 100%. En el caso de evolución neutra, gramo = 0. Si hay una ventaja selectiva, gramo > 0. Las mutaciones neutras, o pasajeros, no tienen efecto sobre la aptitud de la célula y se acumulan según un proceso de Poisson con tasa tu. Asumimos un modelo de alelos infinitos tal que no hay retromutación y un modelo de sitios infinitos tal que cada nueva mutación pasajera es única. Solo se consideran las poblaciones supervivientes. Todas las derivaciones a continuación estarán condicionadas a la supervivencia. Las poblaciones de tipo 0 y tipo 1 en el momento t se denotará como X0(t) y X1(t), respectivamente.

Medidas suficientes para determinar la historia evolutiva

Aquí obtenemos estimaciones de los parámetros que describen el proceso cancerígeno para un solo subclon conductor, utilizando medidas tomadas en dos puntos de tiempo tardíos en el desarrollo del tumor. Requerimos la secuenciación del tumor en los dos puntos de tiempo, cuando el tumor se observa por primera vez en el momento desconocido t1 + t y un Δ especificado más tarde, en t1 + t + Δ. A partir de estas dos mediciones de secuenciación masiva, obtenemos mediciones de α1 y α2la fracción de células que portan la mutación conductora en t1 + t y t1 + t + Δ, respectivamente. Además, a partir de la secuenciación masiva en t1 + t + Δ, obtenemos medidas de metroel número de mutaciones presentes en la célula fundadora tipo 1, así como γel número de mutaciones con frecuencia entre las especificadas F1 y F2. El tamaño total de la población en estos momentos, METRO1 y METRO2también se mide.

valor esperado de γnúmero de mutaciones subclonales

Para una población que consta de un solo clon con tasas de natalidad y mortalidad b y del número esperado de mutaciones subclonales presentes a una frecuencia mayor que F se muestra que es [47]
(8)

dónde d = d/b y es la probabilidad de que una célula hija adquiera una nueva mutación pasajera en la división celular. En este artículo, permitimos que ocurran mutaciones en cualquier momento y consideramos la tasa de mutación absoluta por célula, tuque es igual a . Entonces, el número esperado de mutaciones subclonales entre F1 y F2, es
(9) (10)

dónde r = bd > 0.

Ahora derivamos en el caso de los clones 0 a kcada clon con tasa de crecimiento ri > 0 y fracción . cada clon i posee pasajeros subclonales esperados entre frecuencias F1 y F2. Así, el número total esperado de pasajeros con frecuencias entre F1 y F2 es
(11)

Para el caso más simple que consideramos, un tumor con una única mutación conductora que ocurre en la población tumoral iniciada, existe una población tipo 0 con una tasa de crecimiento r y una población tipo 1 con tasa de crecimiento r1. La ecuación (11) se reduce a
(12)

dónde α es la fracción de células que tienen la mutación conductora.

Derivación de estimaciones de parámetros evolutivos para subclones de un solo controlador

Con el bulto del cáncer secuenciado en los dos puntos de tiempo t1 + t y t1 + t + Δ, podemos derivar estimaciones para t1, t, r, r1y tu. Primero resolvemos para r y r1basado en los recuentos de células estimados en t1 + t y t1 + t + Δ. El tipo observado-i el conteo de celdas se equipara al valor esperado del tipo-i tamaño de la población, condicionado a la supervivencia. Para un proceso de nacimiento-muerte iniciado con un solo tipo-i celda en el tiempo 0, tenemos . Ese proceso tiene probabilidad de extinción. di/bi [38]. Después,
(13)
(14) (15)

dónde es una variable aleatoria y una función indicadora definida como

Así, desde (15), durante un tiempo suficientemente grande t,
(dieciséis)

Entonces se sigue que para la población tipo 0,
(17) (18)

Procediendo de manera similar para la población tipo 1, obtenemos
(19) (20)

El valor esperado de la primera vez que una población de células tipo 1 en un proceso de ramificación alcanza el tamaño observado α1METRO1 es [38]
(21)
(22) (23) (24)

La última aproximación se justifica porque para conteos de celdas realistas, el primer término en (23) domina a los otros dos, lo que también es evidente en los estudios de simulación (S5 Fig). Por ejemplo, si entonces el segundo término log(r1/b1) = −0,69, en comparación con el primer término log(α1METRO1) = 19.11. Incluso si r1 es tan bajo como 0.1b1, el segundo término es -2.30. En este caso, el error porcentual de la aproximación (24) es del 7,3%. En general, la precisión aumenta con el aumento del tamaño del tumor.

Con la medida de γel número de pasajeros subclonales con frecuencia entre F1 y F2podemos estimar la tasa de mutación tu. En la sección anterior derivamos el valor esperado de γ como
(25)

Usando las estimaciones de r y r1 de (19) y (20), y el valor medido de γ a partir de la segunda secuenciación masiva, la ecuación (25) se puede resolver para la tasa de mutación tu,
(26)

Al estimar la tasa de mutación para los pacientes con LLC de la Ref. [27], para el que hay una secuenciación masiva en dos o más puntos de tiempo, promediamos la tasa de mutación calculada en cada uno de estos puntos de tiempo. (26) se aplica para cada punto de tiempo con los respectivos CCF y se observa γ valores para cada punto de tiempo.

Para derivar las estimaciones de máxima verosimilitud de t1consideramos la función de verosimilitud PAGS(metro|t1). El número de mutaciones pasajeras presentes en la célula fundadora tipo 1 que apareció en el momento t1 es un proceso de Poisson con tasa tu. De este modo,
(27)

Maximizando el logaritmo de la función de verosimilitud con respecto a t1 produce un MLE para t1 en términos de cantidades estimadas o medidas:
(28)

Simulación de evolución tumoral y datos de secuenciación

Para evaluar la precisión de los resultados analíticos, realizamos una simulación Monte Carlo de tiempo continuo para modelar la evolución del tumor y la recopilación de datos de secuenciación con una implementación del algoritmo de Gillespie. [68]. Las simulaciones están escritas en C/C++.

El tipo-j la población tiene tasa de división bjíndice de mortalidad djy tasa de mutación tu. Las mutaciones pueden ocurrir en cualquier punto del ciclo celular, no solo durante la división. znorte es el número de tipo-j celdas con pasajero norte como su mutación pasajera más reciente. La población de tipo 0 se inicia con una sola celda en el tiempo 0, y el tipo-j población para kj > 0 se inicia con una sola celda a la vez tj. Dejar a ser el vector que registra el ancestro de nuevas mutaciones. Elemento ai es el ancestro subclonal del iª mutación del pasajero. Para cada j ∈ 0, 1, …, krepita 1–4 mientras el tiempo es menor que tk + t + Δ.

  1. Establecer Γ = nortej(bj + dj + tu). El incremento de tiempo hasta el tiempo del próximo evento se muestrea aleatoriamente desde Exp[Γ].
    • Si j ksi el tiempo es mayor o igual que tj+1 por primera vez, seleccione al azar el tipo-j subclon i para tener una mutación del controlador, elimine una celda del tipo-j contar la población y establecer nortej+1 = 1. Registre el valor verdadero de metroj+1el número de mutaciones de pasajeros presentes en el tipo fundador-(j + 1) celda.
  2. Célula seleccionada al azar, con la mutación del pasajero más reciente ipara tener el evento.
  3. Determine qué tipo de evento y actualice la población y las frecuencias de mutación. Muestra Y de uniforme[0, Γ] para determinar el tipo de evento:
    1. y ∈ (0, bj) → nacimiento. , .
    2. y ∈ (bj, bj + dj) → muerte. , .
    3. y ∈ (bj + dj, bj + dj + tu) → mutación pasajera. Supongamos que es el pagsel pasajero, , zpags = 1. Actualizar antepasado: apags = i.
  4. Para j = 0, si el tiempo es menor que t1 y la población se extingue, reiniciar la simulación. Para j ≥ 1, si el tiempo es mayor que tj y la población se extingue, reinicie el tipo-j simulación en tj con una sola celda.
  5. Vuelva a indexar para eliminar las mutaciones de pasajeros extintos y retroceda a través del vector ancestral a para sumar el número total de celdas con cada pasajero.

Las mediciones se toman en tiempos de secuenciación masiva tk + t y tk + t + Δ. Si el tiempo es mayor o igual que tk + tMedimos y CCF del clon j como nortej/METRO1. Luego, se toma una medición de secuenciación masiva adicional en el momento final tk + t + Δ, donde medimos y el CCF del clon j como nortej/METRO2. A tk + t + Δ, medimos γel número de mutaciones con frecuencia entre F1 y F2.

Para medir metroj,observaciónel número observado de pasajeros en el tipo fundador-j celda, contamos el número de pasajeros presentes en todos los tipos-j células. También guardamos el verdadero valor de metroj.

Porque cuando calculamos un porcentaje de error de corregido y observado γ valores en Fig 3D y S3 (B) Fig, simulamos datos de secuenciación mediante el muestreo de las frecuencias de mutación obtenidas en la simulación de Monte Carlo, descrita anteriormente, utilizando el enfoque de [35]. Defina la cobertura de secuenciación promedio como Rnúmero de células en el momento de la secuenciación como METRO, Zi como el número de células con mutación i, Ri como cobertura de lectura, y xi como la verdadera frecuencia de mutación de la simulación de Monte Carlo. Para cada ejecución de simulación de Monte Carlo guardada, repita lo siguiente 100 veces:

  1. Generar cobertura de lectura: Ri ∼ Binomial[M, R/M].
  2. Generar número de células portadoras de mutación. i: Zi ∼ Binomial[Ri, χi/2].
  3. Postprocesamiento. Si hay L = 2 o menos lecturas variantes, descartar mutación.
  4. Medida γobservaciónel número observado de mutaciones subclonales entre frecuencias F1 y F2: γobservación = ∑i yo(F1 ≤ 2Zi/RF2, Zi > L).
  5. Calcula la verdad, γverdaderoa partir de las verdaderas frecuencias de mutación: γverdadero = ∑i yo(F1xiF2).

Valores de parámetros para simulaciones

Para las simulaciones, consideramos tres conjuntos de parámetros correspondientes a tres modos de evolución del tumor: un tumor de crecimiento rápido, un tumor de crecimiento lento y un tumor sin muerte celular, cada uno con múltiples tasas de mutación. Simulamos tres estructuras clonales: subclones de un solo controlador, dos subclones de controladores anidados y dos subclones de controladores hermanos. Todos los valores de los parámetros se enumeran en Tabla S1. Los valores de los parámetros de la tasa de mutación se encuentran dentro de las tasas de mutación puntuales de todo el genoma observadas por día [69]. Para la simulación de clones y subclones parentales, la dinámica del tumor de rápido crecimiento es de [34]. El régimen de parámetros tumorales de crecimiento más lento tiene un crecimiento neto reducido de r = 0,025, en comparación con la tasa de crecimiento neto del tumor de crecimiento rápido de r = 0,07.

Contabilización de las incertidumbres en las frecuencias de los subclones y las tasas de crecimiento

Nuestras estimaciones de los parámetros de evolución del cáncer requieren como entrada la información sobre el número de poblaciones subclonales en el tumor, sus CCF y sus relaciones filogenéticas. Para obtener esta información, utilizamos PhylogicNDT [43], que realiza la reconstrucción subclonal de los datos de secuenciación longitudinal del cáncer. La incertidumbre en los CCF de subclones informados por PhylogicNDT afecta nuestras estimaciones de las tasas de crecimiento de los subclones, lo que a su vez afecta las estimaciones de la tasa y el tiempo de mutación. t entre conductor(es) y diagnóstico. Damos cuenta de esta incertidumbre extrayendo de las distribuciones posteriores de CCF que produce PhylogicNDT. Usando estos valores CCF muestreados, luego calculamos las tasas de crecimiento, la tasa de mutación tuy tiempo t entre conductor(es) y diagnóstico, generando así intervalos de confianza para estos parámetros debido a la incertidumbre del CCF.

Para estimar las tasas de crecimiento subclonal, ajustamos una curva de crecimiento exponencial a los tamaños subclonales medidos en dos o más puntos temporales. Esta regresión produce valores ajustados para la tasa de crecimiento y la edad de cada clon. Para tener en cuenta la incertidumbre en el ajuste de la curva (en el caso de más de dos muestras longitudinales), muestreamos las tasas de crecimiento y la edad del clon a partir de una distribución normal bivariada con media igual a los parámetros ajustados y varianza igual a la matriz de covarianza de la parámetros ajustados. Cuando la tasa de crecimiento estimada durante el período de observación, incluidas las tasas de crecimiento negativas, es menor que la tasa de crecimiento mínima posible necesaria para alcanzar el tamaño del clon observado, usamos la tasa de crecimiento mínima para calcular la tasa de mutación, el tiempo de los impulsores. , tiempo entre conductor(es) y diagnóstico, y tiempo de detectabilidad.

Estimación del tiempo de detectabilidad del cáncer

El momento en que un cáncer es detectable es el momento en que el cáncer supera el tamaño mínimo observable. Para los datos de CLL, estimamos el momento en que los pacientes exhibieron por primera vez un recuento de glóbulos blancos anormalmente alto, o leucocitosis, caracterizado por un recuento de glóbulos blancos de 11 500/μl. [70]o aproximadamente 5,75 x 1010 WBC totales, asumiendo un volumen de sangre total de 5 L. En la sección anterior, describimos cómo ajustamos la dinámica de crecimiento para los datos de CLL y obtenemos una distribución de los parámetros de crecimiento ajustados. Aquí, tomamos muestras de la distribución de los parámetros ajustados 10 000 veces (usando la tasa de crecimiento mínima en el caso de una tasa de crecimiento demasiado baja para dar lugar al recuento de WBC observado), y resolvemos numéricamente el tiempo en el que el recuento total de WBC era igual a 5.75 x 1010. es decir, encontramos numéricamente la raíz con respecto a ti de
(36)

dónde ti es el ith tiempo estimado de 10,000 estimaciones, F(⋅) es la función exponencial que describe el crecimiento medio del cáncer, y es el iMuestra aleatoria de los parámetros de crecimiento ajustados (intersección y tasa de crecimiento).

Contabilización de la incertidumbre del modelo

La mayor fuente de incertidumbre del modelo es el proceso de Poisson sobre cómo se acumulan las mutaciones, que se utiliza para estimar el tiempo t1 de la mutación del conductor. En el rápido crecimiento experimentos de simulación de tumores, el tiempo t1 tuvo el mayor error y variación (Figura 2). La estimación de t1 depende de metro mutaciones presentes en todas las células del subclon conductor. lo observado metro es una sola muestra aleatoria de una distribución de Poisson. Para tener en cuenta la incertidumbre en t1 derivados de metro en las LLC analizadas, muestreamos t1 de las distribuciones posteriores PAGS(t1|metro). Esta fuente de incertidumbre del modelo debida al proceso de Poisson será más significativa para cánceres como la CLL con un número menor de mutaciones.

El tiempo t entre la mutación impulsora y el diagnóstico es una variable aleatoria debido a la estocasticidad del crecimiento de las células cancerosas y, naturalmente, tendrá una cierta cantidad de variación. El tiempo entre el evento del controlador y el diagnóstico en un proceso de bifurcación sigue una distribución de Gumbel [38] y tendrá una varianza constante. Sin embargo, la media aumentará con el logaritmo de los recuentos de células cancerosas, que para las CLL analizadas son ∼ 1011. Las simulaciones de la evolución del cáncer crecen hasta tamaños de tumor más pequeños (∼ 105) y, en consecuencia, la estimación de t tiene una cantidad significativa de incertidumbre (Fig. 2). Sin embargo, para las escalas de tiempo necesarias para generar un tumor, la estimación de t será bastante preciso. Para los tamaños de tumor comúnmente observados, las fluctuaciones estocásticas en el tiempo que tarda el cáncer en alcanzar ese tamaño serán menores en relación con la magnitud del tiempo. Para un cáncer con recuento de células ∼ 1011la desviación estándar del tiempo t será inferior al 5% de su valor esperado.

Tumor con dos subclones conductores anidados

Aquí consideramos el caso en el que hay dos subclones de controladores anidados (S4(A) Figura). «Anidado» significa que todas las células que portan la segunda mutación conductora también portan la primera. Tipo-0, o tumor iniciado, las células tienen tasa de natalidad b0índice de mortalidad d0y tasa de crecimiento neto r0 = b0d0. Las celdas tipo 1, que solo tienen el primer conductor, tienen tasa de natalidad b1índice de mortalidad d1y tasa de crecimiento neto r1 = b1d1. Las celdas tipo 2, que llevan ambos conductores, tienen tasa de natalidad b2índice de mortalidad d2y tasa de crecimiento neto r2 = b2d2. El primer conductor ocurrió en una celda de tipo 0 en el momento t1. El segundo conductor ocurrió en una celda tipo 1 en . La tasa de mutación tu es el mismo para todos los subclones.

A veces y , el tumor se secuencia a granel. La secuenciación masiva permite la medición de la fracción de células con el controlador 1 a la vez , α1; la fracción de celdas con el conductor 2 en , α2; fracción de celdas con conductor 1 a la vez , β1; la fracción de celdas con el conductor 2 en , β2; y el número observado de mutaciones de pasajeros subclonales entre frecuencias F1 y F2, γobservación. Tenga en cuenta que la fracción de la población que es una célula tipo 1 en los dos tiempos es α1α2 y β1β2. La fracción de células tipo 0 en los dos puntos temporales de secuenciación masiva es 1 − α1 y 1 – β1. El número total de células en los puntos de tiempo de secuenciación masiva es METRO1 y METRO2. Luego igualamos los recuentos de celdas estimados con el valor esperado del tipo:i tamaño de la poblacion Xicondicionada a la supervivencia.
(37) (38) (39) (40)

Resolviendo las ecuaciones anteriores para riobtenemos las estimaciones de la tasa de crecimiento:
(41) (42) (43)

El valor esperado de la primera vez que una población de células tipo 2 en un proceso de ramificación alcanza el tamaño observado α2METRO1 [38],
(44)
(45) (46)

donde la aproximación en (46) se justifica como para (24).

Por (11),
(47)

Usando las estimaciones de r0, r1y r2 de (41)–(43), y estableciendo (47) igual al valor de γ obtenido de (33) y la segunda secuenciación masiva, tu se puede estimar:
(48)

Al estimar la tasa de mutación para los pacientes con LLC de la Ref. [27], para el que hay una secuenciación masiva en dos o más puntos de tiempo, promediamos la tasa de mutación calculada en cada uno de estos puntos de tiempo. (48) se aplica para cada punto de tiempo con los respectivos CCF y se observa γ valores para cada punto de tiempo.

Cada célula tipo 1 lleva el metro1 mutaciones del pasajero que estaban presentes en la célula tipo 1 original cuando ocurrió la primera mutación del conductor en t1. De manera similar, cada célula tipo 2 lleva el metro2 pasajeros que estaban presentes en la célula fundadora tipo 2 cuando ocurrió la segunda mutación del conductor en t2. Tenga en cuenta que ninguno de los metro1 las mutaciones se cuentan para metro2. Ahora consideramos la función de verosimilitud
(49) (50) (51)

Ahora, maximizando el logaritmo de (51) con respecto a t1 y ,
(52)
(53)

El número de pasajeros presentes en el tipo fundador-i La célula no se puede observar directamente, pero podemos medir metroobservoel número de pasajeros presentes en todos los tipos-i células. un esperado tu/r1 pasajeros que ocurren después t1 en células tipo 1 y alcanzar la fijación en el subclon tipo 1 se incluirá incorrectamente en metro1 observaciónen lugar de en metro2 observación (ver Métodos). Del mismo modo, un esperado tu/r2 pasajeros que ocurren después t2 en células de tipo 2 y alcanzar la fijación en el subclon de tipo 2 se incluirán incorrectamente en metro2 observación. De este modo,
(54)
(55)

Tumor con dos subclones conductores hermanos

Aquí consideramos un tumor con dos mutaciones conductoras «hermanas» (S4(B) Figura). Las mutaciones de controladores hermanos son controladores que ocurren en subclones separados. En este caso, las células son células tumorales iniciadas (tipo 0), conductor portador 1 (tipo 1) o conductor portador 2 (tipo 2). Ninguna celda contiene ambos controladores. El controlador 1 ocurrió en una celda de tipo 0 en el momento t1. El conductor 2 ocurrió en una celda tipo 0 en t2. Las células tipo 0 tienen tasa de natalidad b0índice de mortalidad d0y tasa de crecimiento neto r0 = b0d0. Las células de tipo 1, que llevan el conductor 1, tienen una tasa de natalidad b1índice de mortalidad d1y crecimiento neto Velocidad r1 = b1d1. Las células de tipo 2, que llevan el conductor 2, tienen tasa de natalidad b2índice de mortalidad d2y tasa de crecimiento neto r2 = b2d2. La tasa de mutación tu es el mismo para todos los subclones.

Supongamos que el tiempo τi transcurre entre la mutación del conductor i y observación de tumores. La secuenciación masiva del tumor se realiza en t1 + τ1 (o equivalente t2 + τ2), y un Δ conocido más tarde. La secuenciación del tumor permite medir la fracción de células con el controlador 1 en la primera secuenciación, α1; la fracción de células con el controlador 2 en la primera secuenciación, α2; fracción de células con el controlador 1 en la segunda secuenciación, β1; la fracción de células con el controlador 2 en la segunda secuenciación, β2; y el número de mutaciones de pasajeros subclonales entre frecuencias F1 y F2, γ. La fracción de células tipo 0 en los dos puntos temporales de secuenciación masiva es 1 − α1α2 y 1 – β1β2. El número total de células en los dos puntos de tiempo de secuenciación son METRO1 y METRO2.

Luego igualamos los recuentos de celdas estimados con el valor esperado del tipo:i tamaño de la poblacion Xicondicionada a la supervivencia.
(56) (57) (58) (59)

Resolviendo las ecuaciones anteriores para riobtenemos
(60) (61)

El valor esperado de la primera vez que una población de tipo-i las células en un proceso de ramificación alcanzan el tamaño observado αiMETRO1 es [38]
(62)
(63) (64)

donde la aproximación en (64) se justifica como para (24).

Por (11),
(sesenta y cinco)

Usando las estimaciones de r0, r1y r2 de (60) y (61), e igualando (65) al valor de γ obtenido de (33) y la segunda secuenciación masiva, tu se puede estimar.
(66)

Al estimar la tasa de mutación para los pacientes con LLC de la Ref. [27], para el que hay una secuenciación masiva en dos o más puntos de tiempo, promediamos la tasa de mutación calculada en cada uno de estos puntos de tiempo. (66) se aplica para cada punto de tiempo con los respectivos CCF y se observa γ valores para cada punto de tiempo.

Cada célula tipo 1 lleva el metro1 mutaciones del pasajero que estaban presentes en la célula tipo 1 original cuando ocurrió la primera mutación del conductor en t1. De manera similar, cada célula tipo 2 lleva el metro2 pasajeros que estaban presentes en la célula fundadora tipo 2 cuando ocurrió la segunda mutación del conductor en t2. Asumimos que metro1 y metro2 no contienen ninguna mutación compartida. En el conjunto de datos de CLL que usamos, esto es cierto. Consideremos la función de verosimilitud PAGS(metro1, metro2|t1, t2)
(67) (68)

Maximizando el logaritmo de (68) con respecto a t1 y t2 produce las estimaciones de máxima verosimilitud:
(69)
(70)

Usando el mismo enfoque que en el caso de un solo controlador, obtenemos las correcciones para el número observado de mutaciones presentes en todas las células de cada subclón:
(71) (72)

Estimaciones completamente generalizadas para cualquier filogenia de k conductores

Aquí derivamos estimaciones para una filogenia tumoral completamente general. Supongamos que un tumor tiene k mutaciones del conductor. En este caso general, defina un tipo-i celda como una celda donde su mutación de controlador más reciente fue conductor i. Tenga en cuenta que un tipo-i celda puede tener entre 0 y k − 1 otras mutaciones del controlador. Una reconstrucción filogenética de la k Las mutaciones del controlador son necesarias para el caso completamente general. A partir de este árbol filogenético se puede obtener el ancestro de cada subclón. Definir la función a(i) como el antepasado del tipo-i población. Es decir, si todas las mutaciones del controlador contenidas en el tipo-i la población está ordenada, a(i) da la mutación del controlador que ocurrió antes de i. Definir ti como el tiempo entre cuando el conductor i ocurrido y cuando el tipo-i Se produjo la mutación del controlador anterior de las células. En el momento de la observación, asuma el tipo-i la población tiene ki mutaciones impulsoras totales, donde 1 ≤ kik para todos 1 ≤ ik. Indicar el tiempo entre el tipo-i‘s kio última, mutación conductora y cuando el tumor se observa como τi. Este es el tiempo entre el fundador tipo-i nacimiento de células y observación de tumores. Luego, el tumor se observa por primera vez y se secuencia a granel en (equivalentemente τ0 por i = 0), donde denotamos aj como el jla iteración de la función a:
(73) (74)

El tumor también se secuencia a granel en (equivalentemente τ0 + Δ para i = 0). Estas suposiciones permiten cualquier filogenia de subclones, incluidas las combinaciones de los tipos de subclones anidados y hermanos discutidos anteriormente.

La secuenciación masiva permite la medición de la fracción de células con controlador i a T1, αi; la fracción de celdas con conductor i en el momento T2, βi; y el número de mutaciones de pasajeros subclonales entre frecuencias F1 y F2, γ. Nuevamente, el número total de celdas en tiempos de medición T1 y T2 son METRO1 y METRO2. Para escribir el tipo-i frecuencias, y en términos de las frecuencias del controlador, restamos la fracción de celdas que descienden del tipo-i células pero ganando mutaciones conductoras adicionales después ide la fracción de celdas que contienen el controlador i:
(75) (76)

dónde di,a(j) es el delta de Kronecker, definido como

Igualamos los recuentos de células estimados en el primer punto de tiempo de secuenciación masiva con el valor esperado del tipo:i tamaño de la poblacion Xicondicionada a la supervivencia.
(77)

Y del mismo modo, en el segundo punto de tiempo de secuenciación masiva,
(78) (79)

Resolviendo las ecuaciones anteriores para riobtenemos
(80)

Por (11) (81)

Ahora, utilizando las estimaciones de la tasa de crecimiento ri y los tamaños de los subclones, podemos estimar cada τi. El valor esperado de la primera vez que una población de tipo-i las células en un proceso de ramificación alcanzan el tamaño observado es [38]
(82)
(83) (84)

donde la aproximación en (84) se justifica como para (24).

Utilizando el (k + 1) ri estimaciones de (80), y estableciendo (81) igual al valor de γ obtenido en la segunda secuenciación masiva de (33), tu se puede estimar:
(85)

Al estimar la tasa de mutación para los pacientes con LLC de la Ref. [27], para el que hay una secuenciación masiva en dos o más puntos de tiempo, promediamos la tasa de mutación calculada en cada uno de estos puntos de tiempo. (85) se aplica para cada punto de tiempo con los respectivos CCF y se observa γ valores para cada punto de tiempo.

El número de pasajeros presentes en el tipo original. i La célula fundadora no se puede observar directamente, pero podemos medir metroiel número de pasajeros clonales presentes en el tipo i población, incluyendo únicamente pasajeros no presentes en otros clones. Supondremos que el metroi no contienen ninguna mutación compartida, lo cual es cierto para el conjunto de datos CLL que consideramos. La función de probabilidad PAGS(metro1…, metrok|t1…, tk) es proporcional a
(86)

Entonces, maximizando el logaritmo de (86) con respecto a t1, t2…, tk,
(87)

Los pasajeros clonales observados en el tipo fundador-i celda incluirá incorrectamente a los pasajeros que alcanzaron la fijación en el tipo-i población después de la mutación del conductor i ocurrido, en lugar de contarse correctamente hacia el descendiente del clon i. Como resultado, corregimos nuevamente por el número esperado de estos pasajeros, tu/ri. Eso es,
(88)

Fuente del artículo

Deja un comentario