OSCAR: regresión de cardinalidad de subconjunto óptimo utilizando la pseudonorma L0 con aplicaciones para el modelado pronóstico del cáncer de próstata

Abstracto

En muchas aplicaciones del mundo real, como las que se basan en registros de salud electrónicos, la predicción del pronóstico de supervivencia del paciente se basa en conjuntos heterogéneos de mediciones de laboratorio clínico. Para abordar el compromiso entre la precisión predictiva de un modelo de pronóstico y los costos relacionados con su implementación clínica, proponemos un modelo optimizado L0-Enfoque pseudonorma para aprender soluciones dispersas en regresión multivariable. La escasez del modelo se mantiene restringiendo el número de coeficientes distintos de cero en el modelo con una restricción de cardinalidad, lo que hace que el problema de optimización sea NP-difícil. Además, generalizamos la restricción de cardinalidad para la selección de características agrupadas, lo que hace posible identificar conjuntos clave de predictores que pueden medirse juntos en un kit en la práctica clínica. Demostramos el funcionamiento de nuestro método de selección de subconjuntos de características basado en restricciones de cardinalidad, llamado OSCAR, en el contexto de la predicción de pronóstico de pacientes con cáncer de próstata, donde permite determinar los predictores explicativos clave en diferentes niveles de dispersión del modelo. Exploramos más a fondo cómo la escasez del modelo afecta la precisión del modelo y el costo de implementación. Por último, demostramos la generalización de la metodología presentada a datos transcriptómicos de alta dimensión.

Resumen del autor

La selección de subconjuntos de características se ha convertido en una parte crucial de la construcción de modelos biomédicos, debido a la abundancia de predictores disponibles en muchas aplicaciones, aunque sigue existiendo incertidumbre sobre su importancia y capacidad de generalización. Los métodos de regresión regularizada se han convertido en enfoques populares para abordar este desafío al equilibrar la bondad de ajuste del modelo frente a la creciente complejidad del modelo en términos de coeficientes que se desvían de cero. Las normas de regularización son fundamentales en la formulación de la complejidad del modelo, y actualmente L1-norma (LASSO), L2-norm (Ridge Regression) y su híbrido (Elastic Net) dominan el campo. En este artículo presentamos una metodología novedosa que se basa en la L0-pseudonorma, también conocida como la mejor selección de subconjuntos, que se ha pasado por alto en gran medida debido a su desafiante naturaleza discreta. Nuestra metodología hace uso de una transformación continua del problema de optimización discreta y proporciona solucionadores efectivos implementados en un paquete de software R fácil de usar. Ejemplificamos el uso de Óscar-paquete en el contexto de la predicción del pronóstico del cáncer de próstata utilizando datos de cohortes clínicas y registros hospitalarios del mundo real. Al comparar la metodología con los métodos de regularización existentes, ilustramos las ventajas de la L0-pseudonorma para una mejor aplicabilidad clínica, selección de características agrupadas y demostración de su aplicabilidad en conjuntos de datos transcriptómicos de alta dimensión.

Esto es un PLOS Biología Computacional Documento de métodos.

Introducción

La incidencia actual de cáncer es de más de 19 millones de casos nuevos por año y aumenta rápidamente a nivel mundial [1]. A pesar del desarrollo exitoso de tratamientos médicos que han disminuido la mortalidad de los pacientes con cáncer, el cáncer sigue siendo una de las causas más comunes de muerte, lo que genera una necesidad imperiosa de información más precisa y pronóstica sobre la atención del paciente. La predicción pronóstica es fundamental en el manejo del paciente, ya que permite la evaluación del pronóstico en la fase de diagnóstico y la predicción del curso de la enfermedad para un paciente individual después del tratamiento o la recaída de la enfermedad. Predecir el riesgo de recurrencia o muerte del cáncer, según las características individuales del paciente y las mediciones de laboratorio, ayuda a comprender qué pacientes se beneficiarían de un tratamiento estándar y cuáles se asignarían mejor a cuidados paliativos o se tratarían con regímenes de terapia alternativa. En la práctica clínica, la predicción de la supervivencia se suele realizar mediante pruebas de laboratorio, muchas veces numerosas y, por tanto, caras. Desde el punto de vista de la economía de la salud, los modelos de pronóstico deben ser precisos y rentables, y los modelos de pronóstico no deben volverse demasiado complejos para permitir su implementación clínica. En este aspecto particular, las estrategias de selección de características, como la regularización en el modelado de regresión, juegan un papel clave.

El cáncer de próstata es uno de los cánceres más comunes diagnosticados en hombres y una de las principales causas de mortalidad por cáncer [1]. Aunque el pronóstico del cáncer de próstata es generalmente bueno, un número considerable de pacientes tienen una enfermedad metastásica en el momento del diagnóstico o desarrollan una enfermedad recurrente potencialmente letal después del tratamiento inicial. El antígeno prostático específico (PSA) se considera actualmente como el marcador predeterminado de progresión de la enfermedad en el seguimiento de la enfermedad y el tratamiento. Sin embargo, cuando el cáncer de próstata se convierte en un estado independiente del tratamiento hormonal (es decir, cáncer de próstata resistente a la castración), se necesitan pruebas más rigurosas con marcadores adicionales para una estratificación más precisa de los pacientes. [2]. Dada la alta prevalencia del cáncer de próstata a nivel mundial, no es trivial cómo considerar los costos de las pruebas más extensas durante el seguimiento, lo que aumenta aún más la necesidad de estrategias de predicción de riesgo rentables.

Los modelos de clasificación de riesgo para el cáncer de próstata se aplican tradicionalmente en la fase de diagnóstico o fase de tratamiento primario. La mayoría de los modelos de pronóstico actuales contienen la puntuación de Gleason, que se considera el factor más significativo para la estimación temprana del curso de la enfermedad. [3]. Por el contrario, nuestro objetivo aquí fue hacer una predicción pronóstica de pacientes que ya habían desarrollado cáncer de próstata metastásico resistente a la castración y, por lo tanto, buscar investigar características pronósticas más allá de la puntuación de Gleason. Los modelos de regresión de Cox regularizados han sido una opción popular para tales propósitos de modelado de pronóstico. [4–8]. Por ejemplo, en el DREAM 9.5 Prostate Cancer Prediction Challenge [6]nuestro modelo de mayor rendimiento se basó en un conjunto de modelos regularizados con regresión de Cox [9].

Nuestro marco de modelado de pronóstico para el cáncer de próstata se basa en el modelo de riesgos proporcionales de Cox. [5, 10], que se amplía mediante la introducción de una nueva estrategia de regularización de selección de características. Más específicamente, usamos una restricción de cardinalidad implementada por el L0-pseudonorma para restringir el número de coeficientes distintos de cero. Tal restricción de cardinalidad complica la optimización, ya que esta restricción es discontinua y no convexa, lo que hace que el problema sea NP-difícil (polinomio no determinista difícil) [11]. Enfoques de modelado anteriores con L0-se han desarrollado implementaciones para modelos lineales generalizados, como la regresión lineal y logística [12–14], pero no ofrecen soluciones para el modelo de Cox esencial para las predicciones pronósticas. Por ejemplo, el método SDAR en [14] se basa en las condiciones de optimalidad de Karush-Kuhn-Tucker para la L0-Soluciones de mínimos cuadrados penalizados, por lo que sólo son aplicables a modelos de regresión lineal. Hasta donde sabemos, sólo hay una L0-implementando el modelo de riesgos proporcionales de Cox, la minimización penalizada aumentada-L0 (APM-L0) [15]que se aproxima a la L0 e itera entre una regresión regularizada convexa basada en el descenso de coordenadas y una estimación de umbral duro simple. Sin embargo, desde la APM-L0 método incorpora también L1– y L2-normas, no está claro si funciona o no de manera fundamentalmente diferente en comparación, por ejemplo, con LASSO.

Nuestra implementación difiere de la APM-L0 acercarse. Primero, reescribimos la restricción de cardinalidad con su representación exacta de DC (diferencia de dos funciones convexas), después de lo cual la restricción se agrega a la función objetivo utilizando un enfoque de función de penalización. [16]. Esto conduce a una función objetiva continua no suave (es decir, no necesariamente diferenciable continuamente), mientras que la no convexidad permanece incluso después de la transformación. En nuestra metodología, la optimización se realiza con dos sofisticados solucionadores: el método de doble paquete (DBDC) [17, 18] para la optimización de DC no suave y el método de paquete de memoria limitada (LMBM) [19, 20] para la optimización a gran escala no suave. Ambos solucionadores son capaces de manejar la representación DC exacta del problema con restricciones de cardinalidad después de que se haya transformado en una forma de función de penalización. Además de los métodos de optimización avanzados y la inclusión de la restricción de cardinalidad, generalizamos aún más la restricción de cardinalidad para controlar también la cantidad de kits usados ​​que agrupan múltiples predictores que tienen el mismo costo en la práctica clínica. En lugar de una sola medición, en la práctica, muchas características a menudo se miden juntas como kits (como un hemograma completo). En nuestra metodología, dicha estructura de kit se puede incluir en el modelo, lo que permite la selección de subconjuntos de predictores relevantes en lugar de solo predictores únicos.

En este trabajo presentamos una nueva L0 método de regularización OSCAR (Optimal Subset CArdinality Regression) y ejemplificarlo con el modelo de riesgos proporcionales de Cox en la predicción pronóstica del cáncer de próstata. El método OSCAR se prueba en múltiples cohortes de datos: TYKS (datos de registro de hospitales del mundo real) [8]VENICE, MAINSAIL y ASCENT (ensayos clínicos aleatorizados) [6], y TCGA, Taylor et al. y Sol et al. (conjuntos de datos de transcriptómica de alta dimensión) [21–23]. Utilizamos análisis de arranque (BS) y validación cruzada (CV) para garantizar la solidez y la capacidad de generalización del modelo. Para TYKS, VENICE, MAINSAIL y ASCENT, la precisión de la predicción del modelo también se investiga junto con los costos del predictor correspondiente; esto ayuda a identificar modelos que también son rentables (es decir, precisión máxima, costo mínimo). La combinación de estos dos objetivos conduce a un problema de optimización multiobjetivo. Observamos que el proceso de ajuste del modelo de riesgos proporcionales de Cox (es decir, precisión) para todas las cardinalidades requeridas es una forma de obtener una aproximación del frente de Pareto. [24] en este problema multiobjetivo. Estos frentes de Pareto se pueden proporcionar a los usuarios finales para la toma de decisiones. Finalmente, los modelos seleccionados en base a los frentes de Pareto se prueban más en cohortes de validación independientes de los conjuntos de datos de entrenamiento y se preseleccionan antes del ajuste del modelo. Comparamos los resultados de OSCAR con el LASSO tradicional [4], L0-APM aumentado-L0 [15]regresión penalizada con desviación absoluta recortada suavemente (SCAD) [25]y selección voraz hacia adelante (Greedy FS).

Materiales y métodos

método OSCAR

En el método OSCAR, nos referimos a la cardinalidad como el número de predictores o grupos de predictores (es decir, kits) en el modelo. La ilustración esquemática de la metodología OSCAR se presenta en Fig 1. Además de la predicción de supervivencia, el método OSCAR implementa un modelo binomial para problemas de regresión logística y regresión lineal con error cuadrático medio (ver, por ejemplo, [26]).

Modelo de riesgos proporcionales de Cox.

Nuestro interés en el modelado se centra principalmente en la predicción de la supervivencia del paciente, donde investigamos la relación entre las características del paciente (consulte la subsección “Datos de cáncer de próstata para la prueba”) y el tiempo de supervivencia (supervivencia general o supervivencia libre de progresión). En la forma general, este tipo de datos se puede expresar como un conjunto
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e001(1)

dónde norte es el número de observaciones, OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e002 es el vector de pag características, OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e003 es el tiempo observado y di ∈ es la etiqueta (el valor 1 indica un evento, normalmente un error, y el valor 0, censura por la derecha). Además, dejamos t1 < t2 < … tmetro estar aumentando la lista de metro tiempos de falla únicos, y Di sea ​​el conjunto de índices de observaciones que fallan en el tiempo tilo que significa que también se permite que ocurran empates.

La predicción de supervivencia se lleva a cabo tradicionalmente utilizando el modelo de riesgos proporcionales de Cox. [10]. El peligro para el paciente i en el momento t se da con la formula
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e004

dónde h0(t) es un peligro de referencia compartido y OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e005 es un vector de coeficiente desconocido. Nuestro objetivo es estimar este vector β maximizando la aproximación de Breslow de la probabilidad parcial (ver [27]). A continuación, denotaremos por OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e006 la solución que produce el valor máximo para la probabilidad.

En lugar de maximizar la verosimilitud parcial directamente, también es posible maximizar la verosimilitud parcial logarítmica escalada, ya que esto conduce a una solución equivalente [5]. Esta modificación da la verosimilitud parcial logaritmo escalado de la forma
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e007(2)

dónde Ri = es el conjunto de índices en riesgo en el momento ti y di = |Di| es el número de fallas en el tiempo ti. La función −yo es convexo, ya que es una suma de funciones lineales y log-sum-exp [28]. Por lo tanto, en lugar de maximizar la función cóncava yoes equivalente a minimizar la función convexa −yo. A continuación, nos concentraremos en resolver el problema de minimización
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e008(3)

cuya solución OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e009 también maximiza (2).

Restricción el número de características del modelo.

En muchas aplicaciones del mundo real, es beneficioso tener soluciones dispersas para la función de verosimilitud parcial. Para favorecer las soluciones dispersas, normalmente se agrega un término de regularización al problema de optimización. Por ejemplo, la penalización neta elástica se utiliza en [5] combinando L1– y L2-normas. En particular, los enfoques que se basan en la L1-norma garantizar la escasez hasta cierto punto.

En nuestro enfoque, la escasez de la solución se obtiene utilizando la restricción de cardinalidad para restringir el número de coeficientes distintos de cero en el vector β. La fortaleza de este enfoque es que nos brinda una herramienta efectiva para buscar soluciones con una complejidad de modelo predeterminada. En lugar de considerar cada característica por separado, también podemos querer agrupar algunas características, si siempre se miden juntas (es decir, pertenecen al mismo kit de medición). Por lo tanto, también generalizamos la selección de subconjuntos de características basada en restricciones de cardinalidad a un caso en el que restringimos el número de kits seleccionados (consulte la sección 1 en S1 Texto para restringir el número de kits seleccionados, en lugar de funciones individuales).

Para cualquier vector OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e010el L0pseudonormaβ0 calcula el número de componentes distintos de cero. Sin embargo, vale la pena señalar que el L0-la pseudonorma no es una norma propia ya que no es homogénea [29], de ahí el nombre pseudonorma. Además, esta pseudonorma es discontinua y no convexa, lo que hace que el problema de optimización sea mucho más desafiante. [16, 30].

en el problema (3), la escasez se puede lograr fijando el número de coeficientes distintos de cero k ∈ y agregando un restricción de cardinalidadβ0k. Esto da como resultado lo siguiente problema con restricción de cardinalidad OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e011(4)

Se sabe que este problema es difícil de resolver debido a la naturaleza combinatoria de la restricción, que también es discontinua. Para superar la discontinuidad, utilizamos el enfoque presentado en [16]que utiliza la mayor-k norma para obtener una representación continua exacta de la restricción.

El norma k más grande de un vector OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e012 es la suma de los k elementos de mayor valor absoluto:
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e013

dónde β(i) es el elemento cuyo valor absoluto es el i-th más grande entre los pag elementos de β. El más largo-k la norma es una norma propia. Además, es convexa y la restricción ‖β0k es equivalente a la restricción OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e014 [16, 30]dónde OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e015. Por lo tanto, el problema (4) se puede reescribir como
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e016(5)

y tenemos una restricción continua en lugar de una discontinua. Tenga en cuenta que ambos problemas (4) y (5) tienen exactamente el mismo conjunto factible. Sin embargo, la estructura combinatoria de la restricción de cardinalidad hace que la restricción continua no sea convexa. Por esta razón, el problema (5) puede tener múltiples soluciones locales y la identificación de una solución global o casi global requiere un optimizador sofisticado.

Otra desventaja del problema (5) es que todavía tenemos una restricción. similar a [16]podemos utilizar el enfoque de la función de penalización [31, 32] para reescribir el problema restringido (5) como uno no restringido
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e017(6)

dónde ρ > 0 es un parámetro de penalización positivo. En esta reformulación, estamos equilibrando entre la viabilidad y la optimización. Al seleccionar un valor demasiado pequeño para el parámetro ρno obtenemos una solución factible para el problema original (5). Sin embargo, seleccionando un valor adecuadamente grande para ρ, tenemos un alto costo por la violación de la restricción de cardinalidad y terminamos con una solución factible. Tenga en cuenta que el parámetro ρ no debe ser demasiado grande ya que de lo contrario el término de penalización domina a la función objetivo y en la práctica no obtenemos una solución óptima para el objetivo del problema restringido (5). Por esta razón, como es típico de los métodos de función de penalización, necesitamos resolver el problema (6) secuencialmente para una serie de valores crecientes del parámetro ρ hasta que se alcance un valor de parámetro adecuado que obligue a la restricción original en (4) a mantenerse. En la práctica, esta búsqueda se realiza mediante un ρ cuadrícula de valores.

Uno de los principales beneficios de la formulación en (6) es que, aunque su objetivo F es no convexo y no liso, es un función CC (Diferencia de dos funciones convexas). Esto significa que F se puede representar en la forma F = F1F2 con dos funciones convexas F1 y F2. De esta forma podemos controlar mejor la no convexidad que en el caso general. Además, estas funciones convexas se pueden seleccionar, por ejemplo, como
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e018

Otro aspecto interesante de la reformulación sancionada (6) es que puede verse como una modificación del L1-penalización basada en normas ya que la única diferencia es la más grande-k término normativo OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e019. Tenga en cuenta que este es el término que restringe y controla el límite superior para el número de características distintas de cero en el problema.

Algoritmo OSCAR.

En esta sección, presentamos el nuevo algoritmo OSCAR (regresión de cardinalidad de subconjunto óptimo) para resolver el problema de restricción de cardinalidad formulado en (4). Dado que el problema considerado es no convexo, es bien sabido que la determinación de una solución global es una tarea desafiante, ya que puede haber muchos óptimos locales y carecemos de condiciones fácilmente verificables que garanticen la optimización global. Debido a esto, el objetivo de nuestro nuevo marco de optimización local es encontrar soluciones lo suficientemente buenas que estén cerca de los óptimos globales. Para lograr este objetivo, nuestro método combina por primera vez el enfoque de función de penalización y el método de paquete doble (DBDC) [17, 18] para la optimización de DC junto con un tipo incremental de un enfoque para resolver el problema original.

La metodología OSCAR está diseñada para que no dependa del método de optimización específico, siempre que el método sea capaz de manejar tanto la falta de suavidad como la falta de convexidad. Por lo tanto, nuestro método generaliza más allá de DBDC, aunque se ofrece como la opción predeterminada para problemas de pequeña escala con pag < 100 características. Debido a esto, también hemos incorporado al paquete R de OSCAR la posibilidad de utilizar el método de paquete de memoria limitada (LMBM) [19, 20]. LMBM está diseñado para problemas generales de optimización no convexos y no suaves, con el inconveniente de que no se beneficia de la estructura DC del objetivo. La característica más importante de LMBM es que se adapta a problemas de gran escala y, por lo tanto, se proporciona como un solucionador predeterminado para los casos en los que pag ≥ 100. Además de potenciar los cálculos con datos de alta dimensión, presentamos un procedimiento de aceleración que utiliza un subproblema unidimensional y un problema original de tamaño reducido (4) (consulte la sección 2 en el Texto S1 para conocer el procedimiento de aceleración para datos de alta dimensión). datos dimensionales).

Como se describió anteriormente, el primer paso de OSCAR es utilizar el enfoque de la función de penalización para transformar el problema restringido reescrito (5) a uno sin restricciones. Dado que el objetivo del problema sin restricciones (6) es DC, podemos resolverlo utilizando el método DBDC para la optimización de DC. Esto nos permite aprovechar la estructura DC, ya que el método de paquete seleccionado construye un modelo de plano de corte DC no convexo (es decir, una aproximación de la función objetivo, que incorpora tanto el comportamiento convexo como el cóncavo del problema). Otra opción para resolver el problema (6) es LMBM como se describe anteriormente.

Sin embargo, dado que DBDC y LMBM son optimizadores locales, la calidad de las soluciones para un problema no convexo depende en gran medida de la elección de los puntos de partida. Por esta razón, el algoritmo OSCAR combina los métodos DBDC y LMBM con un enfoque de tipo incremental para generar múltiples puntos de partida con mayor probabilidad de conducir a las partes más prometedoras del espacio de búsqueda. La idea en nuestro enfoque incremental es comenzar resolviendo la restricción de cardinalidad Problema en el que solo se permite utilizar inicialmente un solo predictor (o kit) y luego aumentar el número de predictores (o kits) uno a la vez hasta alcanzar el número máximo de predictores. En particular, utilizamos la solución del problema con restricción de cardinalidad con i − 1 predictores para identificar puntos de partida prometedores para el siguiente problema con restricciones de cardinalidad con i predictores. Dado que este tipo de proceso de selección progresiva incremental puede terminar en un óptimo local, lo aliviamos mediante el uso de múltiples puntos de partida para obtener múltiples soluciones candidatas para el problema con i predictores (la llamada optimización global multi-start).

Algoritmo 1: ÓSCAR

Aporte: Los valores de las características Xilos tiempos de supervivencia yilas etiquetas di ∈ y el número máximo de predictores kmáximo ∈ hasta que se resuelve el problema de restricción de cardinalidad.

Producción: Para i = 1, …, kmáximoda la solución OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e020 para el problema con restricción de cardinalidad con i predictores.

Paso 0: (Inicialización) Resolver el problema convexo (3) con DBDC o LMBM y denote la solución por OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e021. Colocar OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e022 y i = 1.

Paso 1: (Puntos de partida) Para el problema con restricción de cardinalidad con i predictores, inicializar el conjunto de puntos de partida Si = ∅. Para j = 1, …, pag construir el punto OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e023 con la fórmula
OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e024

y si OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e025 luego agregue el punto al conjunto Si.

Paso 2: (Problema de la función de penalización) Realice los siguientes pasos A–C para todos OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e026 para obtener soluciones OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e027

Paso A: seleccione un valor inicial positivo para el parámetro de penalización ρ.

Paso B: Resolver el problema (6) con el método DBDC o LMBM a partir de OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e028 y denotamos la solución con OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e029.

Paso C: Si OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e030luego establezca OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e031. De lo contrario, aumente el valor del parámetro de penalización. ρ y vaya al Paso B.

Paso 3: (Solución) Seleccione la mejor solución OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e032 para el problema con restricción de cardinalidad (5) con i predictores usando la fórmulaOSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e033

Actualizar i = i + 1. Si ikmáximoluego vaya al Paso 1. De lo contrario, vaya al Paso 4.

Etapa 4: Devolver OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e034 para todos i = 1, …, kmáximo.

El método OSCAR se presenta en el Algoritmo 1 para el caso en que cada predictor se considere por separado. Consulte la sección 1 en S1 Texto para modificaciones necesarias con una estructura de kit de características agrupadas. Como entrada, uno necesita dar el número máximo de predictores kmáximo, que define cuántos predictores se pueden seleccionar como máximo en el problema con restricciones de cardinalidad más denso. Como resultado, el método proporciona de forma incremental una solución a cada problema con restricciones de cardinalidad con i predictores de i = 1, …, kmáximo y, por lo tanto, se obtiene como subproducto una solución también para cada problema con restricciones de cardinalidad con un número menor de predictores (o kits) utilizados. Esto significa que uno puede controlar cuántas soluciones dispersas diferentes se generan. Naturalmente, también es posible seleccionar kmáximo = pagen cuyo caso el problema (5) se resuelve para todos los posibles números de predictores.

En el Paso 1 del Algoritmo 1, los puntos de partida se generan variando la solución anterior OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e035 con la mejor solucion OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e036 del logaritmo escalado de verosimilitud parcial obtenido sin ninguna regularización. Más concretamente, en un punto de partida OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e037 la base es OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e038y luego uno puede simplemente sustituir el predictor j con el valor correspondiente en OSCAR regresion de cardinalidad de subconjunto optimo utilizando la pseudonorma.e039. De esta forma, se puede variar fácilmente la solución anterior pero aún así mantener sus predictores principales. Tenga en cuenta también que cada punto de partida con i − Se omite 1 predictor y solo mantenemos los puntos de inicio con i predictores.

En el Paso 2B del Algoritmo 1, siempre usamos el punto de partida original. La razón de esto es que si el parámetro ρ es demasiado pequeño, podemos terminar con una solución en la que casi todos los coeficientes son distintos de cero y, por lo tanto, perder la información proporcionada por el punto de partida original. Para evitar tales soluciones, no cambiamos el punto de partida, sino que actualizamos el parámetro ρ hasta obtener una solución con el número aceptable de predictores (o kits). Esto garantiza que la solución obtenida no difiera demasiado de la solución anterior y mantenga sus mejores predictores. Además, de esta forma el método no se vuelve demasiado sensible a la selección de ρya que valores demasiado pequeños de ρ se omiten básicamente.

Datos de cáncer de próstata para pruebas

Para probar el nuevo algoritmo para la predicción de la supervivencia, utilizamos una cohorte de cáncer de próstata de datos de registros de hospitales del mundo real, tres cohortes de cáncer de próstata de ensayos clínicos aleatorios (consulte la Tabla A en S1 Text), y tres conjuntos de datos de transcriptómica de alta dimensión disponibles públicamente con información de recurrencia bioquímica. Las características específicas del paciente también fueron consideradas por los grupos de examen clínico (kits), en los que se miden en la práctica clínica. Los precios de los exámenes se obtuvieron de los costos estándar de pruebas de laboratorio del Hospital Universitario de Helsinki (Finlandia). Los precios reales se convirtieron a costos relativos al PSA, al que se le dio un valor de referencia de 100. Se ignoró una característica (nitrógeno ureico en sangre) sin un costo conocido. Las características se muestran en la Tabla 1, junto con las abreviaturas, así como las estructuras de los kits y los precios estandarizados.

Datos del registro hospitalario del mundo real.

Los datos del registro hospitalario del mundo real se recopilaron de los pacientes con cáncer de próstata avanzado tratados en el Hospital Universitario de Turku (TYKS, Finlandia). Se seleccionaron pacientes con resistencia a la castración y se procesaron los datos como en [9]. Además, solo se seleccionaron pacientes con diagnóstico de resistencia a la castración con fecha de 2010 o posterior, debido a la mayor escasez de datos en los años previos. Además, se descartaron los pacientes con tiempo de supervivencia nulo o negativo o sin datos de medición. Se reservó un total de 195 pacientes para usarlos como un conjunto de datos de validación independiente para evaluar la capacidad de generalización del modelo y evaluar el riesgo de ajuste excesivo al conjunto de datos de entrenamiento. Además, eliminamos características con más del 50 % de valores faltantes. Los datos faltantes restantes se imputaron utilizando valores medianos calculados en el conjunto de datos de entrenamiento (norte = 590). La imputación de la mediana se ha probado previamente y se ha encontrado adecuada [8, 9]. Una medición atípica de la presión arterial sistólica (>12 000 mmHg) se cambió por perdida antes de la imputación. Las características de los pacientes para los datos de entrenamiento se presentan en la Tabla A en S1 Text, y las curvas de supervivencia en la cohorte TYKS con respecto a las puntuaciones de Gleason se muestran en la Fig. 2a. Las curvas de supervivencia se comportaron como se esperaba, con la supervivencia más baja en las puntuaciones de Gleason más altas y la supervivencia más alta en las puntuaciones de Gleason más bajas. Dado que las correlaciones entre funciones pueden afectar el proceso de selección de funciones, las investigamos entre las funciones disponibles, como se muestra en la figura A en S1 Text.

miniatura

Figura 2.

Curvas de supervivencia: a) Probabilidad de supervivencia de Kaplan-Meier para la cohorte de pacientes TYKS basada en las puntuaciones de Gleason. b) Probabilidad de supervivencia de Kaplan-Meier para las tres cohortes de ensayos clínicos: VENICE, MINSAIL y ASCENT.

https://doi.org/10.1371/journal.pcbi.1010333.g002

Datos de ensayos clínicos aleatorizados.

Los datos de ensayos clínicos aleatorizados incluidos en los análisis se construyeron previamente en la competencia DREAM 9.5 (Prostate Cancer Challenge, PCC-DREAM), organizada por Project Data Sphere (https://www.projectdatasphere.org/). Estos datos provienen de tres cohortes de pacientes con cáncer de próstata (MAINSAIL, VENICE y ASCENT) con cáncer de próstata metastásico resistente a la castración [33–35]. De cada cohorte, se separó un conjunto aleatorio de pacientes como conjunto de datos de validación (norte = 132, norte = 150 y norte = 119 para VELA MAYOR, VENECIA y ASCENSO, respectivamente). Se eliminaron las características con más del 50 % de valores perdidos. Los valores faltantes en cada cohorte se imputaron por separado utilizando los valores medianos calculados a partir de los conjuntos de datos de entrenamiento correspondientes (norte = 394, norte = 448 y norte = 357 para VELA MAYOR, VENECIA y ASCENSO, respectivamente). Las características de los pacientes se presentan en la Tabla A en S1 Text, y las curvas de supervivencia por cohorte se muestran en la Fig. 2b. Las curvas de supervivencia comienzan de manera similar, sin embargo, la cohorte MAINSAIL y ASCENT tiene un tiempo de seguimiento más corto. La tendencia general de supervivencia fue similar a la cohorte del mundo real de TYKS (Fig. 2a). También presentamos las correlaciones entre las características de las cohortes de ensayos clínicos en la figura A en el texto S1.

Conjuntos de datos transcriptómicos de alta dimensión para la recurrencia del cáncer de próstata.

TCGA [21]Taylor et al. [22]y Sun et al. [23] Los conjuntos de datos se obtuvieron como se describe en la sección 6.1 en S1 Text usando el curatedPCaData-paquete. Solo se utilizaron tumores primarios para el entrenamiento y la validación del modelo, siendo el criterio de valoración la recurrencia de la enfermedad. En TCGA y Taylor et al., la información de recurrencia estaba disponible junto con los tiempos de seguimiento. Sin embargo, en Sun et al., la recurrencia fue un resultado binarizado sin tiempos de seguimiento. Por lo tanto, el índice C se utilizó como métrica de rendimiento en TCGA y Taylor et al., mientras que el ROC-AUC se utilizó en Sun et al. para la métrica de rendimiento para evaluar la capacidad de distinguir entre tumores recurrentes y no recurrentes.

Para el análisis del costo computacional, el TCGA completo (original norte = 404, pag = 19 658, con 76 eventos de recurrencia observados) y Taylor et al. (norte = 131, pag = 17 410, con 27 eventos de recurrencia observados) se utilizaron conjuntos de datos mientras se examinaba cómo aumentaba la carga computacional en función de la dimensionalidad de los datos. Desde Sun et al. (norte = 79, pag = 12 783, con 39 muestras recurrentes y 40 no recurrentes) proporcionó solo la recurrencia como un resultado binarizado, no se incluyó en la evaluación comparativa computacional del ajuste del modelo de Cox con OSCAR, pero se incluyó en la validación de la capacidad de generalización de modelos identificados cuando se utiliza OSCAR y los otros métodos de evaluación comparativa.

Para la validación del modelo, se aplicó la transformación de puntuación z en todos los genes para armonizar los conjuntos de datos. Además, se omitieron genes con menos del 50 % de valores únicos en las muestras de pacientes para evitar variables redundantes (es decir, genes con poca o ninguna variabilidad y, por lo tanto, con un valor predictivo limitado). Por último, para que los genes identificados fueran lo más comparables posible entre los conjuntos de datos, los genes se subdividieron en nombres de genes comunes. Esto resultó en una dimensionalidad de los datos de validación de pag = 10 253 en los tres conjuntos de datos transcriptómicos.

Resultados

Primero investigamos el rendimiento de nuestro método OSCAR en cuatro conjuntos de datos de cáncer de próstata basados ​​en cohortes de pacientes clínicos, que representan dos arquetipos muy distintos de datos biomédicos. Primero, aplicamos el método a la cohorte de cáncer de próstata avanzado obtenida del hospital universitario de Turku (TYKS), que representa una cohorte de pacientes del registro hospitalario del mundo real altamente heterogénea. En segundo lugar, aplicamos el método a tres cohortes de cáncer de próstata obtenidas de ensayos clínicos aleatorios, que habían sido parte de un desafío de modelado de cáncer de próstata DREAM y habían sido homogeneizadas previamente por los organizadores del desafío. Por último, para investigar el rendimiento del método en datos transcriptómicos de alta dimensión de pacientes con cáncer de próstata, utilizamos tres conjuntos de datos adicionales basados ​​en la expresión génica (TCGA, Taylor et al., y Sun et al.), que tienen una dimensionalidad de datos superior a pag > 10 000 y recurrencia de la enfermedad como punto final de predicción.

El rendimiento predictivo se evaluó con el índice de concordancia de Harrel (índice C) [36] cuando la información de seguimiento del paciente estaba disponible. El índice C se usa comúnmente en el análisis de supervivencia, ya que compara el orden de los riesgos previstos con el orden de los tiempos de supervivencia observados. [37–39]. En Sun et al. conjunto de datos, donde los tiempos de seguimiento de recurrencia no estaban disponibles, el área característica del operador del receptor bajo la curva (ROC-AUC) de uso común se usó como la métrica de rendimiento.

Para comparar el rendimiento de OSCAR, comparamos sus resultados con un método ampliamente utilizado LASSO [4]que utiliza L1-regularización. Incluimos otro L0-método basado en pseudonorma APM-L0 [15]que fue elegido en base a la búsqueda bibliográfica de L0-métodos relacionados capaces de realizar análisis de supervivencia. Además, comparamos OSCAR con un método de regresión penalizado por SCAD [25]. Además, la selección voraz hacia adelante (Greedy FS) se incluyó como método de referencia. Además, en LASSO, AMP-L0, y SCAD, el coeficiente de penalización del término de regularización utilizado se denota con λ > 0 y, por lo tanto, estos métodos pueden denominarse métodos de contracción penalizados por λ. Realizamos una validación cruzada (CV) para evaluar la capacidad de generalización, respaldada por el arranque de los datos y el posterior reajuste de los modelos para evaluar la solidez de las características seleccionadas.

Además de la precisión del modelo, evaluamos la rentabilidad de los modelos en función de los costos de medición de características obtenidos de los costos reales de referencia del kit de medición de laboratorio clínico del Hospital Universitario de Helsinki. Evaluamos el desempeño del modelo de los métodos OSCAR, LASSO, APM-L0, SCAD y Greedy FS con respecto a los costos calculados con el número correspondiente de predictores. Esto nos dio una aproximación del frente de Pareto con el objetivo de lograr un buen compromiso entre el costo mínimo en la vida real y la máxima precisión, ya que el problema subyacente puede verse como un problema de optimización multiobjetivo de estos dos objetivos.

También investigamos qué características se seleccionaron como predictores robustos. Más específicamente, realizamos bootstrapping (BS), en el que el modelo se ajustó 100 veces para calcular con qué frecuencia (%) se seleccionó cada característica como predictor cuando se estableció una cierta cardinalidad. Esto nos permitió interpretar qué características son los predictores más robustos que no son sensibles a ligeras perturbaciones en los datos de entrada.

Predicción pronóstica para el cáncer de próstata avanzado en datos de registros hospitalarios del mundo real

Basado en la evaluación de BS del método OSCAR en la cohorte TYKS (Fig. 3a), el PSA fue claramente el predictor más sólido de la supervivencia global en el cáncer de próstata. Sin embargo, como puede verse en las figuras 3b y 3c, el modelo original y el índice C de CV mejoraron sustancialmente cuando se eligieron al menos cuatro predictores. Con base en los resultados de la BS, los predictores más prometedores dentro de los valores de cardinalidad explorados fueron el PSA, la hemoglobina (HB), la fosfatasa alcalina (ALP) y el grupo de edad (AGEGRP). En particular, el costo se mantuvo bajo cuando se eligieron estos cuatro predictores (Fig. 3b azul). Agregar más predictores no mejoró drásticamente la precisión del método OSCAR en el conjunto de datos de entrenamiento. Sin embargo, cuando se introdujeron más predictores, OSCAR eligió adicionalmente la creatinina (CREAT) y el pulso (PULSE) para el modelado pronóstico.

miniatura

Fig. 3.

Datos TYKS: a) Rendimiento OSCAR BS. +/- denota el signo del coeficiente en el modelo. Coeficiente positivo: un mayor valor predictivo conduce a un alto riesgo. Coeficiente negativo: un valor predictivo más alto conduce a un riesgo bajo. ¤denota características seleccionadas por LASSO con λ1se y * denota características seleccionadas por LASSO con λmina denota características seleccionadas por APM-L0, s denota características seleccionadas por SCAD, g denota características seleccionadas por Greedy FS. El color indica con qué frecuencia entre 100 ejecuciones de arranque se selecciona una función cuando se establece una cierta cardinalidad (1 significa 100%). b) Precisión OSCAR en los datos de entrenamiento TYKS (índice C), y costo con respecto al número permitido de predictores. El costo se calcula por kits y se agrega un precio de kit si se usa alguna función de un kit. c) Rendimiento CV de OSCAR. d) Rendimiento CV de LASSO. Los números en la parte superior indican el número de predictores seleccionados por un λ específico. e) Rendimiento CV de APM-L0. f) Rendimiento CV de SCAD. g) Rendimiento CV de Greedy FS. Los puntos rojos indican los valores medios y las barras de error indican los errores estándar de la media (SEM) calculados sobre los pliegues de CV.

https://doi.org/10.1371/journal.pcbi.1010333.g003

En general, OSCAR resultó en un rendimiento mejorado en términos de índice C en CV, cuando se comparó con LASSO, APM-L0y métodos SCAD (Fig. 3c–3e). Greedy FS logró casi el mismo nivel de índice C que OSCAR, pero requirió más funciones para obtener el máximo rendimiento. Todos los métodos exhibieron una cantidad de variación aproximadamente similar sobre los pliegues CV. Cabe destacar que las estimaciones de OSCAR no se reducen a cero, sino que se incluyen o excluyen, lo que puede explicar en parte el efecto de saturación en las curvas de rendimiento de CV. En esta tarea de modelado, el número de predictores (pag = 22) fue relativamente bajo en comparación con el número de pacientes (norte = 590). Todos los métodos seleccionaron predictores similares (Fig. 3a). Por ejemplo, LASSO con λ conservativo (λ1se) seleccionaron tres predictores (PSA, HB y ALP), que son los mismos que los predictores más importantes de OSCAR basados ​​en el BS. El coeficiente de penalización λ en LASSO, APM-L0y SCAD generalmente se elige en función de un óptimo local para el rendimiento de CV (λmin), o cuando una solución está dentro de un rango del error estándar del óptimo local (λ1se). En OSCAR, para evitar elecciones arbitrarias para la penalización del modelo crucial, aprovechamos el uso de la inferencia basada en bootstrapping para explorar la solidez de las características además de la capacidad de generalización de CV.

Para comparar los métodos en términos de costos de implementación, investigamos el índice C medio en CV de los métodos OSCAR, LASSO, APM-L0SCAD y Greedy FS con respecto a los costos calculados con el número correspondiente de predictores o los valores de λ (Fig. B en Texto S1). Curiosamente, el frente de Pareto para el rendimiento de OSCAR CV frente al costo sugirió múltiples modelos candidatos, que luego podrían refinarse utilizando la guía clínica de expertos en el dominio. Los modelos de estos frentes de Pareto aproximados se seleccionaron posteriormente para probarlos en los datos de validación dejados de lado para evaluar aún más la capacidad de generalización del modelo más allá de los datos de entrenamiento ya observados. El índice C observado en el conjunto de datos de validación (Fig. 4) fue similar al del conjunto de datos de entrenamiento. Todos los métodos funcionaron bien en el conjunto de datos de validación, con OSCAR ligeramente mejor para costos bajos y altos (o número de predictores).

miniatura

Figura 4. Exactitud del modelo en la cohorte de datos de validación para OSCAR (círculos rellenos de rojo), LASSO (círculos huecos amarillos), APM-L0 (círculos huecos azules), SCAD (círculos huecos de color púrpura claro) y Greedy FS (círculos huecos verdes).

a) con respecto a los costos correspondientes, b) con respecto al número correspondiente de predictores. Solo se presenta el comportamiento de los modelos en los correspondientes frentes de Pareto aproximados.

https://doi.org/10.1371/journal.pcbi.1010333.g004

Además, consideramos escenarios en los que el frente de Pareto no tiene un interés especial y solo se requiere una predicción del modelo único. Para ello, se identificó el índice C máximo en CV, y de esta solución se seleccionó la cardinalidad dentro del rango del error estándar de la media (SEM). Este es un enfoque similar a los utilizados en LASSO, APM-L0y SCAD, pero usamos SEM en lugar de error estándar. Para Greedy FS, el modelo se seleccionó de manera similar a OSCAR. Usando esta estrategia, cuatro predictores (PSA, HB, ALP y AGEGRP Fig. 3a), lo que sugiere un modelo similar al identificado previamente con BS. Estos resultados demuestran que a pesar de que los métodos tenían una tendencia hacia las mismas características, la capacidad de generalización de OSCAR fue similar o mejor que aquellos que utilizan estimaciones de coeficientes basados ​​en la contracción.

Predicción con estructura de kit.

Si bien el enfoque más típico es elegir las funciones de una en una, como se presentó anteriormente, las funciones pueden estar disponibles como grupos. En la práctica clínica, las características a menudo se miden juntas como kits (p. ej., hemograma completo) y, por lo tanto, la inclusión de una sola característica de un kit en el modelo conduce a la disponibilidad de mediciones para el resto de las características del kit también. Como las funciones adicionales están disponibles al mismo costo, es económico considerar incluir todas las funciones del kit en el modelo simultáneamente.

Tal estructura de kit se puede incluir fácilmente en el método OSCAR (ver la sección 1 en S1 Text), y se investigó en el conjunto de datos TYKS. Las estructuras del kit utilizadas en el análisis se presentan en la Tabla 1. En consonancia con la versión sin kit de la subsección anterior, el PSA fue el predictor más relevante en los datos TYKS (Fig. 5a). Cuando se permiten dos kits, el modelo sugiere B-PVKT (hemograma completo), que incluye HB, plaquetas (PLT), glóbulos blancos (WBC), glóbulos rojos (RBC) y hematocrito (HEMAT). Si bien la inclusión de B-PVKT fue impulsada en gran medida por HB, que se había identificado como un predictor importante en el enfoque sin kit, ahora también estaban disponibles otros cuatro predictores para el ajuste del modelo. Los niveles del índice C del ajuste del modelo fueron ligeramente inferiores a los de la predicción sin kit. Por ejemplo, con dos kits (total de seis predictores), el índice C fue de 0,708 (Fig. 5b), mientras que el modelo sin kit de seis predictores tuvo un índice C de 0,728 (Fig. 3b). Esto se debe a la tendencia de incluir características menos pronósticas cuando un kit también incluye una característica altamente pronóstica. Sin embargo, el costo de seis predictores en el modelo sin kit fue de 180, mientras que el costo de seis predictores (dos kits) en el modelo de estructura de kit fue de 120.

miniatura

Figura 5. Rendimiento modelo de OSCAR cuando se utiliza la estructura del kit.

a) Desempeño BS, b) Bondad (C-index) y costo, c) Desempeño CV. Los puntos rojos indican los valores medios y las barras de error indican los errores estándar de la media (SEM) calculados sobre los pliegues de CV.

https://doi.org/10.1371/journal.pcbi.1010333.g005

Los niveles generales del índice C en el CV fueron similares con o sin la estructura del kit (Fig. 5c), en comparación con la predicción sin kit (Fig. 3c). Con la estructura del kit, el modelo incluía características que probablemente no serían seleccionadas por el modelo sin kit, como los PLT, WBC y RBC mencionados anteriormente. Además, se podrían incluir características adicionales manteniendo el costo bajo. Por ejemplo, con dos kits el costo era de 120 al incluir seis funciones, mientras que sin la estructura del kit se pagaba un costo mayor con solo dos funciones. Sin embargo, con más características, aumenta el riesgo de sobreajuste. Estos resultados demuestran cómo el método OSCAR permite la inclusión de estructuras de kits clínicamente relevantes y la adición de múltiples predictores de modelo en una cardinalidad dada. En la solicitud presentada, los modelos conservaron un nivel similar de capacidad de generalización independientemente de si se tuvo en cuenta o no la estructura del kit.

Predicción pronóstica para pacientes con cáncer de próstata en datos de ensayos clínicos

Para investigar cómo funcionaría la metodología desarrollada en una cohorte clínica más sistemáticamente recopilada y homogeneizada, investigamos el rendimiento del modelo en tres cohortes de datos de ensayos clínicos. Una de las diferencias sorprendentes fue que, en contraste con la cohorte TYKS del mundo real, el PSA se seleccionó con mucha menos frecuencia como factor pronóstico en las tres cohortes de datos del ensayo. En la cohorte ASCENT, el PSA se distinguió como un predictor prominente (Fig. 6 fila inferior); sin embargo, si solo se permitía un predictor, ALP se seleccionaba con mayor frecuencia en el análisis BS. Además, se seleccionó ALP como el principal predictor en la cohorte VENICE (fila superior de la Fig. 6). En la cohorte de MAINSAIL, la ALP no se detectó como una característica de pronóstico (Fig. 6, fila central) y, en cambio, la lactato deshidrogenasa (LDH) fue el predictor más destacado. En las cohortes VENICE y MINSAIL, HB se seleccionó con mayor frecuencia como segundo predictor.

miniatura

Figura 6.

Panel izquierdo: rendimiento de BS para tres cohortes de prueba. Panel derecho: bondad del modelo (índice C) y costos con respecto al número permitido de predictores. El costo se calcula por kits y se agrega un precio de kit si se usa alguna función de un kit.

https://doi.org/10.1371/journal.pcbi.1010333.g006

ALP y HB también fueron altamente pronósticos en la cohorte TYKS del mundo real. Desafortunadamente, la LDH, por lo demás muy interesante, no estaba disponible en la cohorte TYKS, debido al alto porcentaje de valores perdidos (> 80 %, Tabla A en Texto S1). Del mismo modo, a los datos de TYKS les faltaba la aspartato aminotransferasa (AST), que tenía un poder pronóstico notable en la cohorte VENICE. Observamos que AST también se detectó, junto con LDH, ALP y HB, como uno de los predictores más importantes en el DREAM 9.5 Prostate Cancer Prediction Challenge original. [6]. La falta de PSA como el mejor predictor claro también está en línea con los resultados del desafío DREAM 9.5, ya que es necesario considerar múltiples predictores y sus interacciones para obtener la máxima precisión de pronóstico. Además, la elevada prominencia del PSA como predictor de pronóstico también puede estar sesgado por la generación y el informe de datos, ya que se mide de forma rutinaria en los seguimientos del cáncer de próstata, mientras que las aplicaciones clínicas del mundo real pueden ser menos propensas a adaptar nuevos marcadores al uso rutinario.

En la cohorte VENICE, después de la selección de estos predictores principales que aparecían en todas las cohortes del ensayo, quedó menos claro qué características adicionales tenían el mayor poder pronóstico sobre la supervivencia del paciente. Sin embargo, según la precisión del modelo y los resultados de CV (Figs. 6 y 7 filas superiores), se alcanzó una mayor precisión del modelo con predictores adicionales. Las características candidatas potenciales que mejoraron el rendimiento del modelo fueron AST, CREAT, sodio (NA), HB y albúmina (ALB). Según la cardinalidad dentro del rango de SEM del índice C máximo en CV, OSCAR seleccionó tres predictores (ALP, HB y CREAT). En el análisis de CV, el método OSCAR dio como resultado un índice C medio más alto que LASSO, APM-L0, y SCAD (Fig. 7 fila superior). Greedy FS resultó en una precisión similar, lo que implica además la diferencia entre los métodos basados ​​en cardinalidad (OSCAR y Greedy FS) y los métodos basados ​​en contracción (LASSO, APM-L0y SCAD). Sin embargo, todos los métodos sugirieron predictores similares, indicando su importancia y robustez.

miniatura

Figura 7.

Primer panel: rendimiento CV de OSCAR en las tres cohortes de prueba. Segundo panel: rendimiento CV de LASSO en las tres cohortes de prueba. Tercer panel: desempeño CV de APM-L0 en las tres cohortes del ensayo. Cuarto panel: rendimiento CV de SCAD en las tres cohortes de prueba. Quinto panel: rendimiento CV de Greedy FS en las tres cohortes de prueba. Los puntos rojos indican los valores medios y las barras de error indican los errores estándar de la media (SEM) calculados sobre los pliegues de CV.

https://doi.org/10.1371/journal.pcbi.1010333.g007

En la cohorte de VELA MAYOR, se alcanzó un índice C relativamente alto usando aproximadamente cinco predictores, y agregar más predictores no aumentó considerablemente el índice C. En el CV también se alcanzó un máximo local con tres predictores (Fig. 7 fila central). Por lo tanto, según el análisis de BS, además de LDH y HB, se sugirieron como candidatos potenciales características como magnesio (MG), índice de masa corporal (IMC), ALB, AST y peso (PESO). Según la cardinalidad dentro del rango de SEM del índice C máximo en CV, OSCAR seleccionó dos predictores (LDH y HB). En comparación con LASSO, APM-L0, y SCAD, OSCAR nuevamente dio como resultado un índice C medio más alto (Fig. 7, fila central). Al igual que en la cohorte VENICE, Greedy FS resultó en un nivel similar de precisión en la cohorte MINSAIL.

En la cohorte ASCENT, PSA y ALP fueron los predictores más importantes (Fig. 6 fila inferior). Permitir más predictores, como neutrófilos (NEU), calcio (CA), LDH y HB, aumentó aún más el índice C. Según la cardinalidad dentro del rango de SEM del índice C máximo en CV, OSCAR seleccionó seis predictores (PSA, NEU, ALP, CA, HB y WBC). De manera similar a las otras cohortes de ensayos clínicos, OSCAR resultó en el índice C medio más alto en el análisis CV de la cohorte ASCENT en comparación con LASSO, APM-L0y SCAD (Fig. 7 fila inferior).

Para investigar los costos de implementación, se inspeccionaron las precisiones CV medias con respecto al costo en las tres cohortes de datos del ensayo y para todos los métodos (OSCAR, LASSO, APM-L0SCAD y Greedy FS) (Fig. C en Texto S1). Para cada uno de los emparejamientos del método de cohortes, se analizaron los frentes de Pareto aproximados. De manera similar al conjunto de datos TYKS, el método OSCAR resultó en mayores precisiones en comparación con LASSO, APM-L0, y SCAD a los mismos niveles de costo. Greedy FS resultó en niveles similares de precisión y costos. A continuación, se aplicaron los modelos correspondientes a los frentes de Pareto aproximados en el conjunto de datos de validación (Fig. 8). En los datos de validación, los modelos pueden haber mostrado cierto sobreajuste, ya que el índice C de validación más alto a menudo ya se alcanzaba con un costo de característica relativamente bajo. En general, OSCAR se desempeñó bien en la validación teniendo en cuenta el objetivo de mantener simultáneamente un alto índice C de validación y un bajo costo. Ninguno de los métodos de comparación sobresalió sobre las cohortes del ensayo.

miniatura

Figura 8. Exactitud del modelo en la cohorte de datos de validación para OSCAR (círculo relleno rojo), LASSO (círculos huecos amarillos), APM-L0 (círculos huecos azules), SCAD (círculos huecos de color púrpura claro) y Greedy FS (círculos huecos verdes) en las tres cohortes de datos de prueba VENICE, MINSAIL y ASCENT.

Solo se presenta el desempeño de los modelos en los frentes de Pareto aproximados correspondientes (ver Fig. C en S1 Text).

https://doi.org/10.1371/journal.pcbi.1010333.g008

Estos resultados demuestran que los modelos basados ​​en las cohortes de prueba difieren ligeramente entre sí en términos de los parámetros del modelo seleccionado, y también de la cohorte TYKS de la vida real. Sin embargo, parte de las diferencias puede deberse a la falta de datos en algunas de las cohortes (p. ej., LDH que falta en TYKS). Los métodos de comparación seleccionaron predictores similares dentro de una cohorte. En general, el método OSCAR mejoró la precisión de la predicción en los datos de entrenamiento sin aumentar el costo en comparación con los métodos basados ​​en la contracción.

Evaluación comparativa en conjuntos de datos de transcriptómica de alta dimensión para la predicción de la recurrencia del cáncer de próstata

Dado que los datos ómicos de alta dimensión presentan características clave para el modelado pronóstico y predictivo de la recurrencia y la supervivencia del paciente en la mayoría de los cánceres, realizamos un análisis adicional en tres conjuntos de datos de expresión génica del cáncer de próstata. En primer lugar, el Atlas del Genoma del Cáncer (TCGA) [21] presenta uno de los datos multi-ómicos disponibles abiertamente más completos sobre el cáncer, y se ha utilizado ampliamente para descubrir nuevos patrones moleculares en múltiples tipos de cáncer. Aquí, utilizamos las muestras primarias de cáncer de próstata (PRAD) con estado de recurrencia bioquímica del seguimiento, caracterizadas con RNA-seq y procesadas por la plataforma UCSC XenaBrowser. En segundo lugar, Taylor et al. [22] proporcionó cientos de muestras de cáncer de próstata disponibles públicamente del Memorial Sloan-Kettering Cancer Center (MSKCC) con perfiles de transcriptómica de matriz de exón HuEx-1_0-st para más de cien tumores primarios junto con información bioquímica de recurrencia con tiempos de seguimiento (ID de acceso GSE21032 de GEO) . En tercer lugar, Sun et al. [23] perfilaron a 79 pacientes usando microarrays HG-U133A Affymetrix (ID de acceso de GEO GSE25136), con casi casos recurrentes y no recurrentes, que se usaron para la predicción binarizada del estado de recurrencia, ya que los tiempos de seguimiento no estaban disponibles.

Entrenamiento y validación de modelos.

TCGA (norte = 404, un total de 76 eventos de recurrencia observados sin censura) presentó el conjunto de datos más completo, por lo que se utilizó para entrenar los cinco métodos. Una cuarta parte de los datos (norte = 101, con 18 eventos observados) se reservó como una cohorte de validación de TCGA retenida, mientras que las muestras de tumor primario restantes (norte = 303, con 58 eventos observados) para entrenar los modelos.

Los resultados de las predicciones de recurrencia con los cinco métodos se presentan en Fig 9. Los métodos basados ​​en la contracción (LASSO, APM-L0, y SCAD) se trazaron en función de λ; de estos, SCAD exhibió un número no monótono de coeficientes distintos de cero en función del coeficiente de penalización λ. Es de destacar que todos los métodos de contracción se agruparon estrechamente, y solo se observaron diferencias menores entre los métodos. Para los métodos basados ​​en cardinalidad (OSCAR y Greedy FS), un espectro de modelos se ajusta desde k = 1 a k = 50, y los resultados de los métodos de contracción se asignaron a la escala basada en la cardinalidad en su recuento de coeficientes distintos de cero en función del coeficiente de penalización λ.

miniatura

Figura 9. Rendimiento en los datos transcriptómicos de alta dimensión basados ​​en el ajuste del modelo en los datos de entrenamiento TCGA.

Métodos basados ​​en la contracción (LASSO, APM-L0, y SCAD) se trazaron en función de λ; de estos, SCAD fue el único método para el cual el número de características incorporadas apareció como una función no monótona de λ. a) Una cuarta parte de los datos TCGA (norte = 101) se dejó fuera como un conjunto de datos de validación retenido. b) Taylor et al. (norte = 131) con recurrencia bioquímica con tiempos de seguimiento se utilizó como un conjunto de datos de validación independiente. c) Sol et al. (norte = 79) con recurrencia bioquímica binarizada sin tiempos de seguimiento se utilizó como un conjunto de datos de validación independiente.

https://doi.org/10.1371/journal.pcbi.1010333.g009

En general, el conjunto de datos retenido de TCGA estaba bien modelado en todo el espectro de complejidad del modelo, y todos los modelos comenzaban con un índice C relativamente alto de 0,65 cuando se utilizan las primeras funciones (Figura 9a). Después de esto, los siguientes genes clave diferenciaron los métodos basados ​​en cardinalidad OSCAR y Greedy FS, con OSCAR eligiendo algunas características ventajosas mientras que Greedy FS redujo su índice C a alrededor de 0,6, donde permaneció hasta k = 50. Los métodos de contracción funcionaron mejor después k > 10, alcanzando un índice C de aproximadamente 0,7 a medida que se introdujeron más funciones en los modelos. En cardinalidades más altas, OSCAR se desempeñó ligeramente peor que los métodos de contracción, manteniendo un índice C razonable ligeramente por debajo de 0,65.

El Taylor et al. El conjunto de datos transcriptómicos diferenció OSCAR de los otros métodos cuando se entrenó en el conjunto de datos de entrenamiento TCGA (figura 9b); mientras que OSCAR inicialmente no se desempeñó bien con algunos genes, por k = 10 superó a los otros métodos y mantuvo un índice C de alrededor de 0,70. Los métodos basados ​​en la contracción nuevamente funcionaron de manera muy similar, con índices C que oscilaron entre 0,60 y 0,65. Greedy FS mantuvo un rendimiento estable del índice C de alrededor de 0,60 en todo el rango de cardinalidad.

sol et al. representó claramente la tarea de predicción más difícil para los modelos entrenados en TCGA, posiblemente porque era el conjunto de datos más antiguo, tenía el tamaño de muestra más bajo y carecía de información de seguimiento; el criterio de valoración fue un resultado de recurrencia binarizado, con ROC-AUC utilizado como la métrica de rendimiento (Figura 9c). Todos los métodos tuvieron inicialmente alta variabilidad hasta k = 10, con un rendimiento ligeramente mejor que el aleatorio (índice C = 0,5) en el mejor de los casos. Entre k = 10 a k = 20 OSCAR y los métodos de contracción mejoraron en rendimiento, con OSCAR obteniendo una ventaja sobre los otros métodos con ROC-AUC superando 0,65. Esto se redujo ligeramente cuando se introdujeron más funciones en el modelo, pero OSCAR se mantuvo por encima de ROC-AUC > 0,6.

Comparaciones de métodos.

Además del rendimiento de la validación, observamos que los métodos se separaron aproximadamente en dos clases distintas. La primera clase estaba constituida por aquellos métodos que se basan en una contracción λ-penalizada (LASSO, APM-L0y SCAD), que formó un modelo con un rendimiento muy similar en los tres conjuntos de datos de validación, como se ve en Fig. 9 paneles ac. La otra clase distinta estaba formada por OSCAR y Greedy FS, que en su lugar dependían de elegir una cardinalidad adecuada. Para examinar si esto también se reflejaba en las variables elegidas, elegimos las principales variables candidatas hasta k = 50 para OSCAR y Greedy FS, mientras que para los métodos penalizados con λ elegimos el λ más bajo con el primer modelo con 50 coeficientes distintos de cero. En la Fig. 10a se presenta un diagrama de Venn de estas variables y la superposición más grande de variables elegidas fue entre LASSO y APM-L0. Sin embargo, SCAD se desvió un poco de los otros métodos basados ​​en la contracción, ya que identificó 20 genes exclusivos de este método, en contraste con los recuentos de genes únicos específicos de LASSO y APM-L0 de tres y cuatro, respectivamente. OSCAR y Greedy FS identificaron notablemente más genes únicos, que eran específicos de cada método basado en la cardinalidad.

miniatura

Figura 10. Comparaciones de datos transcriptómicos de alta dimensión en el conjunto de datos TCGA.

a) Diagrama de Venn para los 50 genes principales identificados por los cinco métodos de selección de características. b) Tiempos de ejecución en un escritorio personal estándar submuestreado de TCGA a través de los métodos por dimensionalidad variable (muestras de todos los genes, pag), y el tamaño de la muestra (subconjuntos de todas las muestras de tumores primarios, norte).

https://doi.org/10.1371/journal.pcbi.1010333.g010

Con respecto a los principales predictores identificados en sí mismos, solo un predictor, PTER, se detectó en los cinco métodos. Además, genes como GPRC5D, HSPA1B, LINC00652, NADK, SEC61A2y TMC6 eran comunes para cuatro métodos, incluido OSCAR, y ZURDO2 y SLC14A2 eran comunes para OSCAR, LASSO y APML0. La interpretación biológica de los genes mencionados sigue siendo un desafío y no debe aceptarse al pie de la letra, por ejemplo, para el uso de predictores de riesgo clínico; aunque quizás sea un modelo robusto, no hay una conexión clara con la mecánica de la recurrencia del cáncer de próstata. Como se presenta en el trabajo original en [21, 22], los mecanismos subyacentes a la progresión y recurrencia del cáncer de próstata son multifacéticos, y es probable que los procesos biológicos asociados posiblemente se expliquen mejor a través de alteraciones del número de copias, fusiones de genes, mutaciones o vías de expresión de genes en lugar de la expresión de genes individuales. Como tal, si bien el modelo construido con OSCAR se generalizó bien en estos tres conjuntos de datos de validación, su aplicabilidad biológica debe estar sujeta al escrutinio del dominio experto particular, idealmente complementado con otras ómicas.

Carga computacional de OSCAR en datos transcriptómicos de alta dimensión.

Si bien muchos métodos de regresión regularizados computacionalmente eficientes se basan en algoritmos rápidos, como los enfoques basados ​​en el descenso de coordenadas, nuestro enfoque de optimización utiliza una descomposición DC de la función objetivo y sofisticados algoritmos de optimización no suaves para encontrar soluciones óptimas. Sin embargo, esto inevitablemente conlleva un mayor costo computacional.

Como realizamos simulaciones de carga computacional en TCGA y Taylor et al. conjuntos de datos para modelos de Cox en conjuntos de datos de alta dimensión (pag = 19 353 y norte = 404, y pag = 17 410 y norte = 140, respectivamente), observamos que el tiempo de cómputo aumentó linealmente para identificar kmáximo características principales como la cardinalidad máxima deseada k se incrementó (Fig D panel a en S1 Text para TCGA y Fig E panel a en S1 Text para Taylor et al.). Curiosamente, como usamos el procedimiento de aceleración en OSCAR (consulte la sección 2 en S1 Text para obtener más detalles) que contiene un parámetro de ajuste γ para el porcentaje de puntos de partida utilizados, este parámetro resultaba contra-intuitivo ya que no brindaba mejores soluciones ya que a mayor cantidad de puntos de partida se le proporcionaba un mayor valor de γ (Paneles bc de las Figs. D y E en Texto S1). Esto destaca que el diseño de heurísticas adecuadas para la optimización de un problema no convexo NP-difícil sigue siendo una tarea no trivial. Por último, observamos un incremento no lineal en el tiempo computacional a medida que la dimensionalidad pag aumentado (Figs. D y E, paneles d en Texto S1); a pesar de este aumento no lineal, la carga computacional de OSCAR se mantuvo dentro del alcance de un escritorio personal estándar incluso para datos transcriptómicos de alta dimensión.

Como era de esperar, OSCAR fue más intensivo computacionalmente que los métodos basados ​​en la contracción LASSO, APM-L0y SCAD. Si bien OSCAR fue computacionalmente más exigente que los métodos de reducción, retuvo un tiempo computacional menor que el de Greedy FS en la cuadrícula de parámetros de dimensionalidad probada. pag ∈ y tamaños de muestra norte ∈ como se ve en Figura 10b. Estas simulaciones de tiempo de ejecución se realizaron tomando muestras del conjunto de datos de transcriptómica TCGA.

Discusión

En este trabajo hemos introducido una nueva L0-metodología de regresión regularizada OSCAR, y demostró su uso en un conjunto de datos de registros hospitalarios (TYKS), tres conjuntos de datos de ensayos clínicos (VENICE, MINSAIL y ASCENT) y tres conjuntos de datos de transcriptómica de alta dimensión (TCGA, Taylor et al., Sun et al. .). El método OSCAR utiliza el L0-pseudonorma como término de penalización para restringir el número de predictores. A diferencia de los enfoques anteriores que intentan abordar la difícil naturaleza discreta de la L0-pseudonorma, OSCAR reestructura el problema para que no se requiera aproximación y se pueda obtener la solución original de manera exacta. Dado que la pseudonorma es discontinua y no convexa, el problema de optimización se vuelve NP-difícil y computacionalmente pesado [11]. En el método OSCAR, el L0-La penalización basada en pseudonormas se reescribió para facilitar la gestión, y esto conduce a un término de regularización en forma de composición DC (diferencia de dos funciones convexas). La optimización se realizó utilizando el algoritmo DBDC. [17, 18]. Este método es más sofisticado y más adecuado para problemas no convexos que, por ejemplo, el clásico descenso de coordenadas. DBDC también fue complementado por un más optimizador computacionalmente eficiente LMBM, disponible en el paquete R de OSCAR.

Comparamos OSCAR con LASSO (un método ampliamente utilizado en la predicción de supervivencia), APM-L0 (a L0basado en el método de predicción de supervivencia) [15]regresión penalizada por SCAD [25], y codiciosa selección hacia adelante. Todos los métodos basados ​​en la contracción seleccionaron predictores similares. En general, OSCAR brindó predicciones sólidas y precisas basadas en los análisis de CV y ​​no funcionó significativamente peor que los otros métodos en ninguno de los conjuntos de datos. Esto se debe en parte a que el L0-pseudonorma permite que los coeficientes del modelo varíen libremente desde cero, a diferencia, por ejemplo, de LASSO, que empuja los coeficientes hacia cero. LASSO, APM-L0, y SCAD utilizan el descenso de coordenadas en la optimización, que es más propenso a los óptimos locales en comparación con los algoritmos DBDC y LMBM. A pesar de la L0-acercamiento, APM-L0 realizado de manera similar a LASSO, muy probablemente porque incorpora ambos L1 y L2.

En la cohorte TYKS, el método OSCAR sugiere PSA, HB, ALP y grupo de edad como los principales predictores. También se observó una tendencia similar si se incluía la estructura del kit. El PSA refleja la gravedad de la enfermedad, especialmente en el estado diseminado y en la enfermedad resistente al tratamiento [40]. Por lo tanto, el PSA se ha reconocido a menudo como un predictor importante del cáncer de próstata y se está utilizando en la práctica para determinar y controlar el estado o la aparición del cáncer de próstata. La elevada prominencia del PSA como predictor de pronóstico en los datos del registro de nuestro hospital puede, por lo tanto, estar sesgada por la generación y el informe de los datos. Un alto nivel de ALP se asocia con metástasis en el cáncer de próstata avanzado y también se mide en la práctica clínica para controlar la propagación del cáncer a los huesos. [41]. Las metástasis suelen conducir a tiempos de supervivencia reducidos y, por lo tanto, a un mayor riesgo de muerte. Por lo tanto, los predictores asociados con las metástasis tienen una explicación intuitiva de por qué tienen poder pronóstico. HB es generalmente un buen indicador de la salud de una persona. De manera similar a la HB, el grupo de edad está relacionado con la salud general de una persona, ya que la carga de enfermedad general suele ser mayor cuando el estado de rendimiento físico es más bajo. Dado que predecimos la supervivencia general, una mayor edad conduce a una disminución del tiempo de supervivencia, independientemente de las características relacionadas con el cáncer, lo que complica un poco su interpretación de la supervivencia.

En la cohorte VENICE, ALP prevaleció como el predictor más destacado, y AST, CREAT, NA, HB y ALB siguieron como candidatos predictores adicionales. Como se mencionó anteriormente, la ALP se asocia con metástasis y, por lo tanto, con un mal pronóstico. AST prueba el daño hepático y se ha asociado con múltiples tipos de cáncer, incluidos el cáncer de próstata, vejiga, testículo y pulmón de células pequeñas. [42–46]. CREAT está relacionado con el mal funcionamiento de los riñones, y el metabolismo de NA también refleja principalmente la función renal. Tomados en conjunto, estos factores pronósticos reflejan, por lo tanto, una falla orgánica potencial o una carga de daño orgánico. Como tal, su uso en modelos pronósticos está altamente justificado e intuitivo.

La albúmina es una proteína que mantiene el equilibrio de líquidos y la osmolalidad en el torrente sanguíneo y se asocia con desnutrición y problemas en la ingesta de nutrientes en el intestino [47]. La ingesta comprometida de nutrientes puede ser causada por el cáncer, la disminución del rendimiento diario relacionada con el cáncer o los tratamientos contra el cáncer, lo que sugiere un vínculo potencial entre ALB y el pronóstico del cáncer. [48, 49]. Además, se considera que ALB refleja la función hepática y en el cáncer de próstata metastásico resistente a la castración, y se sabe que los niveles bajos de ALB se asocian con una mayor carga tumoral. [50, 51].

En la cohorte MINSAIL, HB y ALB se identificaron nuevamente como características clave de pronóstico. Además, la LDH se seleccionó sistemáticamente en el análisis de BS como predictor clave. La LDH es una enzima que participa en la producción de energía en casi todos los tejidos. Los tejidos dañados liberan LDH, que se ha relacionado con la carga del cáncer [48].

De manera similar a la cohorte VENICE, AST estuvo entre los principales predictores en la cohorte MAISAIL. Además, el IMC, la MG y el PESO tenían un poder pronóstico considerable, del cual la MG es una parte fundamental del metabolismo.

En la cohorte ASCENT, se seleccionaron características similares consistentemente en el análisis BS: PSA y ALP, junto con NEU, CA, LDH y HB. NEU son glóbulos blancos que matan bacterias y ayudan en la cicatrización de heridas. También se han asociado con el cáncer, a pesar de la anterior creencia de neutralidad frente al cáncer. [52, 53]. Especialmente el cáncer avanzado acumula NEU, que por lo tanto se convierte en un predictor de mala supervivencia. A diferencia de otras dos cohortes de ensayos, CA se seleccionó entre los seis principales predictores en la cohorte ASCENT. El CA es un mineral especialmente implicado en el metabolismo óseo. Dado que el cáncer de próstata es propenso a hacer metástasis en los huesos, el equilibrio de CA puede estar relacionado con el desarrollo del cáncer. Sin embargo, también se podría considerar otra causa, ya que la ingesta alta de calcio se ha asociado con un mayor riesgo de cáncer de próstata avanzado. [54, 55].

Curiosamente, cuando el método OSCAR y los cuatro métodos de evaluación comparativa se aplicaron a una tarea de predicción de recurrencia de mayor dimensión en los tres conjuntos de datos de transcriptómica, el rendimiento de los métodos comenzó a dividirse en aproximadamente dos categorías principales. OSCAR y Greedy FS formaron un paquete variable de métodos basados ​​en la cardinalidad, en el que la adición de nuevas características cambió la métrica de rendimiento del modelo de manera bastante considerable. Por el contrario, LASSO, APM-L0 (a pesar de incrustar el L0-pseudonorma), y los modelos penalizados SCAD se comportaron casi de manera idéntica (Fig. 9 paneles ac), lo que indica que su mecánica de regularización funciona de manera muy similar en aplicaciones de datos reales, a pesar de algunas diferencias en la formulación teórica subyacente. En estos ejemplos de aplicación, esto ilustra que, si bien existe una variedad de métodos de regresión regularizados, algunos son variantes de los métodos existentes y aún no se han explorado enfoques fundamentalmente diferentes.

Los datos de alta dimensión proporcionados por TCGA [21] y Taylor et al. [22] probablemente presenten un fenotipo de enfermedad más indolente que los de CRPC en la cohorte del hospital del mundo real (TYKS) o las tres cohortes clínicas de mCRPC (ASCENT, MINSAIL y VENICE). Por lo tanto, aunque aquí aplicamos modelos de supervivencia para la recurrencia bioquímica censurada por la derecha, es probable que las características subyacentes de los estudios para el cáncer de próstata difieran mucho en sus procesos moleculares. Esto debe tenerse en cuenta al interpretar los resultados presentados aquí. Además, los datos se modelaron en un nivel muy diferente (expresión génica frente a variables clínicas) e, idealmente, se incorporarían múltiples niveles de ómica junto con características clínicas clave. Como tal, el modelado integral del cáncer de próstata aprovecharía dichos datos multimodales, lo que impone sus propios desafíos únicos y permanece fuera del alcance de este trabajo orientado a la metodología.

Como trabajo futuro, sería interesante comparar OSCAR con algoritmos de selección de características secuenciales (SFA) más sofisticados que incorporen selección hacia adelante, eliminación hacia atrás y sus técnicas de mezcla adaptativa. [56]. Es posible que OSCAR tenga algunas propiedades beneficiosas debido a la naturaleza inherente del L0-pseudonorma, mientras que múltiples variantes de métodos SFA han existido durante mucho tiempo en el dominio de selección de características. Esto presenta un lugar para futuras investigaciones para explorar propiedades adicionales de la poco estudiada L0-pseudonorma en aplicaciones prácticas. Si bien puede ser intuitivo comparar primero el L0-acercarse a L1– y L2-regularización basada en normas, se pueden encontrar contrapartes más similares de tales algoritmos SFA, donde las normas no se utilizan en la formulación del método.

La novedad en implementaciones prácticas del L0-pseudonorma es muy interesante a la luz de nuestra reciente aplicación de la metodología OSCAR en el DREAM Anti-PD1 Prediction Challenge. En este desafío de análisis de datos de fuentes múltiples, el modelo de Cox producido por OSCAR fue el mejor en la predicción de la eficacia de nivolumab en el cáncer de pulmón de células no pequeñas entre los modelos de la competencia presentados por más de 50 equipos de modelado de datos en todo el mundo, representando con un conjunto diverso de algoritmos de modelado que van desde regresión basada en árbol, regresión regularizada (L1 y L2), a algoritmos de aprendizaje profundo. Esto pone de manifiesto que existe un potencial sin explotar en los métodos, como el L0-regresión regularizada, en varias aplicaciones donde puede superar a los métodos tradicionales de la competencia. [57]

En conjunto, quedan mejoras potenciales interesantes, a pesar de los ya prometedores resultados de validación con una precisión comparable y características razonables del modelo. Debido a la inclusión de la L0-pseudonorma, el problema de optimización se vuelve NP-duro y computacionalmente pesado como se ilustra en los datos transcriptómicos de alta dimensión (Fig D en S1 Texto para TCGA y Fig E en S1 Texto para Taylor et al. simulaciones de carga computacional del modelo de Cox) y en la figura 9b. Por lo tanto, un mayor desarrollo del proceso de optimización, como el uso de diferentes algoritmos de optimización o el perfeccionamiento de la selección de puntos de partida, podría mejorar potencialmente el tiempo de ejecución y las soluciones del modelo. Otra alternativa en el trabajo futuro es diseñar un optimizador completamente nuevo y computacionalmente ajustado a la medida del modelo no convexo y no suave resultante del uso de la L0-pseudonorma y complementarla con heurísticas adecuadas. Otro desarrollo potencial es reformular la función objetivo para tener en cuenta también los costos de características y kits proporcionados por el usuario. Sin embargo, esto conducirá a un problema de optimización discreta aún más difícil.

Conclusión

Hemos desarrollado, probado y puesto a disposición un enfoque novedoso para la L0-regresión regularizada, que anteriormente ha estado subrepresentada dentro del dominio de la regresión regularizada, en parte debido a los desafíos relacionados con la resolución de la tarea de optimización discreta. Nuestro enfoque es exacto para L0-penalización ya que no utiliza ninguna aproximación de la L0-pseudonorma, sino que utiliza su reformulación exacta DC (diferencia de dos funciones convexas), llevando la tarea de optimización al dominio continuo. Además, hemos incorporado la estructura del kit en el método, lo que permite la selección de características agrupadas a medida que se miden en la práctica clínica. Dado que las mediciones pueden tener costos potencialmente altos, la escasez del modelo permite la selección de las características más pronósticas para evitar costos excesivos mediante la adición de predictores redundantes. Los costos se investigaron junto con la precisión del modelo. Esto nos dio una aproximación del frente de Pareto basada en el costo mínimo y la precisión máxima, ya que el problema subyacente puede verse como un problema de optimización multiobjetivo con dos objetivos: precisión y costo. La optimización multiobjetivo podría considerarse como una nueva forma de proporcionar modelos que son muy relevantes para las aplicaciones del mundo real, en lugar de simplemente optimizar según las métricas estadísticas. De esta manera, la metodología regularizada también puede aprovechar el conocimiento de los expertos en el dominio para elegir el modelo final para las aplicaciones del mundo real. Desafortunadamente, dado que los datos de transcriptómica no se recopilan según el costo por gen, nuestro enfoque de frente de Pareto no era directamente aplicable a estos datos. Sin embargo, el simple recuento de características (es decir, genes en el modelo) podría tener aplicaciones en el diseño de paneles específicos comercialmente efectivos utilizando, por ejemplo, enfoques basados ​​en PCR.

El método OSCAR demostró un rendimiento eficiente y sólido en el contexto del cáncer de próstata metastásico resistente a la castración en datos de registros hospitalarios del mundo real, así como en tres cohortes de datos de ensayos clínicos y tres datos de transcriptómica de alta dimensión disponibles públicamente que capturan la recurrencia bioquímica. Nuestros resultados aportaron información sobre los mejores marcadores, que en cierta medida difieren entre los datos del registro del mundo real y los datos de los ensayos clínicos, posiblemente debido a las diferencias en las características de los pacientes de la cohorte, los patrones de ausencia o las prácticas de notificación de datos. Además, la exploración de los datos transcriptómicos reveló que los métodos existentes basados ​​en la contracción son propensos a proporcionar soluciones similares, a pesar de que algunos incorporan L0-Características similares a las pseudonormas. Así, observamos que la L0-pseudonorm puede presentar propiedades similares a los algoritmos de selección de características secuenciales en lugar de los métodos basados ​​en la contracción como LASSO (L1-norma) o regresión de cresta (L2-norma). Comparamos nuestra metodología con métodos de regularización muy populares, fácilmente disponibles para los usuarios de R, como LASSO, y demostramos un rendimiento comparable o mejorado de nuestro L0-acercarse. La metodología OSCAR ha sido implementada y distribuida como un paquete R fácil de usar, acompañada de una amplia gama de útiles funciones auxiliares y un conjunto de optimizadores Fortran eficientes llamados desde dentro del paquete R. Se puede acceder fácilmente al método OSCAR a través de Central R Archive Network (CRAN).

Información de soporte

Texto S1. Archivo de información complementaria.

El archivo contiene secciones: 1) Restricción del número de kits en OSCAR, 2) Procedimiento de aceleración para datos de alta dimensión, 3) Características de los datos, 4) Correlaciones, 5) Frentes de Pareto aproximados, 6) Datos transcriptómicos de alta dimensión.

https://doi.org/10.1371/journal.pcbi.1010333.s001

(PDF)

Expresiones de gratitud

Los autores desean agradecer a Mika Murtojärvi por su asesoramiento sobre el procesamiento de datos del registro hospitalario y a Arho Virkki por administrar el acceso a los datos del registro hospitalario TYKS.

Referencias

  1. 1.

    Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, et al. Estadísticas mundiales de cáncer 2020: estimaciones de GLOBOCAN de incidencia y mortalidad en todo el mundo para 36 cánceres en 185 países. CA: Revista sobre el cáncer para médicos. 2021;71(3):209–249. pmid:33538338

  2. 2.

    Rebello RJ, Oing C, Knudsen KE, Loeb S, Johnson DC, Reiter RE, et al. Cancer de prostata. Nature Reviews Cartillas de enfermedades. 2021;7(1):9. medio:33542230

  3. 3.

    Zelic R, Garmo H, Zugna D, Stattin P, Richiardi L, Akre O, et al. Predicción de la muerte por cáncer de próstata con diferentes herramientas de estratificación del riesgo previo al tratamiento: una comparación directa en un estudio de cohorte a nivel nacional. Urología Europea. 2020;77(2):180–188. pmid:31606332

  4. 4.

    Tibshirani R. El método del lazo para la selección de variables en el modelo de Cox. Estadística en Medicina. 1997;16(4):385–395. medio:9044528

  5. 5.

    Simon N, Friedman J, Hastie T, Tibshirani R. Caminos de regularización para el modelo de riesgos proporcionales de Cox a través del descenso de coordenadas. Revista de Software Estadístico. 2011;39(5):1–13. medio:27065756

  6. 6.

    Guinney J, Wang T, Laajala TD, Winner KK, Bare JC, Neto EC, et al. Predicción de la supervivencia general para pacientes con cáncer de próstata metastásico resistente a la castración: desarrollo de un modelo de pronóstico a través de un desafío de colaboración abierta con datos de ensayos clínicos abiertos. La Oncología Lancet. 2017;18(1):132–142. pmid:27864015

  7. 7.

    Halabi S, Lin CY, Kelly WK, Fizazi K, Moul JW, Kaplan EB, et al. Modelo de pronóstico actualizado para predecir la supervivencia general en quimioterapia de primera línea para pacientes con cáncer de próstata metastásico resistente a la castración. Revista de Oncología Clínica. 2014;32(7):671–677. pmid:24449231

  8. 8.

    Murtojärvi M, Halkola AS, Airola A, Laajala TD, Mirtti T, Aittokallio T, et al. Predicción de supervivencia rentable para pacientes con cáncer de próstata avanzado mediante ensayos clínicos y conjuntos de datos de registros hospitalarios del mundo real. Revista Internacional de Informática Médica. 2020; 133 (octubre de 2019): 104014. pmid:31783311

  9. 9.

    Laajala TD, Murtojärvi M, Virkki A, Aittokallio T. ePCR: un paquete R para la supervivencia y la predicción del tiempo hasta el evento en el cáncer de próstata avanzado, aplicado a cohortes de pacientes del mundo real. Bioinformática. 2018;34(22):3957–3959. pmid:29912284

  10. 10

    Cox DR. Modelos de regresión y tablas de vida. Revista de la Real Sociedad de Estadística Serie B, Metodológica. 1972;34(2):187–220.

  11. 11

    Natarajan BK. Escasas soluciones aproximadas a sistemas lineales. Revista SIAM de Computación. 1995;24(2):227–234.

  12. 12
    Guo W, Ma S, Liu Z. l0ara: modelo lineal generalizado disperso con aproximación L0 para la selección de características; 2020. Disponible en: https://cran.r-project.org/package=l0ara.
  13. 13

    Hazimeh H, Mazumder R. Selección rápida del mejor subconjunto: Descenso coordinado y algoritmos de optimización combinatoria local. La investigación de operaciones. 2020;68(5):1517–1537.

  14. 14

    Huang J, Jiao Y, Liu Y, Lu X. Un enfoque constructivo para L0 regresión penalizada. El diario de investigación de aprendizaje automático. 2018;19(1):403–439.

  15. 15.

    Li X, Xie S, Zeng D, Wang Y. Eficiente yo0-Selección de características de la norma basada en la minimización aumentada y penalizada. Estadística en Medicina. 2018;37(3):473–486. medio:29082539

  16. dieciséis.

    Gotoh Jy, Takeda A, Tono K. DC formulaciones y algoritmos para dispersión problemas de optimización. Programación Matemática. 2018;169(1):141–176.

  17. 17

    Joki K, Bagirov AM, Karmitsa N, Mäkelä MM, Taheri S. Método de haz doble para encontrar puntos estacionarios de Clarke en programación DC no uniforme. Revista SIAM sobre Optimización. 2018;28(2):1892–1919.

  18. 18

    Joki K, Bagirov AM. Paquete de métodos para la optimización de CC no uniforme. En: Bagirov AM, Gaudioso M, Karmitsa N, Mäkelä MM, Taheri S, editores. Optimización numérica no suave: algoritmos de última generación. Cham: publicación internacional de Springer; 2020. pág. 263–296. Disponible de: http://link.springer.com/10.1007/978-3-030-34910-3_8.

  19. 19

    Haarala M, Miettinen K, Mäkelä MM. Nuevo método de paquete de memoria limitada para la optimización no uniforme a gran escala. Métodos de Optimización y Software. 2004;19(6):673–692.

  20. 20

    Haarala N, Miettinen K, Mäkelä MM. Método de paquete de memoria limitada convergente globalmente para optimización no uniforme a gran escala. Programación Matemática. 2007;109(1):181–205.

  21. 21

    Red de Investigación del Atlas del Genoma del Cáncer. La taxonomía molecular del cáncer de próstata primario. Celúla. 2015;5(163). medio:26544944

  22. 22

    Taylor BS, Schultz N, Hieronymus H, Gopalan A, Xiao Y, Carver BS, et al. Perfil genómico integrador del cáncer de próstata humano. Célula cancerosa. 2010;18(1):11–22. medio:20579941

  23. 23

    Sun Y, Goodison S. Optimización de firmas moleculares para predecir la recurrencia del cáncer de próstata. Próstata. 2009;69(10):1119–27. pmid:19343730

  24. 24

    Miettinen K. Optimización multiobjetivo no lineal. Boston: Editores académicos de Kluwer; 1999.

  25. 25

    Fan J, Li R. Selección de variables para el modelo de riesgos proporcionales de Cox y el modelo de fragilidad. Los Anales de Estadística. 2002;30(1):74–99.

  26. 26

    Friedman J, Hastie T, Tibshirani R. Caminos de regularización para modelos lineales generalizados a través del descenso de coordenadas. Revista de Software Estadístico. 2010;33(1):1–22. pmid:20808728

  27. 27

    NE de Breslow. Contribución a la discusión del documento por DR Cox. Revista de la Real Sociedad Estadística B. 1972;34:216–217.

  28. 28

    Boyd SP, Vandenberghe L. Optimización convexa. Cambridge: Prensa de la Universidad de Cambridge; 2004.

  29. 29

    Chancelier JP, De Lara M. Capra-convexidad, factorización convexa y formulaciones variacionales para la yo0 pseudonorma Análisis de valores fijos y variacional. 2022;30(2):597–619.

  30. 30

    Gaudioso M, Gorgone E, Hiriart-Urruty JB. Selección de características en SVM a través de poliedros. k-norma. Cartas de optimización. 2020;14(1):19–36.

  31. 31

    Nocedal J, Wright SJ. Optimización Numérica. 2ª ed. Wright SJ, editor. Serie Springer en investigación de operaciones e ingeniería financiera. Nueva York: Springer; 2006.

  32. 32.

    Zangwill WI. Programación no lineal mediante funciones de penalización. Ciencias de la gestión. 1967;13(5):344–358.

  33. 33.

    Petrylak DP, Vogelzang NJ, Budnik N, Wiechno PJ, Sternberg CN, Doner K, et al. Docetaxel y prednisona con o sin lenalidomida en pacientes sin tratamiento previo con quimioterapia con cáncer de próstata metastásico resistente a la castración (MAINSAIL): ensayo de fase 3 aleatorizado, doble ciego, controlado con placebo. La Oncología Lancet. 2015;16(4):417–425. pmid:25743937

  34. 34.

    Tannock IF, Fizazi K, Ivanov S, Karlsson CT, Fléchon A, Skoneczna I, et al. Aflibercept versus placebo en combinación con docetaxel y prednisona para el tratamiento de hombres con cáncer de próstata metastásico resistente a la castración (VENICE): un ensayo aleatorizado doble ciego de fase 3. La Oncología Lancet. 2013;14(8):760–768. pmid:23742877

  35. 35.

    Scher HI, Jia X, Chi K, De Wit R, Berry WR, Albers P, et al. Ensayo de fase III aleatorizado y abierto de docetaxel más calcitriol en dosis altas versus docetaxel más prednisona para pacientes con cáncer de próstata resistente a la castración. Revista de Oncología Clínica. 2011;29(16):2191–2198. pmid:21483004

  36. 36.

    Harrell FE Jr, Califf RM, Pryor DB, Lee KL, Rosati RA. Evaluación del rendimiento de las pruebas médicas. JAMA. 1982;247(18):2543–2546. medio:7069920

  37. 37.

    Brentnall AR, Cuzick J. Uso del índice de concordancia para predictores de datos de supervivencia censurados. Métodos estadísticos en la investigación médica. 2018;27(8):2359–2373. pmid:27920368

  38. 38.

    Groot Koerkamp B, Wiggers JK, Gonen M, Doussot A, Allen PJ, Besselink MGH, et al. Supervivencia después de la resección del colangiocarcinoma perihiliar: desarrollo y validación externa de un nomograma de pronóstico. Anales de Oncología. 2015;26(9):1930–1935. pmid:26133967

  39. 39.

    Wierda WG, O’Brien S, Wang X, Faderl S, Ferrajoli A, Do KA, et al. Nomograma pronóstico e índice de supervivencia global en pacientes con leucemia linfocítica crónica no tratados previamente. Sangre. 2007;109(11):4679–4685. pmid:17299097

  40. 40

    Sandhu S, Moore CM, Chiong E, Beltran H, Bristow RG, Williams SG. Cancer de prostata. La lanceta. 2021;398(10305):1075–1090.

  41. 41.

    Heinrich D, Bruland O, Guise TA, Suzuki H, Sartor O. Fosfatasa alcalina en el cáncer de próstata metastásico resistente a la castración: reevaluación de un biomarcador más antiguo. Oncología del Futuro. 2018;14(24):2543–2556. pmid:29925281

  42. 42.

    De Ritis F, Coltorti M, Giusti G. Una prueba enzimática para el diagnóstico de hepatitis viral: las actividades séricas de transaminasas. Clínica Química Acta. 2006;369(2):148–152. pmid:16781697

  43. 43.

    Wang H, Fang K, Zhang J, Jiang Y, Wang G, Zhang H, et al. La importancia de la relación De Ritis (aspartato transaminasa/alanina transaminasa) en la predicción de los resultados patológicos y el pronóstico en pacientes con cáncer de próstata localizado. Urología y Nefrología Internacional. 2017;49(8):1391–1398. medio:28550473

  44. 44.

    Ha YS, Kim SW, Chun SY, Chung JW, Choi SH, Lee JN, et al. Asociación entre el índice de De Ritis (aspartato aminotransferasa/alanina aminotransferasa) y los resultados oncológicos en pacientes con cáncer de vejiga después de una cistectomía radical. BMC Urología. 2019;19(1):1–8.

  45. 45.

    Gorgel SN, Akin Y, Koc EM, Kose O, Ozcan S, Yilmaz Y. Impacto del aumento de la proporción entre aspartato aminotransferasa y alanina aminotransferasa (De Ritis) en el pronóstico del cáncer testicular. Urología clínica y de investigación. 2019;60(3):169–175. pmid:31098424

  46. 46.

    Chen SL, Xue N, Wu MT, Chen H, He X, Li JP, et al. Influencia del nivel preoperatorio de aspartato aminotransferasa sérica (AST) en el pronóstico de pacientes con cáncer de pulmón de células no pequeñas. Revista Internacional de Ciencias Moleculares. 2016;17(9):1–12. medio:27598151

  47. 47.

    Forse RA, Shizgal HM. Albúmina sérica y estado nutricional. Revista de Nutrición Parenteral y Enteral. 1980;4(5):450–454. pmid:6776308

  48. 48.

    Berry WR, Laszlo J, Cox E, Walker A, Paulson D. Factores pronósticos en el carcinoma de próstata metastásico y que no responde a las hormonas. Cáncer. 1979;44(2):763–775. pmid:476583

  49. 49.

    Hola SD, Walker LG, Deehan DJ, Eremin OE. Albúmina sérica: un indicador pronóstico en pacientes con cáncer colorrectal. Revista del Real Colegio de Cirujanos de Edimburgo. 1998;43(3):163–168. medio:9654876

  50. 50

    Caram MV, Kumbier K, Tsao PA, Burns JA, Sparks J, Bauman J, et al. El panorama cambiante del tratamiento y la supervivencia de los hombres con cáncer de próstata resistente a la castración en la era de los tratamientos novedosos. Revista de Oncología Clínica. 2022;40(6_suplemento):67–67.

  51. 51.

    Guo Y, Shi D, Zhang J, Mao S, Wang L, Zhang W, et al. La puntuación de hemoglobina, albúmina, linfocitos y plaquetas (HALP) es un nuevo factor pronóstico importante para los pacientes con cáncer de próstata metastásico sometidos a prostatectomía radical citorreductora. Revista de cáncer. 2019;10(1):81–91. pmid:30662528

  52. 52.

    Coffelt SB, Wellenstein MD, De Visser KE. Neutrófilos en el cáncer: Neutral no más. Nature Reviews Cáncer. 2016;16(7):431–446. pmid:27282249

  53. 53.

    Shaul ME, Fridlender ZG. Neutrófilos asociados a tumores en pacientes con cáncer. Nature Reviews Oncología Clínica. 2019;16(10):601–620. pmid:31160735

  54. 54.

    Giovannucci E, Liu Y, Stampfer MJ, Willett WC. Un estudio prospectivo de la ingesta de calcio y el cáncer de próstata incidente y fatal. Biomarcadores y prevención de la epidemiología del cáncer. 2006;15(2):203–210. medio:16492906

  55. 55.

    Giovannucci E, Rimm EB, Wolk A, Ascherio A, Stampfer MJ, Colditz GA, et al. Ingesta de calcio y fructosa en relación con el riesgo de cáncer de próstata. Investigación sobre el cáncer. 1998;58(3):442–447. pmid:9458087

  56. 56.
    Molina LC, Belanche L, Nebot A. Algoritmos de selección de características: una encuesta y evaluación experimental. En: 2002 Conferencia internacional IEEE sobre minería de datos, 2002. Actas. 2002. pág. 306–313.
  57. 57.

    Mason M, Lapuente-Santana Ó, Halkola AS, Wang W, Mall R, Xiao X, et al. Un desafío comunitario para predecir los resultados clínicos después del bloqueo del punto de control inmunitario en el cáncer de pulmón de células no pequeñas. bioRxiv. 2022.

Fuente del artículo

Deja un comentario