Bandas de confianza y pruebas de hipótesis para curvas de enriquecimiento de aciertos | Revista de quimioinformática

Evaluación de algoritmos de ranking

Dejar S denotan la puntuación de un algoritmo de clasificación, donde los valores más grandes de S sugieren una creencia más fuerte de que un ligando es activo. S se considera razonablemente como una variable aleatoria. La actividad de un ligando también puede considerarse como una variable aleatoria: (X = I(activo))dónde (yo(cdot )) es la función indicadora. Eso es, (X=1) cuando un ligando pertenece a la clase activa ((+)) y (X = 0) cuando un ligando pertenece a la clase inactiva (-). Dejar (P(X = 1) = pi _+). Dado que un ligando es activo, S tiene función de distribución acumulativa (F_+(s))y dado que un ligando no es activo, S tiene función de distribución acumulativa (F_(s)). La combinación de las puntuaciones de ambas clases da como resultado la distribución de la mezcla (F_S(s) = pi _+F_+(s) + (1-pi _+)F_-(s).)

Una vez clasificados los ligandos según su puntuación, Sun umbral en la puntuación, t, dará prioridad a una fracción superior del conjunto de datos para la prueba. Sea esta fracción superior (r = P(S > t)), que es el eje x de la curva de enriquecimiento de la población. La curva de enriquecimiento de aciertos (también conocida como curva de enriquecimiento, curva de acumulación o curva de respuesta porcentual capturada) se usa a menudo cuando se usa una curva completa para evaluar una campaña de filtrado virtual. Gráfica de curvas de enriquecimiento de la población afectada (P(S > t | +)) en el eje y, donde (P(S>t|+)) que se conoce como recuerdo en el umbral t.

Hasta ahora, hemos descrito las distribuciones a nivel de población de variables aleatorias X y S, es decir, la distribución de la actividad del ligando para la población de fármacos candidatos de la que se muestrea un conjunto de datos y la distribución de puntuaciones que les asignaría un algoritmo de clasificación. Consideramos que un conjunto de datos bajo examen es una muestra aleatoria de pares de actividad y puntuación (\) de estas distribuciones a nivel de población. Dejar (\) ser los puntajes que fueron muestreados de la (+) componente de mezcla de clases, (F_+(s))y (\) ser los puntajes que fueron muestreados del componente de mezcla de clase, (F_-(s)).

La curva empírica de enriquecimiento de hits traza la fracción acumulada de activos en el eje y, identificado como una función de la parte superior r fracción de ligandos clasificados. Esto significa que todos los compuestos con puntajes más allá del percentil (100(1-r)) son «probados» y se determina la fracción acumulada de activos. Otra forma de determinar este percentil sería elegir un umbral (_r) tal que la fracción de artículos con (S > _r) es r. Usamos () en vez de t para indicar que este umbral define una fracción de los datos de la muestra y no la población.

Específicamente, definimos, ((cdot )) y (_+(cdot )) ser las funciones de distribución acumulativa empírica (cdfs) para todos y (+) puntuaciones:

$$begin (s)&= fracsum _^I(S_i le s),&_+(s)&= fracsum _^I(S_i^+ le s). end$$

Dada una fracción de prueba ridealmente elegimos un umbral (_r) ser el percentil de puntaje seleccionado para la prueba tal que (r = 1-(_r)). Para dar cabida a la posible existencia de vínculos en los datos observados sobre las puntuaciones, definimos (_r=min {t:

(1)

dónde

$$begin Var_B(_r)=(n_+)^theta _r(1-theta _r) end$ ps

(2)

es la varianza binomial simple, y (Lambda _r = P(+|S = t_r)) es una tasa de actividad específica del umbral. Este resultado supone que (pi _+ > 0)y que las densidades condicionales (f_+(s)) y (f_-(s)) son positivos y continuamente diferenciables en una vecindad de (S=t_r); de ahora en adelante llamadas Condiciones 1 y 2.

Cuando se trata de comparar el recuerdo estimado entre dos algoritmos que compiten, hay dos fuentes de correlación que deben abordarse. Una fuente es la correlación inducida por la necesidad de estimar (t_r) usando (_r)y eso se aborda utilizando el resultado de Jiang y Zhao [14]. La otra fuente de correlación surge porque las puntuaciones de los algoritmos que compiten se derivan utilizando algunos datos comunes, y esta fuente de correlación no se ha abordado previamente en la literatura. Al tener en cuenta ambos tipos de correlación, esperamos mejorar la potencia para detectar diferencias reales en el rendimiento algorítmico.

Las siguientes subsecciones presentan cuatro métodos de prueba para diferencias significativas en el recuerdo de dos algoritmos en competencia. Primero, ampliamos el enfoque de Jiang y Zhao [14] utilizar un enfoque de proceso empírico que dé cuenta de la correlación Entre algoritmos, además de la correlación inducida dentro de un algoritmo particular por estimación de (t_r); este método se llama EmProc. En segundo lugar, presentamos detalles sobre cómo se puede aplicar a la aplicación un procedimiento de McNemar para proporciones correlacionadas; hasta donde sabemos, esto no se ha hecho previamente. En tercer lugar, aplicamos el Jiang y Zhao [14] resultado de la prueba de hipótesis; este método se llama IndJZ y solo está optimizado para abordar la correlación dentro de cada algoritmo pero no la correlación entre algoritmos. Y cuarto, tratamos (Q_) y (Q_) como variables aleatorias binomiales correlacionadas, ignorando así las correlaciones inducidas al estimar (t_r) pero teniendo en cuenta las correlaciones entre algoritmos; este método se llama CorrBinom. Los cuatro métodos se comparan mediante un estudio de simulación en la sección «Resultados de la simulación».

Los cuatro métodos se basan en la normalidad asintótica de un estadístico de prueba de la forma

$$begin Z_r = frac. end$$

rechazamos (H_: theta _ = theta _) si (|Z_r| > z_)dónde (z_ = 1,96) por un (alfa = .05) Prueba de nivel. Los intervalos de confianza puntuales se obtienen como

$$begin (_ – _) pm z_SE(_ – _). end$$

(3)

Los métodos difieren en su enfoque para estimar (Var(_ – _)).

EmProc: ajustar la correlación entre algoritmos y la correlación dentro de cada algoritmo

Tomando un enfoque de proceso empírico, el método delta funcional empleado por Jiang y Zhao [14] se amplió para derivar el siguiente resultado de normalidad asintótica con respecto a (_ -_).

Teorema 1

Dado que las condiciones 1 y 2 se cumplen para ambos (theta _) y (theta _)después

$$begin sqrtBigr xrightarrow [] N(0, tau ^2_) end$$

como (n rightarrow infty). Además, la expresión de la varianza asintótica es

$$begin tau ^2_/n Var_(_ -_) = Var_(_) + Var_( _) – 2Cov_(_ ,_), end$$

(4)

dónde: (Var_(cdot)) es como se da en la Ec. (1) y aplicado para cada algoritmo;

$$begin Cov_(_ ,_)&= Cov_(_ ,_)left ; nonumber \ Cov_(_ ,_)&= (n_+)^Bigl ( theta _ – theta _theta _ Bigr ) end$$

(5)

es la covarianza entre conteos binomiales; (r=P(S_j>t_)) y determina el umbral para el algoritmo jpor (j=1,2); (theta _ = P(S_1>t_,S_2>t_|+)) es la probabilidad condicional de que ambos algoritmos den como resultado la prueba de un ligando activo porque está altamente clasificado por ambos algoritmos; (gamma _ = P(S_1>t_,S_2>t_)) es la probabilidad incondicional de que un ligando esté altamente clasificado por ambos algoritmos; y (Lambda _ = P(+|S_j = t_)) por (j=1,2). Los detalles y las derivaciones se encuentran en el Archivo adicional 1: Apéndice.

Para estimar (Var_(_ -_)), reemplazamos los parámetros de la población con estimadores consistentes. La distribución de frecuencias para el estado probado/no probado de acuerdo con ambos algoritmos de clasificación para los ligandos activos se muestra en la Tabla 1, donde (Q_ = sum _^X_iI\) cuenta el número de ligandos activos probados por el algoritmo j por (j=1,2)y (Q_ = sum _^X_iI\) cuenta el número de ligandos activos probados por ambos algoritmos. Como se discutió anteriormente, estimamos (theta _) con (_=Q_/(n_+)). Se obtienen estimaciones adicionales como (_ = sum _^n I/ n), (_ = Q_/(n_+))y (_) se obtiene utilizando la regresión del kernel de Nadaraya-Watson con el selector de ancho de banda de «regla general» [16].

Tabla 1 Distribución de frecuencias para el estado probado/no probado de los ligandos activos según ambos algoritmos de clasificación, en una fracción de prueba fija r

Bajo la hipótesis nula (H_: theta _=theta _)podríamos usar alternativamente un estimador agrupado de (theta _) por (j en \)a saber (_r = frac(_ + _)) para reemplazar ambos (_) y (_) en la expresión de la varianza (4). Consideramos las estimaciones de la varianza utilizando los enfoques combinados y no combinados.

Prueba de McNemar para la diferencia en el recuerdo

Al estimar el recuerdo, el mismo conjunto de ligandos activos sirve simultáneamente como conjunto de «ensayos» para ambos algoritmos de clasificación, y la decisión es si cada algoritmo selecciona o no el ligando activo para la prueba. La consecuencia es que los datos de ambos algoritmos pueden verse como totalmente emparejados. La prueba estándar utilizada para proporciones pareadas es la prueba de McNemar. [17, 18]. La Tabla 1 muestra cómo el número de ligandos activos probados por cualquiera de los algoritmos de clasificación se puede escribir como un (2 veces 2) mesa de contingencia. Los valores de recuperación estimados se presentan como las probabilidades marginales de probar un ligando activo para cada algoritmo de clasificación. En consecuencia, la prueba asintótica de McNemar se basa en el estadístico de prueba

$$begin Z_r = frac = frac = frac end$$

y supone que las cuentas discordantes ((Q_ – Q_)) y ((Q_ – Q_)) son grandes. En un estudio de simulación que comparó la prueba asintótica de McNemar con otras pruebas para datos nominales emparejados, se encontró que la prueba asintótica de McNemar era la más poderosa en todos los escenarios de simulación, aunque ligeramente liberal en términos de error de tipo I. [18].

Mientras que la prueba asintótica de McNemar impone la condición nula (theta_=theta_) para reemplazar (Q_ – Q_) con cero en el expresión de varianza, se necesita un enfoque alternativo para obtener intervalos de confianza puntuales. Los intervalos de confianza de Wald puntuales utilizan la siguiente expresión de error estándar en la ecuación. (3):

$$begin SE(_ – _) = sqrt/(n_+). end$$

Desafortunadamente, varios estudios [18,19,20] demostrar propiedades de cobertura inadecuadas del intervalo de Wald. El precio de Bonett [21] El intervalo ajustado es una simple modificación del intervalo de Wald y se ha demostrado que tiene buenas propiedades de cobertura. [18, 20]. Nos referimos al ajuste de Bonett-Price como un ajuste «más» porque agrega una unidad a cada uno de los recuentos discordantes que se muestran en la Tabla 1, luego aplica la fórmula de Wald. Más precisamente, cuenta discordante (Q_ – Q_) se convierte (Q_ – Q_+1) y cuenta discordante (Q_ – Q_) se convierte (Q_ – Q_+1), sumando así uno a cada uno de los conteos marginales y dos al total general. Como resultado, el intervalo Bonett-Price plus es

$$begin frac pm z_ sqrt , end$$

observando que tanto el punto central como el error estándar han sido ajustados.

IndJZ: ajustar la correlación dentro de cada algoritmo pero no la correlación entre algoritmos

Si asumimos que (_) y (_) son independientes entonces (Var_(_ – _) = Var_(_) + Var_(_))dónde (Var_(_)) se obtiene como en la Ec. (1) para (j=1,2). Para probar la igualdad de recuperación de los algoritmos, se podría usar un estimador de la varianza combinado o no combinado, como se discutió anteriormente.

Cuando los algoritmos de la competencia tienen puntajes que tienen una correlación altamente positiva, se espera que el enfoque IndJZ genere errores estándar que son innecesariamente grandes, lo que da como resultado una prueba con poca potencia.

CorrBinom: ajusta la correlación entre algoritmos pero no la correlación dentro de cada algoritmo

En este enfoque, tratamos (Q_) como si siguiera una distribución binomial simple, aunque no es así. Como resultado, la expresión de varianza relevante es (Var_B(_ -_) = Var_(_) + Var_(_) – 2Cov_(_ ,_) ,) dónde (Var_B(cdot)) se define en la Ec. (2) y (Cov_B(cdot ,cdot )) se define en la Ec. (5).

Para probar la igualdad de recuperación de los algoritmos, se podría usar un estimador de la varianza combinado o no combinado, como se discutió anteriormente.

Resultados de la simulación

Simulación de conjuntos de datos de evaluación comparativa

Geppert et al. [4] y Xia et al. [22] han revisado recientemente los conjuntos de datos estándar utilizados para comparar las herramientas de evaluación virtual. El objetivo al diseñar un conjunto de datos de referencia es imitar las colecciones químicas del mundo real; esto significa que la puntuación y las distribuciones de actividad de los compuestos en la referencia deben parecerse a estas poblaciones. Sin embargo, con frecuencia hay sesgos en los conjuntos de datos de referencia.

Un tipo de sesgo es sesgo analógico [23]. Los conjuntos de datos con actividades conocidas hacia un objetivo a menudo tienen andamios químicos muy limitados (o quimiotipos) porque fueron ensamblados por químicos médicos para estudios de relación estructura-actividad (SAR). En una pantalla virtual prospectiva real, los quimiotipos son más diversos. Otro tipo de sesgo es enriquecimiento artificial [24]. Esto ocurre cuando los inactivos no se parecen a los activos en términos de propiedades fisicoquímicas de baja dimensión. Esto da como resultado un problema de clasificación demasiado simplificado que no refleja la verdadera complejidad de los SAR presentes en una pantalla virtual prospectiva. El tercer tipo de sesgo es sesgo falso negativo [25]. Moléculas incluidas en los conjuntos de datos de evaluación comparativa como inactivos (también conocidos como negativos o señuelos) son a menudo químicamente similares a los ligandos activos y no se han probado experimentalmente. En el pasado, esto era necesario porque era poco común que un gran conjunto de datos de inactivos estuviera disponible en las bases de datos químicas de uso común como ChEMBL. [26].

Las pantallas virtuales prospectivas generalmente se realizan en grandes bases de datos como ZINC [27]. Estas bases de datos pueden considerarse muestras aleatorias del espacio químico «similar a las drogas». Es probable que las curvas de rendimiento estimadas por pantallas virtuales retrospectivas calculen mal el rendimiento en una pantalla virtual prospectiva si el conjunto de datos de referencia no es también una muestra aleatoria. Hasta la fecha, el directorio de señuelos útiles (DUD) es la colección de conjuntos de datos de evaluación comparativa más utilizada en la evaluación de pantallas virtuales retrospectivas, sin embargo, cada uno de los sesgos mencionados se han observado en estos conjuntos de datos. [22, 23, 28]. El directorio de señuelos útiles, conjuntos de datos mejorados (DUD-E) [29] se desarrollaron para abordar algunos sesgos en estos conjuntos de datos, aunque los conjuntos de datos aún carecen de pruebas experimentales de señuelos (es decir, todavía hay un sesgo de falso negativo) y hay una frecuencia poco realista de activos incluidos en cada uno de los conjuntos de datos. Los conjuntos de datos de evaluación comparativa de MUV [30] también se han desarrollado con la intención de minimizar estos sesgos. Una clara ventaja sobre DUD-E es que los señuelos en MUV se han probado experimentalmente. Los autores de MUV recopilaron 18 ensayos de detección primaria de alto rendimiento de PCBioAssay [31]. Los activos se confirmaron aún más con ensayos de bajo rendimiento para minimizar el número de falsos positivos y se realizaron verificaciones adicionales de falsos negativos. Modelamos nuestras simulaciones en los conjuntos de datos de evaluación comparativa de MUV, porque creemos que estos conjuntos de datos son los más representativos de la población de candidatos a fármacos.

Basando nuestras simulaciones en MUV, simulamos conjuntos de datos con (n = 150.000), (pi_+ = .002)y (sesgo = 499) (dónde sesgar es la relación de inactivos a activos, ((1-pi _+)/pi _+)). En general, esto es representativo de un conjunto de datos de cribado virtual típico con muestras de gran tamaño y un desequilibrio de clases extremo.

Diseño del estudio

Se realizó un estudio para investigar el poder de EmProc, McNemar, IndJZ y CorrBinom para detectar diferencias entre algoritmos competidores. Para cada uno de EmProc, IndJZ y CorrBinom, se consideraron un total de cuatro modificaciones según se aplicara pooling o Bonett-Price plus ajuste. Aunque se propuso el ajuste Bonett-Price plus para el intervalo de confianza de Wald a fin de mejorar la probabilidad de cobertura, nos preguntamos si también se podría usar para probar hipótesis. McNemar no fue modificado. De hecho, McNemar es idéntico a CorrBinom con agrupación y sin ajuste adicional.

También se realizó un estudio para investigar las probabilidades de cobertura de los intervalos de confianza asociados con EmProc, IndJZ, CorrBinom y el intervalo de Wald ajustado más Bonett-Price (este último se denomina intervalo de McNemar, por brevedad). No hay justificación para la agrupación cuando se consideran los intervalos de confianza, por lo que no se aplica ninguna agrupación. Continuamos investigando el impacto del ajuste Bonett-Price plus. El intervalo de McNemar es idéntico al intervalo de CorrBinom con ajuste positivo.

Se consideraron cuatro mecanismos generadores de datos: binormal o bibeta; y correlación de 0,9 o 0,1. En el modelo binormal, ambos algoritmos tienen (F_-) como la función de distribución normal estándar, mientras que el Algoritmo 1 tiene (F_+) como lo normal con media (0.8raíz cuadrada) y varianza uno, y el Algoritmo 2 tiene (F_+) como lo normal con media (0.6sqrt) y varianza uno. El algoritmo 1 tiene una separación relativamente grande (Cohen’s (D=0.8)) entre las distribuciones de puntuación de los (+) y − clases; El algoritmo 2 tiene un rendimiento ligeramente disminuido (Cohen’s (D=0.6)). Para capturar el hecho de que ambos algoritmos están puntuando los mismos compuestos, simulamos las puntuaciones positivas de una normal bivariada con marginales como se describe arriba y el parámetro de correlación (rho =0.1) o (rho =0.9). Las puntuaciones negativas se simularon a partir de una normal bivariada separada con el marginales descritos y el mismo parámetro de correlación. En el modelo bibeta, ambos algoritmos tienen (F_-) como la distribución beta con (alfa =2) y (beta =5)mientras que el Algoritmo 1 tiene (F_+) como la beta(5,2) y el Algoritmo 2 tiene (F_+) como la beta(4,2). El muestreo se realizó utilizando las distribuciones beta bivariadas para incorporar correlaciones similares al modelo binormal. El muestreo se realizó utilizando el cópula Paquete R [32].

Hay una separación mucho mayor entre (F_-) y (F_+) en el modelo bibeta, por lo que las curvas de enriquecimiento de aciertos reales son más altas que en el modelo binormal, y esperamos una mayor correlación de las puntuaciones en las primeras fracciones de prueba. Pero tanto para el modelo binormal como para el bibeta, los parámetros se eligieron para dar como resultado curvas de enriquecimiento de aciertos muy similares para los dos algoritmos en competencia, creando así una tarea desafiante para la prueba de hipótesis de las diferencias entre las curvas de enriquecimiento de aciertos.

Los estudios se realizaron utilizando 10.000 réplicas de Monte Carlo. Estimamos la tasa de error de tipo I para los métodos de prueba de hipótesis asumiendo que ambos algoritmos de clasificación tenían las distribuciones de puntuación del Algoritmo 1 o del Algoritmo 2.

Resultados

La agrupación no tiene impacto ni en la potencia ni en la protección contra errores de tipo I para EmProc, IndJZ o CorrBinom (los resultados no se muestran por brevedad), por lo que limitamos la discusión adicional a las versiones de estas pruebas construidas sin agrupación. El impacto del ajuste Bonett-Price plus sobre la potencia es mixto (no se muestran los resultados). El ajuste positivo no tuvo un impacto notable en la potencia bajo el modelo bibeta. Pero bajo el modelo binormal, el ajuste positivo provocó una disminución notable en la potencia para un rango medio de pruebas realizadas (aproximadamente 30 a 500). Por esta razón, limitamos la discusión adicional a las versiones de estas pruebas construidas sin ajuste adicional. Como recordatorio, McNemar se basa en la agrupación y sin ajustes adicionales.

La Figura 2 muestra las curvas de potencia estimadas para la correlación de 0,1 (A) y 0,9 (B) bajo el modelo bibeta. Nos enfocamos en los resultados para el número de pruebas (no.) que van desde dos pruebas hasta la prueba del diez por ciento del tamaño total de la muestra; en la práctica, las campañas de detección interrogarán solo una pequeña fracción de la biblioteca de detección virtual disponible [8]. Los enfoques de CorrBinom y McNemar son notablemente subóptimos. En presencia de una correlación débil, EmProc e IndJZ tienen un rendimiento comparable. EmProc domina en presencia de una fuerte correlación entre las puntuaciones. De hecho, EmProc es el único enfoque que está diseñado para abordar tanto la correlación entre puntuaciones de algoritmos competidores como la correlación que se induce dentro de un algoritmo particular como resultado de tener que estimar umbrales. El modelo binormal (resultados no mostrados) arrojó hallazgos similares. Las tasas de error de tipo I (resultados no mostrados) están bien controladas a sus valores nominales de 0,05.

Para la prueba de hipótesis, recomendamos EmProc sin agrupación y sin ajuste adicional, porque EmProc tiene la mayor potencia en comparación con IndJZ, CorrBinom y McNemar, mientras mantiene el control de las tasas de error de tipo I. Si se elige usar IndJZ o CorrBinom, se deben usar las versiones no agrupadas y sin ajuste positivo.

La Figura 2 muestra las probabilidades de cobertura estimadas (C) y los anchos promedio (D) para los intervalos de confianza EmProc, IndJZ y CorrBinom, con base en el modelo binormal con correlación de 0.9. El intervalo de McNemar es equivalente al intervalo de CorrBinom con un ajuste positivo, por lo que, si bien la figura no incluye explícitamente la etiqueta de McNemar, se incluye.

El hallazgo más obvio es que el ajuste Bonett-Price plus mejora drásticamente las probabilidades de cobertura cuando el número de pruebas es pequeño; esto se debe a que el ajuste positivo da como resultado intervalos más amplios cuando el número de pruebas es pequeño. A medida que aumenta el número de pruebas, las versiones plus y no-plus convergen y se acercan a la cobertura nominal. Al no tener en cuenta la correlación entre los algoritmos de la competencia, los errores estándar de IndJZ son innecesariamente grandes, lo que genera intervalos amplios que brindan una cobertura conservadora. Las versiones con ajuste positivo de EmProc y CorrBinom (y, por lo tanto, también de McNemar) brindan una cobertura conservadora cuando el número de pruebas es pequeño, pero la cobertura se acerca al nivel nominal a medida que aumenta el número de pruebas.

Para los intervalos de confianza, recomendamos la versión ajustada positivamente de EmProc, porque es más capaz de equilibrar el logro de tasas de cobertura nominales y minimizar el ancho de los intervalos de confianza. Y si se utilizan otros procedimientos, también se debe utilizar el ajuste positivo.

Figura 2
Figura 2

Comparación de EmProc, CorrBinom, IndJZ y McNemar en términos de prueba de hipótesis e intervalos de confianza puntuales para comparar curvas de enriquecimiento de aciertos para algoritmos de la competencia. (AB): potencia estimada de la prueba de hipótesis para detectar diferencias entre dos algoritmos en competencia, donde cada algoritmo sigue un modelo bibeta y las puntuaciones se correlacionan con (rho =.1) (A) o (rho =.9) (B). C, D: probabilidad de cobertura estimada (C) y anchura media (D) de intervalos de confianza puntuales para la diferencia en las curvas de enriquecimiento de aciertos para dos algoritmos en competencia, donde cada algoritmo sigue un modelo binormal y las puntuaciones se correlacionan con (rho =.9). Las simulaciones se realizaron con 10.000 réplicas de Monte Carlo. El sombreado muestra la estimación de Monte Carlo ± 1,96 veces el error estándar de Monte Carlo

Bandas de confianza

Bandas para un solo algoritmo

Métodos

Un escenario ideal sería acompañar las curvas de enriquecimiento de impactos, como las que se muestran en la figura 1, con regiones de confianza. Las regiones que no se superponen proporcionarían una justificación alternativa para reclamar diferencias significativas entre los algoritmos de la competencia. Dejar () denote el vector de valores de recuperación de un solo algoritmo en el vector (=(r_1,r_2,ldots,r_k)) de k fracciones de prueba ordenadas (r_1. buscamos un (100(1-alfa )) porcentaje de región de confianza para (). Mientras que el enfoque del intervalo de confianza puntual de la ecuación. (3) podría modificarse usando un ajuste de Bonferroni, se sabe que tales correcciones son conservadoras cuando k es grande, lo que conduce a intervalos innecesariamente amplios.

En su informe técnico, Jiang y Zhao [33] sugirió un procedimiento alternativo de estimación de la banda de confianza y proporcionó breves comentarios sobre los resultados de la simulación, pero se omitieron algunos detalles. Completamos estos detalles para enunciar el siguiente resultado. En virtud de las Condiciones 1 y 2 antes mencionadas, como (nflecha derecha infty), (sqrt( widehat-) N(,),) dónde (widehat=left( _,ldots,_ right) ) es el vector de estimadores de recuerdo como se definió previamente, y (=_). Es más, (V_/n = Var_(_),) y para (Rhode Island,

$$begin V_/n = Cov_(_ ,_) = frac left{ (1-Lambda _-Lambda _ ) + frac . end$$

(6)

Los detalles de la derivación se omiten porque son similares a los pasos del Archivo adicional 1: Apéndice; ver [34] para mas detalles. Para proporcionar una distribución de trabajo para (widehat)un estimador de () se obtiene reemplazando parámetros poblacionales con estimadores consistentes. Esta distribución de trabajo es la base de nuestras regiones de confianza aproximadas.

Nuestro enfoque más directo es utilizar un Wald 100((1-alfa)) elipsoide de porcentaje de confianza, definido como (left,) dónde (chi ^2_) es el (1-alfa) percentil de la distribución chi-cuadrado con k grados de libertad. Pero el elipsoide de confianza de Wald no produce regiones de forma rectangular (left .) Hemos optado por utilizar regiones de confianza con una estructura rectangular (es decir, una banda de confianza) y no elipsoides porque esto permite visualizar fácilmente regiones de confianza de grandes dimensiones.

Claramente, las regiones de Bonferroni son rectanguloides, con (q=sqrt). Mencionamos dos regiones rectanguloides adicionales, siguiendo las convenciones de nomenclatura en Montiel Olea y Plagborg-Møller [35]: la (theta)-bandas de proyección y sup-t. (theta)-Las bandas de proyección se obtienen identificando el rectanguloide más pequeño que contiene el elipsoide de Wald, y da como resultado (q=sqrt). Tras una inspección más detallada, se hace evidente que (theta)-las bandas de proyección son siempre al menos tan anchas como las bandas de Bonferroni, por lo que no se consideran más adelante. Por otro lado, las bandas sup-t son el rectonguloide más pequeño que mantiene la probabilidad de cobertura simultánea de (1-alfa), y se espera que tengan un buen desempeño. Su valor crítico q debe obtenerse mediante muestreo de Monte Carlo. Brevemente,

$$begin 1-alphale & Pr left( |_i – theta _i| le q cdot SE(_i) forall i in right) = Pr left( sup _frac le q right) . end$$

El muestreo de Monte Carlo se utiliza para estimar q como el ((1-alfa )100) percentil para la distribución de (sup _|_i – theta _i| / SE(_i)).

Resultados de la simulación

Un estudio comparó las probabilidades de cobertura logradas por bandas de confianza construidas utilizando los enfoques sup-t y Bonferroni. Los resultados se muestran para las versiones estándar y con ajuste positivo de las bandas sup-t y Bonferroni. El conocido truco de “sumar dos éxitos y sumar dos fracasos” [36] antes de estimar proporciones es a lo que nos referimos como el ajuste positivo para bandas correspondientes a una curva de enriquecimiento de un solo golpe, no el ajuste positivo de Bonett-Price para comparar dos algoritmos que se utilizó anteriormente. Calculamos bandas para () usando una cuadrícula de número de compuestos probados entre dos y 15,000. Se consideraron 25 puntos en la grilla, definidos como: (2^k) por (k=1,ldots,13); (3^k) por (k=1,ldots,8); 105, 300, 1500, 15000.

La Figura 3 muestra las probabilidades de cobertura estimadas (A) y los anchos promedio (B) de las bandas de confianza creadas en base a cinco casos de distribución. Los casos distributivos representan diversos grados de separación entre (+) y − clases, y se eligen para imitar escenarios del mundo real. El caso 1 es un modelo binormal, con igual varianza unitaria y media cero y 1,4. El caso 2 es otro modelo binormal, con igual varianza unitaria y media cero y 0,5; El Caso 2 ofrece mucha menos separación que el Caso 1, por lo que el Caso 2 da como resultado valores más bajos de recuperación. El caso 3 es un modelo bibeta, con distribuciones Beta(2,5) y Beta(5,2). El caso 4 es otro modelo bibeta más separado, con distribuciones Beta(1,20) y Beta(20,1). El caso 5 está formado por distribuciones de extensión limitada, a saber, uniforme en (0,0,75) y uniforme en (0,25,1).

Las bandas de Bonferroni con ajuste positivo tienen la mayor cobertura, pero también son las más amplias. Las bandas sup-t con ajuste positivo no son tan anchas, pero tienen una excelente cobertura. Como tal, para las bandas de confianza aplicadas a una curva de enriquecimiento de un solo golpe, recomendamos las bandas sup-t ajustadas positivamente.

Fig. 3
figura 3

Comparación de las bandas de confianza sup-t y Bonferroni. A, B: probabilidad de cobertura estimada (A) y anchura media (B) de bandas de confianza para curvas de enriquecimiento de aciertos para un solo algoritmo, donde el algoritmo se genera a partir de cinco casos diferentes.C, D: probabilidad de cobertura estimada (C) y anchura media (D ) de bandas de confianza para la diferencia entre dos curvas de enriquecimiento de impacto generadas bajo cuatro escenarios. Las simulaciones se realizaron con 10.000 réplicas de Monte Carlo. Las barras de error muestran la estimación de Monte Carlo ± 1,96 veces el error estándar de Monte Carlo

Bandas para la diferencia entre algoritmos competidores

Métodos

Si bien los intervalos de confianza puntuales ofrecen comparaciones efectivas de algoritmos competidores en unas pocas fracciones de prueba seleccionadas, puede ser más deseable realizar comparaciones en una amplia gama de fracciones de prueba. Esto se puede lograr convirtiendo los intervalos de confianza puntuales en bandas de confianza, de la misma manera que se obtuvieron las bandas de confianza.

Alquiler (_ell) denote el vector de valores de recuperación del algoritmo (ana) ((ell =1,2)), el método se basa en el resultado asintótico (sqrt left( (widehat_1 – widehat_2) – (_1 – _2) right) N(,),) dónde (nflecha derecha infty)y para (r_ile r_j),

$$begin V_/n = Cov_(_ ,_) + Cov_(_ ,_) – Cov_(_ ,_) – Cov_(_ ,_) . end$$

(7)

Los dos primeros componentes de la Ec. (7) se obtienen usando la ecuación. (6), y los dos últimos componentes se obtienen utilizando

$$begin Cov_(_ ,_) = frac left , end$$

(8)

dónde (theta _=P(S_1>t_,S_2>t_|+)) y (gamma _=P(S_1>t_,S_2>t_)) son las probabilidades condicionales e incondicionales de que ambos algoritmos prueben un ligando porque está altamente clasificado por ambos algoritmos, aunque en diferentes fracciones de prueba (Rhode Island) y (r_j). La ecuación (8) no impone ninguna restricción entre las fracciones de prueba (Rhode Island) y (r_j).

Como se describe en la sección «Bandas para un solo algoritmo», la matriz () se estima y se utiliza para construir las bandas sup-t y Bonferroni.

Resultados de la simulación

Se realizó un estudio para comparar las probabilidades de cobertura y los anchos promedio de las bandas de confianza construidas utilizando los enfoques sup-t y Bonferroni en cuatro configuraciones de dos algoritmos en competencia: binormal o bibeta, y (rho =0.1) o 0,9. Las bandas se calcularon para () usando una cuadrícula de tamaño 25, siendo el número de compuestos probados: (2^k) por (k=1,ldots,13); (3^k) por (k=1,ldots,8); 105, 300, 1500, 15000.

La Figura 3 muestra las probabilidades de cobertura estimadas (C) y los anchos promedio (D). Los resultados son muy similares a los observados para las bandas de confianza para un solo algoritmo, es decir, que las bandas sup-t ajustadas positivamente proporcionan el mejor equilibrio entre las probabilidades de cobertura y el ancho promedio.

Para las bandas de confianza aplicadas a la diferencia entre dos curvas de enriquecimiento de aciertos, recomendamos las bandas sup-t ajustadas positivamente para lograr tasas de cobertura nominales y minimizar el ancho. La covarianza utilizada en la construcción de estas bandas surge del enfoque EmProc.

Deja un comentario