Identificación de asociaciones de genes y biomarcadores interpretables con pruebas basadas en kernel con información funcional en 190 000 exomas

Declaración de Ética

Los protocolos de biobancos del Reino Unido son supervisados ​​por el Comité Asesor de Ética de Biobancos (EAC) del Reino Unido. Se obtuvo el consentimiento informado de todos los participantes. Los participantes que revocaron el consentimiento fueron eliminados del análisis. La aprobación original para el Biobanco del Reino Unido fue otorgada en 2011 por el Comité del Noroeste – Haydock del Servicio Nacional de Ética en Investigación (NRES). La aprobación fue renovada en 2016 y 2021 por la Autoridad de Investigación de Salud, Noroeste – Comité de Ética de Investigación de Haydock. Esta investigación se ha realizado utilizando el recurso del Biobanco del Reino Unido con el número de solicitud 40502.

Procesamiento de datos del biobanco del Reino Unido

Los 30 biomarcadores de bioquímica sanguínea (categoría 17518) del Biobanco del Reino Unido se transformaron por cuantiles para que coincidieran con una distribución normal con media 0 y desviación estándar de la unidad usando scikit-learn (v0.22.2)73. Para la testosterona, que mostró una clara distribución bimodal basada en el sexo, la transformación de cuantiles se realizó por separado para ambos sexos. Realizamos la puntuación de ascendencia como se describe en la ref. 74 basado en las superpoblaciones de 1000 genomas75que se utilizó para podar variantes y seleccionar participantes con ascendencia genética similar.

Se utilizaron como covariables el sexo, el IMC, la edad en el momento del reclutamiento, el tabaquismo, los principales componentes genéticos y las predicciones de ascendencia continua (Datos complementarios 2). El estado de tabaquismo (nunca, anterior, actual) se codificó en tres variables binarias separadas. Se excluyeron los participantes a los que les faltaba alguna covariable. Usamos la función ukb_gen_samples_to_remove del paquete R de ukbtools (v0.11.3)76 junto con puntajes de parentesco calculados previamente (ukbA_rel_sP.txt, consulte el recurso 531 del biobanco del Reino Unido) para eliminar a las personas con parentesco cercano, conservando solo un representante de los grupos con parentesco de 3er grado o menos. Después de eliminar a 6293 personas relacionadas y restringirlas a aquellas sin covariables faltantes, quedaron 191 971 participantes. Esta muestra fue 55% mujeres (45% hombres) y la edad promedio al momento del reclutamiento fue de 56,5 años (σ= 8). Además, el IMC medio fue de 27,37 (σ= 4,76) y nuestro subconjunto contenía 18.529 fumadores actuales y 66.988 fumadores anteriores.

En nuestro análisis, utilizamos los datos del genotipo de secuenciación del exoma en formato PLINK. Los resultados finales presentados en este manuscrito se derivaron de la versión WES de 200k producida por el oleoducto OQFE.21. El pipeline de UK Biobank ya implementa filtros de calidad21,77. Además, eliminamos todas las variantes que violaban la suposición del equilibrio de Hardy-Weinberg (HWE) (prueba exacta de HWE). pags valor por debajo del umbral de 10−5) y variantes genotipadas en menos del 90% de los participantes.

Calculamos las frecuencias de alelos menores dentro de todos los participantes no relacionados con covariables completas (ver arriba) y excluimos las variantes con una frecuencia de alelos en todo el estudio superior al 0,1%. En el análisis que incluye todas las ascendencias, también realizamos una poda basada en la ascendencia para eliminar las variantes con grandes diferencias de frecuencia alélica entre las ascendencias. Esto condujo a la exclusión de 1.033.382 variantes. Encontramos que este paso es crítico para prevenir la inflación de las estadísticas de prueba para las pruebas basadas en kernel con ciertos fenotipos. No analizamos variantes en los cromosomas sexuales.

En el análisis de todas las ascendencias, 15.701.695 variantes pasaron estos filtros, de las cuales el 45,87 % eran únicas. Se consideraron 12.793.493 para el análisis de ascendencia EUR (42,2% solteros). Utilizamos directamente los identificadores de variantes del Biobanco del Reino Unido (que incluyen cromosomas y posiciones hg38 basadas en 1) para nombrar variantes con el fin de facilitar las comparaciones.

Predicción y anotación de efectos variantes

Pérdida de función de proteínas y missense

Predijimos efectos para todas las variantes genéticas que pasaron el filtrado básico utilizando el Ensembl Variant Effect Predictor17 (VEP, v101; caché versión 97), incluidas las puntuaciones de Polyphen-218 (v2.2.2) y TAMIZAR19 (v5.2.2). Todas las variantes marcadas como splice_acceptor_variant, splice_donor_variant, frameshift_variant, stop_gained, stop_lost o start_lost se consideraron variantes de pérdida de función de proteína (pLOF) como en la ref. 13. Además, anotamos las variantes sin sentido mediante el cálculo de las puntuaciones de impacto (promedios entre las probabilidades perjudiciales proporcionadas por PolyPhen-2 y SIFT), que se utilizaron para filtrar y sopesar las variantes en las pruebas de asociación. Específicamente, se incluyeron variantes de Missense si su puntuación de impacto era de al menos 0,8 o si afectaban a posiciones de aminoácidos para las que se observó otra variante con una puntuación de impacto de al menos 0,8.

empalme

Recuperamos predicciones de efectos de variantes precalculadas publicadas producidas por el modelo de aprendizaje profundo SpliceAI24 para polimorfismos de un solo nucleótido. SpliceAI predice las consecuencias de las variantes genéticas para los sitios de empalme cercanos, específicamente la pérdida/ganancia del donante de empalme o la pérdida/ganancia del aceptor de empalme. Utilizamos las puntuaciones delta enmascaradas proximales al sitio de empalme (v1.3). En los archivos enmascarados, las puntuaciones correspondientes al fortalecimiento de los sitios de empalme anotados y el debilitamiento de los sitios de empalme no anotados se establecen en 0, ya que generalmente son menos patógenos. Incluimos variantes de empalme en las pruebas de asociación si al menos una de las cuatro puntuaciones delta de SpliceAI era mayor o igual a 0,1. Los valores máximos de las diferentes puntuaciones delta para cada variante se utilizaron para sopesar las variantes en las pruebas de asociación (detalles a continuación).

Unión RBP

Predijimos los efectos de todas las variantes genéticas en la unión de 6 proteínas de unión a ARN (RBP) utilizando una versión modificada de la red neuronal profunda DeepRiPe25 en el que las predicciones se basan puramente en secuencias (implementadas en keras con backend de tensorflow, consulte Declaración de disponibilidad de datos). Predijimos las diferencias en la unión restando las predicciones para los alelos de referencia de las del alelo alternativo.78, y usó estas predicciones de efectos de variantes para filtrar y sopesar variantes durante las pruebas de asociación (detalles a continuación). Las variantes se incluyeron en las pruebas de asociación si al menos un efecto previsto en cualquiera de las prácticas comerciales restrictivas tenía un valor absoluto mayor o igual a 0,25.

Puntuación de ascendencia y poda de variantes basada en ascendencia

Usamos GenoPred74 para realizar la puntuación de ascendencia de todos los participantes del Biobanco del Reino Unido. GenoPred utiliza un modelo de red elástica basado en los primeros 100 componentes genéticos principales de los datos genéticos de 1000 genomas y las asignaciones de superpoblación79 para predecir la ascendencia genética de los individuos.

En el análisis, incluyendo todas las ascendencias, realizamos la poda de variantes basada en la ascendencia, de la siguiente manera. Limitamos el análisis a participantes con covariables completas y variantes con un MAF de todo el estudio por debajo del 0,1 % dentro de esos individuos. Luego definimos grupos de individuos basados ​​en el modelo de predicción de ascendencia. Se asignó a un individuo a uno de los cinco grupos de ascendencia definidos en la referencia de 1000 Genomas si la probabilidad prevista para esa ascendencia era superior a 0,5. Se identificó a 182 288 participantes con ascendencia predominantemente europea (EUR), 4302 ascendencia del sur de Asia (SAS), 3775 ascendencia africana (AFR), 1126 ascendencia del este de Asia (EAS) y 308 ascendencia mixta estadounidense (AMR). Unos 172 individuos no pudieron ubicarse en ninguno de estos grupos, ya que todas las probabilidades estaban por debajo de 0,5. Estas predicciones se usaron para agrupar individuos con ascendencia genética similar según los 1000 Genomas y no reflejan etnicidad.

Luego realizamos pruebas exactas de Fisher bilaterales para identificar variantes con grandes desviaciones de la frecuencia del alelo EUR de todo el estudio en cualquiera de las otras superpoblaciones y excluimos variantes con pags −5 del análisis. Se excluyeron las variantes que faltaban selectivamente en cualquiera de las superpoblaciones.

Las predicciones del modelo de predicción de ascendencia también se usaron para definir el grupo de participantes que se usaron para el análisis solo de EUR, donde aplicamos un límite más estricto de PR(EUR) > 0,995.

Modelos estadísticos y pruebas

Dejar norte(μ; Σ) denotan una distribución Normal multivariante con medias μ y una matriz de varianza-covarianza Σ. Deseamos probar conjuntamente la asociación de metro variantes genéticas con un rasgo cuantitativo y para una muestra de norte observaciones (es decir, participantes) mientras se controla por q covariables. En el marco del modelo mixto lineal, y se puede modelar de la siguiente manera8,9:

$$ sim N(;_^_+_^_),$$

(1)

dónde X es el norte × q matriz de diseño de covariables (efecto fijo) y α es el vector de parámetros de efectos fijos, que juntos determinan los valores medios de y. La matriz de varianza-covarianza de y se compone de la varianza residual distribuida independientemente (yonorte escalado por (_^)) y la matriz del kernel kgramo (a escala de (_^)), que captura la similitud genética entre individuos. kgramo es una función de la norte × metro matriz de recuentos de alelos menores centrados en la media GRAMO (efecto aleatorio) de las variantes genéticas que queremos testear.

Cualquier matriz de varianza-covarianza válida puede sustituirse por kgramo. Con el fin de utilizar algoritmos eficientes para la estimación de los parámetros (_^) y (_^) y realizando pruebas de asociación, requerimos kgramo ser factorizado como una forma cuadrática9,11:

$$_=,phi ()fi ^,$$

(2)

donde la funcion YO• transforma GRAMO en variables intermedias antes de realizar la prueba. Encontrar una función apropiada YO• depende de los supuestos biológicos subyacentes y de la información previa disponible. Los enfoques de colapso de variantes basados ​​​​en genes son un caso especial, en el que la función YO• devuelve un norte × 1 vector (una sola variable) como salida. Por lo tanto, las pruebas basadas en kernel y los métodos de colapso de variantes pueden tratarse bajo el mismo marco estadístico. En nuestro análisis, YO• es una función que transforma GRAMO teniendo en cuenta las predicciones de efectos variantes y, para las variantes missense y RBP, las posiciones variantes.

Independientemente de la elección del núcleo (y por lo tanto YO•) la prueba estadística está definida por la hipótesis nula (_:_^=0)y la hipótesis alternativa (_:_^ , > , 0) (es decir, una prueba unilateral). Para esta aplicación se han descrito tanto una prueba de puntuación como una prueba de razón de verosimilitud (LRT). Si bien la prueba de puntaje a menudo se elige en aplicaciones de genética estadística debido a su velocidad y disponibilidad de software, se ha demostrado que la LRT tiene mayor potencia cuando los tamaños del efecto son grandes, pero es computacionalmente más exigente.8,11,12.

Con el fin de evitar calcular el LRT para todos los genes pero aún así beneficiarnos de una potencia potencialmente mayor, realizamos pruebas de puntuación en todo el genoma y solo realizamos la LRT restringida si las pruebas de puntuación (dentro de la categoría de variante específica) alcanzaron una significación nominal, un enfoque que utilizamos. llame a la puntuación-LRT (sLRT, consulte las secciones a continuación). El sLRT devuelve el pags valor para la prueba de puntaje si no se alcanzó la significación nominal, de lo contrario devuelve el pags valor para la prueba de razón de verosimilitud.

Tomamos muestras de las estadísticas de la prueba RLRT utilizando algoritmos exactos rápidos descritos en la ref. 80, y ajuste distribuciones nulas paramétricas a las estadísticas de prueba agrupadas entre genes para calcular pags valores11. Los parámetros de distribución nula están disponibles en Datos complementarios 1. Hicimos esto por separado para diferentes efectos de variante y tipos de prueba. Este método dio resultados muy similares pags valores para usar distribuciones nulas específicas de genes (Figuras complementarias 9-12), pero es más rápido ya que requiere menos estadísticas de prueba para simular por gen y menos distribuciones para ajustar. Además, el uso de la distribución agrupada no cambia el límite del FWER en comparación con el uso de distribuciones nulas específicas de genes para calcular pags valores (consulte las secciones a continuación).

Aplicamos el marco estadístico anterior para realizar pruebas de colapso de variantes basadas en genes y pruebas de asociación basadas en kernel, correspondientes a diferentes funciones. YO• como se detalla a continuación. Además, para las variantes de empalme y sin sentido, las pruebas que utilizan solo esas categorías de variantes y las pruebas que combinan estas categorías de variantes con variantes de pLOF se integraron en pruebas únicas utilizando la prueba de combinación de Cauchy.28. ajustamos pags valores para el número total de 3.091.910 pruebas en el análisis de todas las ascendencias utilizando la corrección de Bonferroni (FWER ‰¤ 0,05), lo que conduce a un punto de corte de 1,6171‰Ã—‰108.

Cálculo de peso variante

Todas las pruebas de asociación que realizamos incorporaron pesos variantes, que se derivaron de predicciones de efectos variantes. Todos los pesos de las variantes que usamos son números entre 0 y 1. Para las variantes LOF de proteínas, todos los pesos se establecieron en 1. Para las variantes sin sentido, calculamos los pesos de la siguiente manera:

$$_=frac$$

(3)

dónde wi es el peso para la variante i. si,TAMIZAR y si,Polifeno denota las puntuaciones SIFT y Polyphen para la variante i, respectivamente (potencialmente promediados entre diferentes variantes de transcripción). Esta puntuación puede interpretarse como el promedio de la probabilidad predicha de que la variante sea predicha por los dos métodos.

Para las variantes de empalme, el peso wi para variante específica ise fijó al máximo de sus cuatro puntuaciones delta de SpliceAI.

Con respecto a las predicciones para la unión de RBP, procedimos de la siguiente manera: mientras que los experimentos para RBP QKI se habían replicado en tres líneas celulares, los de las otras 5 RBP solo se habían realizado en una sola línea celular. Como cada réplica es una salida de modelo separada, esto resultó en un total de ocho predicciones para cada variante genética. Predijimos la probabilidad de unión de cada RBP a las secuencias centradas en los alelos mayores y menores, mientras aplicamos cambios de 4 pb alrededor del centro. Promediamos cuatro predicciones a través de estos pequeños cambios para reducir la variabilidad. Finalmente, calculamos las predicciones del efecto variante vij para cada variante i y réplica de RBP j restando la predicción del alelo de referencia (pagsyo,árbitro) de la predicción para el alelo alternativo (pagsyo,alt)78:

$$_=_-_$$

(4)

Estas predicciones de efectos variantes son números entre −1 y 1, donde el signo denota una ganancia de unión (+) o una pérdida de unión (−). Se usaron para determinar los pesos de las variantes y las similitudes de las variantes durante las pruebas de asociación (ver más abajo), donde establecimos el peso wi de variante i al mayor valor absoluto de vi.

Pruebas de colapso de variantes basadas en genes

En el colapso de variantes basadas en genes, todas las variantes calificadas que se superponen a un gen específico se colapsan en una sola variable antes de la prueba de asociación, es decir, YO•(GRAMO) en (2) devuelve un norte × 1-vector. Modificamos el enfoque en la ref. 13 mediante la incorporación de predicciones de efectos variantes como ponderaciones. Dentro de un gen específico, cualquier participante podría portar 0 o más variantes calificadas, donde cada variante i tiene un peso wi (derivado de la predicción del efecto variante, véase más arriba). Específicamente, el puntaje colapsado es el peso más grande de cualquiera de las variantes observadas para un participante específico, o 0 si no se observaron variantes calificativas para ese participante. Esta puntuación hace tres suposiciones: los efectos aditivos son insignificantes (o poco realistas), las variantes con mayor peso dominan sobre aquellas con menor peso y todas las variantes afectan el rasgo cuantitativo de la misma manera. dirección.

Pruebas basadas en kernel informadas funcionalmente

Los núcleos que usamos en este análisis siguen la forma general:

$$_=^ ,$$

(5)

dónde W es un metro × metro matriz diagonal que contiene las raíces cuadradas de los pesos variantes en la diagonal y la metro × metro matriz S captura similitudes entre las variantes genéticas. GRAMO es el norte × metro matriz de recuentos de alelos menores centrados en la media de las variantes calificadas dentro del gen que se va a probar. S puede interpretarse como la matriz de varianza-covarianza de los coeficientes de regresión de las variables intermedias GW. Usamos W y S para incorporar predicciones de efectos de variantes (y otras anotaciones de variantes) en las pruebas de asociación.

Mientras que un coeficiente de regresión compartido ((=__^)) podría ser una mala suposición en algunos casos, al igual que los coeficientes de regresión completamente independientes (S = yometro). El primero, cuando se sustituye en (5), se ha denominado prueba de carga de conteo ponderado, mientras que el segundo se denomina comúnmente núcleo lineal ponderado.81. En nuestro análisis, definimos S basado en el conocimiento previo disponible y el tipo de predicción del efecto variante.

sin sentido

Para el análisis de variantes sin sentido, presentamos el núcleo colapsado localmente. El colapso local agrega grupos de variantes en variables individuales antes de realizar la prueba de asociación. «Local» se refiere al hecho de que los grupos están definidos por la proximidad de variantes en la secuencia de ADN, ARN o aminoácidos. Agrupamos las variantes si afectan exactamente a la misma posición de aminoácidos de un gen específico. Una vez que se definen los grupos, el colapso local se puede expresar como una multiplicación de matrices: S = CCT y el núcleo (5) se convierte en:

$$_=^ }^}$$

(6)

Aquí C es el metro-variantes por gramo-grupos colapsando matriz. Por lo tanto GWC es el norte × gramo matriz de genotipo colapsada localmente ponderada (donde las columnas ahora representan posiciones de aminoácidos en lugar de variantes genéticas individuales). las columnas de C definir las asignaciones de grupo y la direccionalidad de los efectos de variante. Para cada variante i del 1 al metro con efecto variante (potencialmente firmado) vi y grupo j del 1 al gramo, Cigramo = sgn vi si variante i pertenece al grupo jmás Cigramo = 0. En nuestro caso, las predicciones del efecto de las variantes no estaban firmadas (todas positivas). Los supuestos del núcleo que colapsa localmente son que las variantes dentro de los grupos comparten un coeficiente de regresión común una vez que se han escalado y alineado con la dirección de sus predicciones de efecto de variante.

Unión RBP

A veces, no hay grupos claramente definidos de variantes o es necesario tener en cuenta las predicciones de efectos de variantes múltiples (potencialmente direccionales) a la vez y, por lo tanto, las variantes no se pueden colapsar fácilmente. Dado lo que sabemos sobre la ubicación de las variantes y sus efectos previstos, aún podemos hacer suposiciones sobre S. Mientras S es definida positiva, podemos encontrar una raíz cuadrada adecuada L de modo que LLT = S utilizando la descomposición de Cholesky. En las pruebas de asociación que involucran predicciones direccionales para la unión de proteínas de unión a ARN, calculamos S formando el producto elemental de dos metro × metro matrices:

$$=^=circ $$

(7)

Dónde q captura la similitud de las variantes en función de sus predicciones de efectos variantes y R captura la similitud de las variantes en función de sus posiciones. Específicamente, deja vi sea ​​el vector de predicciones de efectos variantes para variantes i. Entonces el elemento qij de q es la semejanza del coseno entre vi y vj. Elegimos modelar la similitud dependiente de la posición con un núcleo gaussiano. Si Xi es la posición cromosómica de la variante i, (_=exp (-gamma ^))donde nos ponemos (gamma=-frac). A este valor de γ dos variantes que están separadas por 50 pb tienen una similitud de 0,5, que decae rápidamente a medida que aumenta la distancia. Como ambos q y R son matrices definidas positivas, también lo es q a R. Este kernel supone que las variantes que están muy cerca y tienen predicciones de efectos de variantes alineadas deberían afectar el fenotipo en la misma dirección.

Implementación de pruebas de puntuación y razón de verosimilitud

Con el fin de utilizar algoritmos eficientes para la estimación de los parámetros (_^) y (_^) en (1) y realizando pruebas de asociación, requerimos kgramo para ser factorizado como una forma cuadrática como se muestra en (2)9,11. La función YO• en (2) transforma la matriz del genotipo GRAMO en variables intermedias antes de realizar la prueba.

El estadístico de prueba de la prueba de puntuación aproxima el cambio del logaritmo de verosimilitud de un modelo cuando incluye kgramo sobre el modelo nulo, que no incluye kgramo ((_^=0))8. Calculamos estadísticas de prueba utilizando algoritmos rápidos descritos en11 y aplicó el método de Davies para el cálculo de pags valores82 con una precisión de 107 y 106 iteraciones Donde regresó el método de Davies pags valores de 0, o en los raros casos en que el método de Davies arrojó resultados no válidos (negativos) pags valores, usamos la aproximación del punto de silla en su lugar83.

El estadístico de prueba de la prueba de razón de verosimilitud restringida es el doble de la diferencia entre la verosimilitud logarítmica restringida del modelo alternativo y el modelo nulo9. Usamos la clase LMM de FaST-LMM84 para ajustar los modelos nulo y alternativo utilizando la máxima verosimilitud restringida y luego las estadísticas de prueba calculadas. Para generar una distribución nula, muestreamos 100 estadísticas de prueba para cada prueba LR, usando nuestro propio puerto de RLRsim80 en Python (como parte del paquete seak, consulte Declaración de disponibilidad del código). Finalmente, ajustamos una distribución nula paramétrica (pi _^+(1-pi )a_^) con parámetros libres Ï€, ay d a las estadísticas de prueba simuladas agrupadas utilizando la regresión log-quantil en el 10 % de las estadísticas de prueba más grandes11y utilizó esta distribución para calcular pags valores como se describe en la ref. 9 (Datos complementarios 1). Usamos distribuciones nulas separadas para todas las combinaciones de tipo de variante a tipo de prueba y fenotipo (ver detalles a continuación).

Comparamos esto enfoque para usar distribuciones nulas específicas de genes (es decir, ajustar una distribución nula separada para cada prueba y gen, similar al método descrito en la referencia 12), y descubrió que producían resultados muy similares (Figuras complementarias 9-11) .

Con este fin, realizamos dos análisis: primero, analizamos los genes cercanos o inferiores al umbral de significación de todo el genoma. Comparamos la correlación de Pearson del log10 pags valores derivados de las distribuciones nulas agrupadas o específicas de genes de todo el genoma para genes con asociación pags valores por debajo de 10−6.5 en cualquiera de las pruebas realizadas inicialmente. Hicimos esto por separado para las diferentes categorías de variantes y tipos de pruebas en base a 250 000 muestras específicas de genes de la distribución nula. En segundo lugar, para cada fenotipo y categoría de variantes, muestreamos aleatoriamente 100 genes con pags valores por encima de 10−6.5 (en cualquiera de las pruebas realizadas anteriormente para esa categoría de variante) y recuentos de alelos menores acumulativos de al menos 5, y repitió la comparación (nuevamente con base en 250 000 muestras por prueba).

Para asociaciones cercanas o por debajo del umbral de significación, el promedio r2 fue 0,999 para pruebas basadas en kernel y 0,999 para pruebas gbvc. Para asociaciones no significativas, promedio r2 los valores fueron 0,9897 para las pruebas basadas en kernel y 0,999 para las pruebas de gbvc. Concluimos que la distribución nula agrupada es una buena aproximación de las distribuciones nulas a nivel de genes individuales. En la figura complementaria 12 se muestra un ejemplo que ilustra este enfoque.

Resumen del procedimiento de prueba basado en genes

Realizamos pruebas basadas en genes para todos los genes que codifican proteínas en el lanzamiento de Ensembl 97. Para todas las variantes de pLOF, realizamos el colapso de variantes basadas en genes utilizando la prueba de puntuación en todo el genoma.

Para las variantes de sentido erróneo, realizamos pruebas de asociación basadas en el kernel y colapsadas de variantes ponderadas basadas en genes utilizando el sLRT. Para las pruebas basadas en kernel con variantes de sentido erróneo, diseñamos un kernel que colapsa las variantes por posición de aminoácido (colapso local) y las pondera por su puntaje de impacto. Además, en los casos en que cualquiera de las pruebas de puntuación de variante de sentido erróneo utilizada en la sLRT fue nominalmente significativa (pags pags los valores de las pruebas combinadas se integraron utilizando el método de combinación de Cauchy28 (individual pags los valores se informan en Datos complementarios 1).

Para las variantes de empalme predichas, seguimos la misma estrategia que para las variantes sin sentido, sin embargo, usamos el kernel lineal ponderado8 sin colapsar local en su lugar. Finalmente, en las pruebas de asociación, incluidas las variantes predichas para cambiar la unión de las prácticas comerciales restrictivas, solo realizamos pruebas de asociación basadas en el kernel utilizando el sLRT. Para este propósito, diseñamos un núcleo que puede tener en cuenta tanto las posiciones de las variantes como la dirección de los efectos de las variantes (como se describe arriba).

Debido a que algunos de los genes en la liberación de Ensembl 97 comparten exones, encontramos casos en los que estos genes compartían asociaciones causadas por las mismas variantes. No los informamos como genes distintos en el texto principal o el resumen, pero incluimos la lista completa de 212 asociaciones en Datos complementarios 1.

descripción detallada de sLRT

sin sentido

Para las variantes de sentido erróneo, iteramos sobre todos los genes y realizamos pruebas de puntaje utilizando pruebas basadas en el colapso de variantes basadas en genes y basadas en kernel (kernel colapsado localmente), es decir, los elementos diagonales wii de W en (5) contenía las raíces cuadradas de las puntuaciones de impacto de las variantes. Si cualquiera de los puntajes de la prueba pags valor fue nominalmente significativo (pags GWC, Ecuación (6)) y una RLRT conjunta basada en kernel. Para todas las pruebas de razón de verosimilitud, simulamos 100 estadísticas de prueba específicas de genes a partir de la distribución nula cada una.

Una vez que todos los genes se procesaron para un fenotipo específico, ajustamos distribuciones nulas separadas a las estadísticas de prueba simuladas agrupadas para cada uno de los cuatro grupos de pruebas de razón de verosimilitud: variantes sin sentido colapsadas (gbvc), pLOF colapsadas conjuntamente y variantes sin sentido (gbvc), variantes missense colapsadas localmente (basadas en el kernel), variantes missense colapsadas localmente concatenadas con variantes pLOF colapsadas (basadas en el kernel). PAGS luego se calcularon los valores para todas las pruebas en base a esas distribuciones. Finalmente, el pags valores para las dos pruebas basadas en kernel, y las dos pruebas gbvc se combinaron usando la prueba de combinación de Cauchy, lo que resultó en una sola prueba basada en kernel y una sola prueba gbvc por gen.

Usamos el kernel que colapsa localmente en las pruebas de asociación basadas en el kernel para las variantes de sentido erróneo, ya que había proporcionado asociaciones más únicas y, en general, un poco más bajas. pags valores para los genes más significativos en los experimentos iniciales en la liberación de 50k WES, y fue más interpretable en comparación con otros enfoques.

empalme

Para las variantes de empalme, realizamos pruebas de puntuación utilizando el colapso de variantes basadas en genes y el kernel ponderado lineal para todos los genes. Nuevamente, si cualquiera de las dos pruebas de puntuación fuera nominalmente significativa (pags GW (Ecuación (5), donde S = yometro). En los casos en los que se anotó una variante tanto como variante de empalme como variante pLOF, la tratamos como una variante pLOF en las pruebas conjuntas. Como hicimos con las variantes sin sentido, después de calcular pags valores usando cuatro distribuciones nulas separadas para cada fenotipo, combinamos las dos pruebas basadas en kernel y las dos pruebas de colapso basadas en genes en pruebas individuales usando la prueba de combinación de Cauchy.

Unión RBP

Para las variantes predichas para alterar la unión de las prácticas comerciales restrictivas, solo realizamos pruebas de asociación basadas en el kernel usando el kernel en (5), donde usamos el valor absoluto más grande de las predicciones del efecto de la variante como los pesos y calculamos S como se describe anteriormente en (7). Repetimos todos los genes y realizamos pruebas de puntuación basadas en genes. Debido a que las predicciones del efecto de la variante DeepRiPe son específicas de la hebra, lo hicimos de forma independiente para los genes en las hebras directas o inversas. Si la prueba de puntaje para un gen específico fue nominalmente significativa (pags 

Pruebas de asociación condicional

Para las asociaciones significativas después de la corrección de pruebas múltiples, realizamos pruebas de asociación condicional. Para cada asociación significativa de genes y biomarcadores, identificamos variantes individuales significativamente asociadas con el mismo biomarcador dentro de ± 500 kb de la posición de inicio del gen, según las estadísticas de resumen proporcionadas por la ref. 23. Luego condicionamos a la única variante con la menor pags valor (si lo hay) incorporándolo como una covariable en un modelo nulo específico del gen (en caso de empates, se eligió la variante más cercana a la posición de inicio del gen). Luego ajustamos el modelo alternativo, calculamos las probabilidades del modelo y las estadísticas de la prueba RLRT, y simulamos 250 000 estadísticas de prueba RLRT específicas de genes para cada modelo alternativo (es decir, combinaciones de variantes y tipos de prueba). Ajustamos distribuciones nulas paramétricas a estas estadísticas de prueba usando el 10% de las estadísticas de prueba más grandes (como se describe arriba), y calculamos pags valores basados ​​en estas distribuciones nulas. Luego combinamos el pags valores utilizando el CCT (si se realizaron pruebas combinadas con variantes pLOF). Condicional pags los valores y las variantes que se condicionaron se informan en Datos complementarios 1.

Referencias cruzadas contra GWAS bases de datos

Consultamos el Catálogo NHGRI-EBI GWAS2 y PhenoScanner26,27 para ver si las variantes individuales dentro de los genes que encontramos significativamente asociadas con un biomarcador específico ya habían sido reportadas como asociadas con ese biomarcador. Para cada gen, enviamos consultas de región utilizando los límites de genes con gwasrapidd85 (v0.99.11) y paquetes R de phenoscanner (v1.0). Para PhenoScanner, configuramos el pags umbral de valor a 107. La coincidencia de nuestros resultados con los contenidos en estas bases de datos nos obligó a definir un mapeo de los biomarcadores del Biobanco del Reino Unido con los términos de Ontología de factores experimentales (EFO) utilizados en esas bases de datos. Este mapeo se proporciona en los Datos complementarios 2. Además, como los términos EFO para PhenoScanner no siempre se definieron, realizamos la siguiente comparación: «Apolipoproteína B» (fenotipo UKB) con «APOB apolipoproteína B» (rasgo PhenoScanner), » «Cistatina C» a los rasgos de PhenoScanner «log eGFR cistatina C», «Cistatina c sérica tasa de filtración glomerular estimada eGFR», y «Cistatina C en suero», y «Urea» a «Rasgos relacionados con la función renal urea».

Pruebas de asociación PIEZO1-L2277M

Utilizamos las clasificaciones de ascendencia descritas anteriormente para definir un grupo de individuos de ascendencia SAS y uno de ascendencia EUR ampliada (ambos con un límite de >0,5 en el modelo de clasificación de ascendencia). Este es un límite menos estricto que el utilizado en el análisis EUR para todos los biomarcadores y aumentó el número de portadores observados en el grupo de ascendencia EUR de 5 a 21, todos heterocigotos. Usamos las mismas covariables que en el análisis de todos los ancestros.

Los genotipos se derivaron de la secuenciación del exoma y realizamos pruebas de asociación utilizando la prueba de puntuación con modelos nulos específicos de ascendencia. Para las pruebas de asociación en el grupo SAS, realizamos pruebas condicionales condicionando la estadística de prueba en los genotipos de la variante 16:88784993:C:G, que también se derivaron de la secuenciación del exoma.

Control FWER para la distribución nula agrupada

Para el RLRT derivamos pags valores de las estadísticas de prueba específicas de genes agrupados bajo la hipótesis nula y use la corrección de Bonferroni en estos pags valores para enlazar el FWER. A continuación, mostramos por qué este enfoque no cambia el límite de FWER en comparación con el uso de distribuciones nulas específicas de genes para calcular pags valores, asumiendo que la distribución agrupada está bien estimada.

Dejar yoi Sea una muestra de una variable aleatoria. Para i del 1 al norte, yoi corresponde a las estadísticas de prueba para el gen i bajo la hipótesis nula. Para un valor específico del estadístico de prueba Xla función de distribución Fi devuelve el pags valor pagsi :

$$_(x)=Pr (_le x)=_$$

(8)

Dejar METRO Sea la variable aleatoria que surge de una mezcla uniforme de todos yonortees decir, (M=mahopnolimits_^_)con la función de distribución correspondiente:

$$_(x)=Pr (Mle x)=_=mahoplimits_^frac=mahoplimits_^frac =bar$$

(9)

Es decir, cuando los componentes de la mezcla se muestrean en las mismas proporciones, la pags valor de la distribución de la mezcla pagsmetro es el promedio pags valor de los componentes de la mezcla (bar). En este escenario, la elección empírica de un único punto de corte Xmetro correspondiente a un límite de significación (frac) basado en la distribución de la mezcla controla el FWER al mismo nivel que el establecimiento de límites específicos de genes Xi tal que todo αi = α (el enfoque comúnmente aplicado).

El límite para la tasa de error familiar en todos los genes 1 a norte viene dada por la desigualdad de Boole tal como se usa en la corrección de Bonferroni:

$$}=Pr left(mahoplimits_^left\right)le mahoplimits_^left=mahoplimits_^frac =alfa$$

(10)

En particular, las pruebas también se pueden realizar en diferentes niveles de significación. (frac). Si el alfa específico del gen promedio ((bar)) es exactamente αel límite para el FWER permanece sin cambios:

$$mahoplimits_^left\mahoplimits^alpha$$

(11)

Esta propiedad se ha utilizado en el contexto de la corrección de Bonferroni ponderada y se aplican pruebas relacionadas.86. Con base en las fórmulas anteriores, cualquier punto de corte αmetro basado en la distribución de la mezcla corresponde al corte teórico promedio de los componentes de la mezcla (bar). Resulta que

$$mahoplimits_^left=mahoplimits_^frac=mahop limites_^left=mahoplimits_^frac=bar=_$$

(12)

El FWER se controla al mismo nivel que si hubiéramos realizado pruebas usando las distribuciones nulas específicas del gen y configurado todo αi = αo de hecho, cualquier otro valor (frac) que suma a α86. Basado en nuestros experimentos comparando pags valores derivados de las distribuciones nulas específicas de genes a los derivados de la distribución de la mezcla, mostramos que pagsi~~pagsmetroy por lo tanto αi~~αmetro.

Además, prevenimos falsos positivos debido a diferencias en pagsi y pagsmetro mediante la realización de pruebas condicionales específicas de genes para los genes que alcanzan una importancia en todo el genoma utilizando la distribución de la mezcla. Esto significa que nuestro enfoque puede perder poder: podemos pasar por alto genes que serían significativos utilizando distribuciones nulas específicas de genes, pero no significativos en función de la distribución de la mezcla.

Software

Aquí enumeramos el software que no se menciona en el manuscrito. Para ver la lista completa, incluidos los números de versión, considere el Resumen de informes. Nuestra canalización de prueba de asociación y anotación funcional (faatpipe) utiliza bcftools87herramientas de cama88Pinchar89samtools87vcfherramientas90htslib91biopitón92pybedtools93pirámides94pisam (https://github.com/pysam-desarrolladores/pysam), y Pysnptools (https://github.com/fastlmm/PySnpTools) para manejar rangos genómicos y datos de genotipos.

Las figuras fueron producidas usando ggplot295gplots96matplotlib97marino98y matplotlib_venn (https://github.com/konstantint/matplotlib-venn).

Resumen de informes

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de Nature vinculado a este artículo.

Fuente del artículo

¿Que te ha parecido?

Deja un comentario