Los modelos de aprendizaje profundo de multienzimas mejoran la secuenciación de péptidos de novo mediante proteómica de espectrometría de masas

Citación: Gueto-Tettay C, Tang D, Happonen L, Heusel M, Khakzad H, Malmström J, et al. (2023) Los modelos de aprendizaje profundo multienzimático mejoran el péptido de novo secuenciación por espectrometría de masas proteómica. PLoS Comput Biol 19(1): e1010457. https://doi.org/10.1371/journal.pcbi.1010457

Editor: Elena Papaleo, Centro de Investigación de la Sociedad Danesa del Cáncer, DINAMARCA

Recibió: 3 de agosto de 2022; Aceptado: 4 de enero de 2023; Publicado: 20 de enero de 2023

Derechos de autor: © 2023 Gueto-Tettay et al. Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de atribución de Creative Commonsque permite el uso, la distribución y la reproducción sin restricciones en cualquier medio, siempre que se acredite el autor original y la fuente.

Disponibilidad de datos: Los datos de proteómica de espectrometría de masas se han depositado en ProteomeXchange Consortium a través del repositorio de socios PRIDE con el identificador de conjunto de datos PXD037803. (https://www.ebi.ac.uk/pride/archive/projects/PXD037803) Por otro lado, nuestra versión personalizada de DeepNovoV2 y todos los flujos de trabajo de Snakemake empleados en este manuscrito se almacenan en el repositorio de Zenodo. https://doi.org/10.5281/zenodo.7155719.

Fondos: Este trabajo fue apoyado por la Fundación de Knut y Alice Wallenberg (2016.0023) para LH, JM y LM, Vetenskapsrådet 2020-02419 para JM y LM, y Alfred Österlunds Stiftelse para JM y LM. Los patrocinadores no tuvieron ningún papel en el diseño del estudio, la recopilación de datos, el análisis, la decisión de publicación o la preparación del manuscrito. Ninguno de los investigadores recibió un salario de los financiadores.

Conflicto de intereses: Ninguno de los autores enumerados tiene un conflicto de interés.

Introducción

La proteómica (MS) basada en espectrometría de masas de abajo hacia arriba se centra en la identificación y cuantificación sensibles de péptidos y, por lo tanto, de proteínas en muestras arbitrariamente complejas. [1,2]. En el flujo de trabajo estándar, los péptidos se producen primero mediante la proteólisis de proteínas con la enzima tripsina. En el siguiente paso, los péptidos generados se separan por cromatografía líquida y se miden por espectrometría de masas en tándem (LC-MS/MS). Finalmente, las coincidencias de espectro peptídico (PSM), la asignación de las secuencias peptídicas a los espectros de MS individuales, se producen utilizando compendios completos de la base de datos de secuencias de proteínas de referencia. [3].

Algunas de las aplicaciones notables de MS se encuentran en el campo de la proteómica de la medicina de infecciones, donde se emplea para caracterizar el mecanismo molecular detrás de las enfermedades bacterianas invasivas. [4–6]modelado de interacciones huésped-patógeno [7–13] e investigar cambios proteómicos sistémicos [14–18]. El uso de la proteasa de tripsina está justificado por su eficiencia, estabilidad y especificidad para la escisión solo en el extremo C-terminal de los residuos básicos, arginina y lisina. [19]. Sin embargo, su aplicabilidad está limitada por la composición de aminoácidos de las proteínas objetivo y el pH de la solución de digestión. [20,21]. Las proteasas distintas de la tripsina, como Elastase, Glu-C, Asp-N, Pepsin, ProAlanasa, se emplean para lograr diferentes patrones de escisión o funcionan en varios rangos de pH. [22–25]. A pesar de la creciente madurez de la MS ascendente, la identificación de péptidos está restringida a las secuencias incluidas en una base de datos de referencia. En consecuencia, es inalcanzable estudiar proteínas derivadas de organismos sin secuencia o extinguidos, muestras ambientales y microbiomas. Otros ejemplos implican anticuerpos monoclonales terapéuticos, es decir, proteínas del sistema inmunitario compuestas de cadenas pesadas (HC) y ligeras (LC) que contienen regiones conservadas y variables. La última región normalmente no está contenida en las bases de datos de secuencias tradicionales para ninguna cadena [24,26,27]. Para superar esta limitación, de novo La secuenciación de péptidos de MS está destinada a extraer información de secuencia parcial o completa directamente de los espectros de MS recopilados. En esta estrategia, las identidades y posiciones de los aminoácidos están determinadas por las diferencias de masa de una serie de fragmentos consecutivos, por ejemplo, fragmentos de iones de tipo b y y. Para ello se han creado programas que implementan algoritmos basados ​​en teoría de grafos, modelos ocultos de Markov, programación lineal y dinámica, como PEAKS [28]NovoHMM [29]Lutefisk [30]Sherenga [31]pNOVO [32,33]y Pep Novo [34], entre otros. Como en otros campos de la proteómica [35]la aplicación del aprendizaje profundo representó un gran avance en el rendimiento de novo Secuenciación de péptidos MS, como en el caso de DeepNovo [27]. Los algoritmos de aprendizaje profundo intentan simular el comportamiento del cerebro humano, aunque mediante el uso de muchas capas de neuronas conectadas, lo que le permite aprender múltiples niveles de representación de datos de alta dimensión. [35–38]. Este aspecto clave se traduce en avances revolucionarios en muchos campos de investigación, como el procesamiento de imágenes. [39]reconocimiento de voz [40]y procesamiento del lenguaje natural [37]. En el tipo de aprendizaje supervisado, un modelo aprende a hacer predicciones basadas en datos de entrenamiento etiquetados. Aquí, características como la cantidad de datos y su diversidad impactan directamente en la capacidad de generalización del modelo resultante, es decir, su capacidad para reaccionar ante nuevos datos y hacer predicciones precisas. Por lo tanto, la generalización es fundamental para el éxito de un modelo y su posterior implementación. [36,38]. El software DeepNovo superó a otros métodos de última generación a nivel de aminoácidos y péptidos. Combina redes neuronales convolucionales y recurrentes y programación dinámica local para aprender las características de espectros de masas en tándem, iones de fragmentos y patrones de secuencia de péptidos. Una versión posterior (DeepNovoV2) agregó una arquitectura de red de orden invariable (T-Net) y una incrustación posicional sinusoidal m/z [41]que supera a su predecesor en al menos un 13 % a nivel de péptidos [42].

Se ha informado que la generación y el análisis de péptidos superpuestos mediante digestión multienzimática es un procedimiento eficaz para la EM en tándem de novo secuenciación de proteínas [24,25,33,43]. Aquí, la misma muestra de la proteína diana se digiere de forma independiente con un conjunto de proteasas con diferentes patrones de escisión. En consecuencia, los péptidos generados pueden superponerse para reconstruir la estructura primaria de la proteína de interés. Este enfoque puede incluso resolver algunos de los desafíos encontrados en las estrategias convencionales, que dependen de la clonación/secuenciación de los ARNm codificantes. [43–45]. Teniendo en cuenta los hechos mencionados, la integración de la arquitectura de aprendizaje profundo de DeepNovo para manejar las muestras de EM multienzimáticas puede cambiar el juego para el de novo campo de la secuenciación de proteínas. Para lograr esto, requiere modelos generalizados. En este contexto, nos referimos a de novo modelos de secuenciación capaces de decodificar con éxito los espectros de MS de péptidos con extremos N y C variados. Estudios anteriores de DeepNovo informaron modelos entrenados exclusivamente a partir de un compendio de péptidos trípticos, denominados en este manuscrito como tripsina-SEM (modelos de enzima única de tripsina, [27,42]). Este hecho deja la puerta abierta a preguntas relacionadas con la generalización de los SEM de tripsina. En primer lugar, no está claro si estos modelos han ampliado la aplicabilidad a otros conjuntos de datos de MS, es decir, tienen una alta precisión en muestras generadas utilizando proteasas con especificidades de escisión diferentes a la empleada para producir el conjunto de entrenamiento del modelo. Del mismo modo, cómo la composición del conjunto de entrenamiento afecta la generalización del modelo resultante. Del mismo modo, los efectos de las características de los espectros de destino que facilitan la secuenciación de péptidos siguen sin explorarse.

Estudiamos los requisitos para construir modelos genéricos de DeepNovo para el de novo Tarea de secuenciación de MS en el presente trabajo. Para ello, analizamos cómo la composición peptídica y el tamaño del conjunto de entrenamiento afectan la generalización del modelo resultante. La eficiencia de estos Delaware Los modelos de secuenciación novo se evaluaron en dos conjuntos de pruebas con secuencias muy diversas mediante el cálculo del recuerdo a nivel de péptido, es decir, la fracción de secuencias peptídicas reales que se predijeron completamente correctamente. [27,42]. Los datos demostraron reiteradamente que el uso de una colección de péptidos con una amplia variedad de aminoácidos terminales N y C condujo a un 76 % más de modelos generalizables que los restringidos a terminales. Además, los modelos de DeepNovo siguieron mejorando en el de novo tarea de secuenciación de MS de péptidos a medida que continuamos ampliando los datos del conjunto de entrenamiento con la digestión multienzimática de varias muestras de especies. Además, demostramos la relevancia de estos modelos de aprendizaje profundo multienzimático (MEM) al de novo secuenciar lo pesado y cadenas monoméricas ligeras de cinco anticuerpos monoclonales (mAb) comerciales. Los MEM secuenciaron completamente 8 de 10 proteínas diana, extrayendo más de 10000 péptidos de confirmación y superposición de muestras de mAb MS digeridas con seis proteasas diferentes. Consideramos que los MEM, combinados con otras técnicas de espectrometría de masas, ayudarán de novo analizar muestras de MS de mayor complejidad, como la mezcla de mAbs.

Resultados y discusiones

Para integrar DeepNovo en el de novo tubería de secuenciación de proteínas, necesitamos modelos de aprendizaje profundo capaces de realizar de novo secuenciación en espectros MS de muestras digeridas con numerosas proteasas. Por lo tanto, primero es obligatorio determinar la base para construir tales modelos genéricos. Para ese propósito, exploramos el efecto de la composición del conjunto de entrenamiento en la generalización del modelo resultante, siguiendo el flujo de trabajo en Figura 1. Inicialmente creamos cinco conjuntos de datos de péptidos al digerir muestras de la línea celular Detroit 562 con cinco proteasas: tripsina, quimotripsina, elastasa, gluc y pepsina (ver Material y métodos sección para LC-MS/MS y detalles de anotación de espectros). En cada conjunto de datos, se seleccionaron al azar 21492 péptidos y se dividieron en conjuntos de entrenamiento (90 %), validación (5 %) y prueba (5 %) (ver Generación y evaluación de modelos de novo sección para más detalles). Luego construimos sistemáticamente múltiples modelos a partir de los datos de los conjuntos de entrenamiento. Para evaluar la generalización de todos los modelos, era esencial evaluar su rendimiento en un conjunto de datos compuesto por péptidos muy variables en términos de composición de aminoácidos y distribución de longitud de péptidos. Por esa razón, construimos el conjunto de prueba de Detroit fusionando los cinco conjuntos de prueba. Aquí, utilizamos el retiro a nivel de péptido como una métrica cuantitativa y comparativa de la capacidad de todos los modelos entrenados para secuenciar con éxito péptidos de novo con extremos N y C variados. Siguiendo esa lógica, usamos el recuerdo de péptidos en los conjuntos de prueba completos como una métrica para la evaluación de generalizabilidad (recuerdo global de péptidos). De manera similar, calculamos el recuerdo del péptido en los componentes del conjunto de Detroit, es decir, el recuerdo del péptido local. Además, dado que la proteasa empleada durante la preparación de la muestra tiene un efecto directo en la variabilidad de los terminales de recolección de péptidos resultantes, calculamos el número de trímeros únicos en el N-terminal (Tn) y C-terminal (Tc) para todos los generados. conjuntos de entrenamiento de modelos en este estudio. El uso de trímeros conduce a fragmentos N/C terminales únicos y no superpuestos, ya que la longitud mínima del péptido para la búsqueda DDA se estableció en 6. Del mismo modo, los valores de Tn y Tc aumentan con el tamaño del modelo. En general, Tn y Tc son métricas cuantitativas para el grado de variabilidad de los conjuntos de entrenamiento en cada extremo peptídico. Los valores más altos de Tn y Tc representan una mayor variabilidad en el conjunto de datos de péptidos en los extremos N y C, respectivamente. Además, la selección de trímeros nos permitió medir la variabilidad de los términos en función del tamaño del modelo. También introdujimos el factor de diversidad (DF), definido como log(Tn/Tc), como una medida del equilibrio de variabilidad entre los extremos N y C del conjunto de entrenamiento. Los valores de DF cercanos a cero representan modelos con un mejor equilibrio entre el número de trímeros en cada terminal. De manera similar, los valores de DF positivos y negativos indican una mayor proporción de Tn y Tc, respectivamente. Él Tabla S1 incluye los atributos de diversidad y el rendimiento de todos los modelos generados en el conjunto de pruebas de Detroit.

miniatura

Figura 1. Comenzamos con tres cohortes de muestra; Células Detroit 562, 5 anticuerpos disponibles comercialmente y una gran colección de muestras de diferentes especies.

Las muestras se dividieron en alícuotas y se digirieron utilizando cinco enzimas, se midieron mediante LC-MS/MS y se analizaron mediante búsquedas en bases de datos tradicionales con múltiples motores de búsqueda. Todos los datos también se analizaron utilizando el modelo de aprendizaje profundo DeepNovo publicado. Se crearon varios modelos de DeepNovo, consulte el texto para obtener más detalles y se evaluaron de tres maneras. La validación interna evaluó el rendimiento del modelo en los datos generados con las mismas enzimas con las que se entrenó el modelo. La validación externa evaluó el rendimiento del modelo utilizando datos generados con enzimas diferentes de los datos de creación del modelo. Finalmente evaluamos el rendimiento de cada modelo en de novo secuenciación de cinco anticuerpos de longitud completa.

https://doi.org/10.1371/journal.pcbi.1010457.g001

Los conjuntos de datos de entrenamiento de enzimas no específicas producen modelos más generalizados

Creamos la primera ronda de modelos a partir de los cinco conjuntos de datos de enzimas individuales y los identificamos como modelos de enzima única (SEM). Figura 2 muestra las características y el rendimiento de los cinco SEM en el equipo de prueba de Detroit. Vale la pena mencionar dos hallazgos con respecto a los SEM: 1) El uso de proteasas menos específicas para la generación de péptidos conduce a más series de entrenamiento equilibradas N/C terminales (Figura 2A). A diferencia de la pepsina, la tripsina proteasa tiene un patrón de escisión específico alto que genera un conjunto de entrenamiento con valores altos de Tn y bajos de Tc, ya que los péptidos terminan en aminoácidos de arginina o lisina. Esta observación está respaldada por los valores de DF para SEM, es decir, pepsina (0,52) Figura 2B). Al comparar el rendimiento en el conjunto de pruebas de Detroit a nivel de péptido, los datos muestran que los SEM construidos con enzimas menos específicas, específicamente pepsina-SEM, quimotripsina-SEM y elastasa-SEM, superan en un 14% a 46% a los generados a partir de proteasas con enzimas más específicas. patrones de escisión, como gluc-SEM y tripsina-SEM. Estas diferencias en la generalización de los SEM se explican al considerar su recuerdo de péptidos locales en los componentes del conjunto de Detroit (Figura 2C). Descubrimos que el factor que más contribuía estaba relacionado con el rendimiento de los modelos en conjuntos de datos interenzimáticos, por ejemplo, donde diferían las proteasas para generar los conjuntos de entrenamiento y prueba. Surge un ejemplo ilustrativo cuando se considera la recuperación de péptidos locales en los conjuntos de datos de quimotripsina, elastasa y glucpéptido, para los cuales el rendimiento de la pepsina-SEM fue aproximadamente un 46–86 % más alto que el de la tripsina-SEM. Además, todos los SEM se desempeñaron mejor cuando hubo una coincidencia entre la proteasa empleada para generar el conjunto de entrenamiento del SEM y la porción del conjunto de Detroit. En estos casos, el recuerdo del péptido local osciló entre 0,46 y 0,69. Estos resultados son comparables con trabajos anteriores de DeepNovo en los que solo se utilizó tripsina. [27,42]. Aquí, los valores de recuperación de péptidos locales muestran que los SEM menos específicos superaron entre el 6% y el 48% de los específicos del patrón de escisión. Estos resultados sugieren que los SEM generados a partir de la digestión con tripsina y gluc están más sesgados en la etapa de decodificación de espectros, especialmente para los aminoácidos del péptido C-terminal.

miniatura

Figura 2.

Desempeño de los modelos de una sola enzima (SEM) en el conjunto de prueba de Detroit: A) Valores de Tn y Tc para conjuntos de entrenamiento SEM; B) Generalizabilidad de SEM frente al factor de diversidad del conjunto de entrenamiento C) Rendimiento de péptidos de SEM en los conjuntos de datos específicos de enzimas individuales que componen el conjunto de prueba de Detroit. El esquema de colores para ambos modelos y muestras se encuentra en la parte inferior.

https://doi.org/10.1371/journal.pcbi.1010457.g002

Inspirándonos en los resultados de la primera ronda, decidimos probar si era posible modular la generalización de los modelos en función del factor de diversidad de su conjunto de entrenamiento. Para ello, construimos nuevos modelos distribuidos en dos categorías: 11 modelos monoterminal (MoTMs) y 12 modelos multiterminal (MuTMs). En MoTM, los conjuntos de entrenamiento se restringieron mediante el uso de péptidos que comparten un aminoácido específico en una de las posiciones terminales. Dados los datos de MS disponibles, construimos AlaN, GlyN, GluC, IleC, IleN, PheC, ArgC, LysC, ThrN, SerN y ValN MoTM. La nomenclatura de los modelos está compuesta por el código de tres letras del aminoácido seguido del tipo termini; por ejemplo, en los conjuntos de entrenamiento de los MoTM ThrN y PheC, todos los péptidos tienen un aminoácido Thr o Phe en el extremo N o C, respectivamente. Al contrario de los MoTM con respecto a la característica del factor de diversidad, los MuTM priorizaron la máxima variabilidad en ambos terminales mediante la selección de péptidos de los conjuntos de entrenamiento de todos los SEM. Además, para una comparación justa con los resultados de recuperación de péptidos globales y locales de los SEM anteriores, los MoTM y los MuTM se construyeron con la misma cantidad de espectros que los SEM. Fig. 3 muestra las características y el rendimiento de MoTM y MuTM en el equipo de prueba de Detroit.

Tomando como referencia los SEM, se distinguen tres nuevos grupos en cuanto a las distribuciones de los valores Tn y Tc (Figura 3A). Dos grupos pertenecen a MoTM, que tienen valores bajos de Tn y Tc para los MoTM restringidos N-terminales y C-terminales, respectivamente. El tercer grupo pertenece a las MuTM, que contienen valores altos tanto para los parámetros Tn como Tc. Figura 3B muestra que las MuTM están más equilibradas y generalizadas que todas las MoTM. De acuerdo con los valores medios de la recuperación global de péptidos en el conjunto de pruebas de Detroit, los MuTM superan el 76 % de los modelos MoTM. Además, la mitad de los MuTM generalizan mejor que el de pepsina-SEM, mientras que la otra mitad de los modelos fueron mejores que el de quimotripsina-SEM. Por el contrario, 10 de 11 MoTM sesgados fueron peores que la tripsina-SEM en la generalización. Por otro lado, el rendimiento de los modelos en los componentes del conjunto de prueba de Detroit muestra cómo los MuTM se agrupan, ya que exhibieron valores de recuperación de péptidos locales más uniformes en todos los tipos de muestras (Figura 3C). Por el contrario, el desempeño de los MoTMs dependía de la superposición de las reglas de clivaje entre la muestra y el conjunto de entrenamiento del modelo. Por ejemplo, el ArgC-MoTM funcionó mejor en la muestra de tripsina. Sin embargo, los valores de recuperación de péptidos locales cayeron entre un 57% y un 90% en los tipos de muestras restantes. Se observó un comportamiento similar en el rendimiento en otros MoTM, como GluC-MoTM y PheC-MoTM. Estas observaciones sugieren que, con la misma cantidad de datos de entrenamiento, es posible diseñar modelos más generalizables maximizando y equilibrando los valores Tn y Tc del conjunto de entrenamiento.

miniatura

Fig. 3. Modulación de la generalización de los modelos variando la variabilidad de los términos de sus conjuntos de entrenamiento.

Comparación de las características y el rendimiento de los modelos Monoterminal (MoTM) y Multiterminal (MuTM) en el equipo de prueba de Detroit: UNA. El entrenamiento establece la variabilidad de los terminales N/C para MoTM y MuTM; B. Generalizabilidad de los modelos en función de su factor de diversidad de términos; C. Recuperación de péptidos locales de MoTM y MuTM en componentes del equipo de prueba de Detroit. Incluimos los parámetros Tn, Tc y factor de diversidad de SEM como referencia cuantitativa. Los esquemas de color y forma para modelos y tipos de muestras se encuentran en la parte inferior.

https://doi.org/10.1371/journal.pcbi.1010457.g003

Los MEM grandes funcionan mejor

Dado que todos los SEM funcionan mejor con tipos de datos similares a los del conjunto de entrenamiento del modelo, decidimos construir 26 nuevos modelos mezclando todas las combinaciones posibles de los conjuntos de entrenamiento de los cinco modelos de enzima única, es decir, modelos multienzimáticos (MEM) a partir de la combinación de 2 (10 MEM), 3 (10 MEM), 4 (5 MEM) y 5 (1 MEM) conjuntos de datos SEM. Aquí, el MEM compuesto por los cinco conjuntos de datos de péptidos Detroit 562 se denominó Kilo MEM. Los datos muestran que agregar uno o más conjuntos de datos de péptidos diferentes a cualquier conjunto de datos SEM existente produce un crecimiento en Tn, Tc y parámetros de generalización para el MEM resultante (higo 4). Como se esperaba, el aumento en los valores de Tn y Tc fue más notable cuando los conjuntos de datos combinados no compartían las mismas reglas de escisión que en las combinaciones de conjuntos de datos de quimotripsina-gluc y tripsina-elastasa-gluc (Figura 4A). Además, los valores de los factores de generalización y diversidad sugieren que los MEM se generalizan mejor y están más equilibrados en términos terminales a medida que aumentamos el número de conjuntos de datos de péptidos (Figura 4B). Un ejemplo ilustrativo del creciente desempeño de los MEM se muestra en Figura 4C, donde mostramos el camino para generar el Kilo MEM a partir de la pepsina-SEM. Vale la pena mencionar dos observaciones: 1) los nuevos conjuntos de datos contribuyeron positivamente a la generalización de los MEM resultantes, y 2) el MEM formado siempre funcionó mejor que sus modelos antecesores. El Kilo MEM no solo duplica la variabilidad del conjunto de datos de péptidos terminales, sino que también produce un aumento del 38 % en los factores de diversidad relacionados con todos los SEM. Como resultado, el Kilo MEM supera de 1,8 a 2,4 veces a los SEM.

miniatura

Figura 4. Características y rendimiento de los modelos multienzimáticos (MEM).

UNA. valores Tn y Tc de los conjuntos de entrenamiento; B. generalizabilidad de los MEM frente al factor de diversidad; C. Construcción secuencial de Kilo MEM a partir de los cinco conjuntos de datos SEM. El tamaño de los círculos es proporcional a sus valores de generalización en el conjunto de pruebas de Detroit. El esquema de colores en la parte inferior refleja la variación de las características de los modelos con el número de conjuntos de datos combinados. Los datos SEM (mostrados en gris) se usaron como referencia.

https://doi.org/10.1371/journal.pcbi.1010457.g004

Los resultados de SEM y MEM demostraron que características tales como el tamaño del conjunto de entrenamiento y la variabilidad de la secuencia de péptidos impactan significativamente en la generalización del modelo resultante. En este punto, planteamos la hipótesis de que expandir la variabilidad de la secuencia mediante la creación de un conjunto de entrenamiento que incluya péptidos de diferentes especies conducirá a un modelo más genérico que el Kilo MEM. Para probarlo, generamos un conjunto de datos externo, llamado aquí Giga, mediante la digestión de varias muestras de especies, como Saccharomyces cerevisiae, Escherichia coli, Equus caballus, Streptococcus pyogenesy Mus musculus con tripsina, quimotripsina, elastasa y gluc proteasas. Seguimos el mismo protocolo para la inyección de muestras, la detección de MS y la búsqueda en la base de datos (Ver material y métodos). Después de la anotación de espectros, el conjunto de datos Giga era diez veces más grande que el conjunto de datos Detroit 562. Luego entrenamos y aplicamos el Giga MEM al conjunto de prueba de Detroit y comparamos los resultados con el Kilo MEM. Los datos muestran que el Giga MEM se generalizó un 29,4 % mejor que el Kilo MEM, con un rendimiento superior al 24-41 % en todos los tipos de muestras que componen el conjunto de pruebas de Detroit (higo 5). De la misma manera, el Giga MEM generaliza 2,1 a 3,0 veces mejor que los SEM.

El conjunto de datos Giga también se utilizó como conjunto de prueba externo. Específicamente, probamos la generalización de 5 SEM y 26 MEM. Curiosamente, los valores de generalización en el conjunto de pruebas Giga respaldaron nuestros hallazgos anteriores sobre las mejores condiciones para construir modelos más genéricos (Texto S1). Aquí, es crucial mencionar los resultados de pepsina-SEM; En el caso del conjunto de pruebas de Detroit, la porción más considerable de espectros secuenciados de novo correspondía a péptidos generados con la misma proteasa que el conjunto de entrenamiento del SEM. Sin embargo, la pepsina no formaba parte del protocolo multienzimático para generar el conjunto de prueba de péptido externo Giga. A pesar de eso, el pepsina-SEM se desempeñó mejor entre todos los SEM. En general, los resultados de generalización en los conjuntos de prueba de Detroit y Giga sugieren que, al igual que otras arquitecturas de aprendizaje profundo, DeepNovo siguió mejorando en el de novo tarea de secuenciación de péptidos MS mientras alimentamos el modelo con datos extensos y muy diversos de péptidos MS.

Impacto de distribución de iones de fragmentos MS de novo secuenciación de péptidos

Después de establecer los criterios para construir modelos generalizables, exploramos más a fondo cómo la composición peptídica afecta la capacidad de de novo secuenciar correctamente su espectro. En este sentido, estudiamos los resultados de Kilo MEM en el conjunto de prueba Giga (higo 6). Inicialmente, evaluamos el efecto de la distribución de la longitud del péptido en el rendimiento general del modelo de aprendizaje profundo mediante el seguimiento del recuerdo del péptido a medida que variamos la longitud máxima del péptido (Figura 6A). Observamos que el rendimiento disminuyó a medida que incluimos péptidos más largos en el conjunto de prueba. Los datos muestran que la probabilidad de de novo MS secuenciando correctamente los péptidos de 6 residuos fue del 86,1 % y cayó rápidamente al 40 % al considerar los péptidos de hasta 14 residuos.

miniatura

Figura 6. Kilo MEM de novo resultados de secuenciación en el equipo de prueba externo Giga.

UNA. recuperación de péptidos en función de la longitud máxima de péptidos en el conjunto de prueba a nivel global y local; B. distribución de longitudes de péptidos para todos los tipos de muestras del conjunto de pruebas Giga; C. capacidad de generalización en función de los valores mínimos de la cuadrícula de recuperación de iones cargados individualmente; D. recuperación de iones y y MI. Distribuciones de recuperación de iones b para los tipos de espectros de muestra de tripsina, quimotripsina, elastasa y gluc. El esquema de colores para los tipos de muestra se encuentra en la parte inferior.

https://doi.org/10.1371/journal.pcbi.1010457.g006

Además, esta disminución del rendimiento difirió para todos los componentes del conjunto Giga, lo que sugiere que la identidad de los péptidos también afecta su posibilidad de ser secuenciados por MS. Para explicar estas diferencias entre los cuatro conjuntos de datos, calculamos la distribución de la longitud del péptido (Figura 6B). Los datos muestran que el 75% de los datos en el conjunto de datos de elastasa son péptidos de longitud 12 o más cortos, lo que explica por qué era más accesible para de novo Datos de elastasa de secuencia MS sobre datos de quimotripsina y gluc. Para este último, el 75% de los datos eran péptidos de longitud 13 o más.

Dado que las distribuciones de longitud de los péptidos no pudieron explicar las diferencias de rendimiento relacionadas con la muestra de tripsina, calculamos además el recuerdo de iones b e y de carga única para todos los espectros de péptidos que componen el conjunto de prueba Giga, por ejemplo, la proporción de los iones de fragmento encontrados experimentalmente durante el total esperado teóricamente. Aquí, el recuerdo de iones es una métrica cuantitativa de la capacidad de un péptido particular para producir iones b/y en condiciones experimentales específicas. [24,25,46,47]. Para la extracción de iones de fragmentos, la tolerancia m/z fue de 15 ppm. También calculamos la recuperación de péptidos en función de los valores mínimos para los pares de recuperación de iones b/y.

La cuadrícula de recuperación de iones b/y muestra que la probabilidad de de novo MS secuencia correctamente un aumento de péptido con su capacidad de producir iones b o y (Figura 6C). Los datos muestran que la recuperación global de péptidos en el conjunto de pruebas Giga fue superior al 70 % cuando los péptidos produjeron al menos el 80 % y el 60 % de los fragmentos de iones b y/o y esperados. Estos resultados sugieren que la de novo El rendimiento de la secuenciación de MS en un tipo de muestra específico está ligado a sus distribuciones de recuperación de iones b/y. Figura 6D muestra que el orden de distribución de recuperación de iones y se ajusta al comportamiento de recuperación de péptidos para todos los tipos de muestras. Vale la pena mencionar que los péptidos trípticos tenían la proporción más alta de los iones y de carga única esperados en comparación con los otros tipos de muestras, lo que explica su notable rendimiento en una amplia gama de longitudes de péptidos (Figura 6A), es decir, el 55% de los espectros anotados tenían al menos el 60% de la y-iones esperados. Para estos péptidos, los fragmentos de iones y tienen un residuo cargado, como la arginina o la lisina, que son más abundantes y producen picos más intensos con el método de fragmentación HCD. [48,49]. Por el contrario, los péptidos de la digestión con gluc tenían una baja proporción de iones y y b (Figura 6E). Además, las distribuciones de recuperación de elastasa b/y-ion son consistentes con una alta proporción de péptidos cortos.

MEM para longitud completa de novo secuenciación de anticuerpos

Una vez que establecimos los requisitos para construir modelos generalizables y cómo la calidad de los espectros de entrada impacta el subsiguiente de novo proceso de secuenciación de péptidos MS, probamos la eficiencia de usar los MEM en el de novo tubería de secuenciación de proteínas. Para este esfuerzo, seleccionamos un sistema desafiante y de interés biológico, como la secuenciación completa de anticuerpos monoclonales (mAb). Nuestro objetivo era de novo MS secuencia las cadenas pesada (HC) y ligera (LH) de cinco mAbs comerciales: Erbitux, Herceptin, Prolia, Silulite y Xolair. Digerimos cada muestra de mAb con seis proteasas: tripsina, quimotripsina, elastasa, gluc, pepsina y aspn. Cabe mencionar que esta última enzima no formaba parte del protocolo de generación de los modelos. Por otro lado, creamos el MEM Giga+ combinando los conjuntos de entrenamiento de los MEM Kilo y Giga. Consideramos ocho modelos (5 SEM + 3 MEM) para fines de comparación. Para analizar los resultados, inicialmente calculamos la cobertura relativa para todo el espacio de variables, es decir, modelos x muestras x matriz de cadenas (Figura 7A, Texto S2, Tabla S1). De esta manera, obtuvimos una idea del rendimiento del modelo en todos los tipos de muestras y qué enzimas facilitan la de novo secuenciación de las subunidades HC y LC. Además, examinamos la distribución de la longitud de los péptidos que coinciden con la secuencia para todos los tipos de muestras (Figura 7B). Estos gráficos proporcionan información sobre el poder de decodificación de los modelos. También muestra la capacidad de las diferentes proteasas para producir péptidos fácilmente detectables a partir de la de novo Perspectiva de secuenciación de MS. Aquí, discutimos inicialmente el impacto del uso de diferentes proteasas para la secuenciación de novo de anticuerpos monoclonales, específicamente, cómo afecta la capacidad de todos los modelos para lograr una alta cobertura de proteínas y generar una gran cantidad de diferentes péptidos fáciles de decodificar. Luego examinamos el rendimiento individual de los MEM frente a los SEM en todos los tipos de muestras. Finalmente, mostramos la capacidad de los MEM para producir una gran cantidad de péptidos superpuestos en los dominios variable y constante de las proteínas estudiadas.

miniatura

Figura 7. Secuenciación completa de novo de anticuerpos monoclonales comerciales mediante modelos de aprendizaje profundo.

A) cobertura de toda la luz (cima) y pesado (fondo) cadenas para todo tipo de muestras. B) distribución de longitudes para todos los péptidos coincidentes extraídos de cada tipo de muestra; C) Valores de puntuación posicional (CS) confiables para los dominios constantes y variables de todas las proteínas. Vista general de los valores de CS para los modelos evaluados en todos los tipos de muestra (Panel izquierdo). Amplíe los valores de CS para los dominios variables de cadenas ligeras y pesadas para el modelo de aprendizaje profundo Giga+ en todos los tipos de muestra (Panel superior derecho) y todos los modelos al combinar todos los tipos de muestra (Panel inferior derecho).

https://doi.org/10.1371/journal.pcbi.1010457.g007

Con respecto a los tipos de muestra, los datos muestran que trabajar con las proteasas quimotripsina y elastasa tuvo muchos beneficios relacionados con una buena cobertura de proteínas (Figura 7A) y la extracción de una gran cantidad de péptidos coincidentes (Figura 7B). Los datos muestran que digerir las muestras con estas proteasas produce una mejor cobertura de proteína individual, donde en el 75 % de los casos, la cobertura relativa de secuencia fue de al menos 0,80 y 0,75 para quimotripsina y elastasa, respectivamente. Además, la cantidad total de péptidos extraídos fue de 2 a 8 veces mayor que el resto de las proteasas (Texto S2). Vale la pena señalar que estas fueron las únicas enzimas en las que, para longitudes entre 6 y 9, todos los modelos de aprendizaje profundo considerados identificaron más de 100 péptidos. Estas observaciones sugieren que trabajar con las proteasas quimotripsina y elastasa conduce a grandes cantidades de de novo EM péptidos secuenciables. Como era de esperar, las muestras digeridas con gluc y aspn obtuvieron los valores de extracción de péptidos coincidentes más bajos, lo que produjo las peores coberturas de proteínas individuales. Estas proteasas produjeron péptidos largos con memorias bajas de iones b e y, haciéndolos más difíciles de de novo secuencia.

Al comparar el rendimiento de los modelos de aprendizaje profundo, los MEM Giga y Giga+ fueron evidentemente superiores después de considerar los valores de las coberturas de proteínas y la cantidad de parámetros coincidentes de péptidos extraídos. Para Giga+ MEM, el valor medio de la cobertura de proteínas fue de 0,96 después de considerar todos los tipos de muestras y mAbs. Además, extrajo 10367 péptidos únicos y de confirmación, una cantidad de 2 a 2,8 veces mayor que el Kilo MEM y todos los SEM (Texto S2). Curiosamente, y con base en los mismos parámetros, el SEM de pepsina se encontraba entre los cinco SEM. Estos hallazgos respaldaron nuestras declaraciones anteriores sobre los criterios necesarios para construir modelos generalizables. Cabe señalar que el Giga+ MEM secuenció todas las cadenas ligeras y 3 de 5 subunidades pesadas de mAb para los resultados de las muestras combinadas, es decir, mAb Herceptin, Silulite y Xolair. Las proteínas restantes tenían una cobertura de al menos 0,97. Es fundamental considerar que, en mAb, la subunidad HC puede portar glicanos en su región constante [50,51]. En algunos casos, como en el caso de Erbitux, los glicanos también se encuentran en la región variable HC [52].

Como la superposición de péptidos es necesaria para el ensamblaje de secuencias de proteínas, también decidimos profundizar en el análisis de los resultados de MAbs de novo e introducir el puntuación posicional segura (CS). Para un residuo en la posición i de la secuencia proteica, se define como Ci = Iniciar sesión2(Fi+1). Aquí Fi es la frecuencia posicional para la posición ies decir, el número de de novo péptidos coincidentes secuenciados para la posición i en la secuencia de proteínas (Figura 7C). Superior consecutivo CS valores representan regiones con mayor evidencia en el de novo proceso de secuenciación de proteínas, siendo especialmente importante para las regiones variables de los MAbs HC y LC, cuyas secuencias son desconocidas. Por el contrario, las regiones de secuencia sin péptidos detectados tienen una frecuencia posicional cero, ergo, un valor CS cero. Después de peinar todos los tipos de muestras, el MEM Giga+ obtuvo una frecuencia posicional superior a diez para el 90,7 % de los aminoácidos que componen los mAbs del estudio. Además, el valor de este parámetro aumentó a 50 o más para el 45,7% de dichos aminoácidos. De manera similar, no hubo péptidos de confirmación para solo el 0,03% de los residuos. Además, para la región variable de mAb, la frecuencia posicional media fue de 45 y 51 para las subunidades HC y LC, respectivamente (Texto S3). Para las cinco subunidades de HC, los datos muestran que los valores de CS disminuyeron hasta un 30 % en el entorno de los glicanos. regiones, probablemente debido a un efecto estérico ya que estas especies voluminosas impiden una digestión eficiente. En el caso del Erbitux mAb, las regiones con valores de CS cero coincidieron con la ubicación de los glicanos para los dominios constante y variable de HC (higo 8), lo que sugiere que la eliminación de los glicanos debe incorporarse en la preparación de la muestra para garantizar la secuenciación completa de los mAbs por MS. Dados los resultados de cobertura y frecuencia posicional, los hallazgos discutidos aquí sientan un precedente para el uso de modelos multienzimáticos de aprendizaje profundo como una alternativa para secuenciar proteínas a partir de su digestión multienzimática.

miniatura

Figura 8. Representación de gusano segmentado en 3D de los mAbs con el más alto (Herceptin) y el más bajo (Erbitux) de novo Valores de CS de secuenciación de MS.

El grosor y el color de las cadenas de proteínas son proporcionales a sus valores de CS.

https://doi.org/10.1371/journal.pcbi.1010457.g008

En futuros estudios, puede ser interesante explorar el uso de la multienzima de nuevo protocolo de secuenciación junto con otras técnicas complementarias de MS como Top-down para secuenciar mezclas de mAb. De manera similar, el concepto de frecuencia posicional abre espacio para el desarrollo de nuevos métodos de ensamblaje de proteínas basados ​​en MS.

Fuente del artículo

Deja un comentario