Aprendizaje automático para la identificación de derivados sililados a partir de espectros de masas | Revista de quimioinformática

Generación del conjunto de datos de entrenamiento

Utilizando el software de búsqueda NIST MS, se generó el conjunto de datos de entrenamiento inicial de espectros GC-EI-MS (CD 0.1), que consta de 9958 espectros GC-EI-MS (Fig. 2). En el primer paso, se eliminaron los espectros GC-EI-MS de compuestos químicamente irrelevantes. Estos compuestos contenían en sus estructuras químicas átomo(s) de Si que no formaban parte de un grupo TMS, pero pertenecían a una de las categorías estructurales de exclusión (consulte la sección «Generación del conjunto de datos de entrenamiento»). Esto resultó en la eliminación de 2385 espectros de GC-EI-MS (24 %), lo que generó el conjunto de datos refinado (CD 1.1) de 7573 espectros de GC-EI-MS. La colección restante de espectros GC-EI-MS comprende compuestos que consisten en los 11 elementos más típicos en química orgánica: C, H, N, O, P, S, Br, I, F, Cl y Si [73, 74]. Además, 9 espectros GC-EI-MS de derivados de TMS de alta masa (Mw > 1000) y se eliminaron 2.925 espectros GC-EI-MS de calidad insuficiente en el segundo y tercer paso de filtración, respectivamente. El conjunto de datos de entrenamiento final, CD 3.3, consta de 4648 espectros GC-EI-MS (de 3948 derivados TMS), que es el 47 % del conjunto de datos CD 0.1 inicial. Después del tercer paso de filtrado, una última modificación en la que el m/z el rango se estableció en m/z 50 hasta Mw Se hicieron + 10 Da a los 4.648 espectros restantes en la versión final del conjunto de datos de entrenamiento.

Generación del conjunto de datos de prueba

Las predicciones, los criterios y los resultados de la evaluación ambiental de los compuestos considerados para la generación del conjunto de datos de prueba se describen en detalle en el archivo adicional 2. La evaluación de los 100 compuestos seleccionados para generar el conjunto de datos de prueba de GC-EI-MS Los espectros (ver Archivo adicional 3) revelaron una relevancia ambiental significativa para la mayoría de los compuestos de prueba. Brevemente, 96 compuestos cumplen al menos tres criterios de clasificación RPMBT (consulte la sección «Químicos y reactivos»), mientras que cuatro compuestos (3-metil-5-nitrocatecol (3M5NC), 4-nitrosiringol (4-NS), 6-hidroxipregnenolona (6HP ) y la 11-hidroxitestosterona (11HT)) no, aunque según el Reglamento (CE) n.º 1907/2006, Anexo XIII [69]pueden considerarse compuestos persistentes, móviles y tóxicos (Ficha adicional 3).

Los experimentos de derivatización dieron como resultado la formación de 104 derivados de TMS con Mwoscila entre 182 y 575 Da (ver archivo adicional 4). Las condiciones optimizadas de adquisición y derivatización se pueden encontrar en la Tabla 1. Durante la adquisición, no se detectó ninguna contaminación significativa de la muestra o arrastre. La sustracción de la línea de base aún se realizaba para eliminar las señales de fondo constantemente presentes, como las que se originan de los contaminantes comunes de GC-MS, por ejemplo, m/z 149 como una interferencia típica de ftalatos, m/z 282, m/z 256 y m/z 284 para ácido oleico, palmítico y esteárico, y m/z 207, m/z 281 y m/z 327 de polisiloxanos comunes resultantes de la degradación de la fase estacionaria de la columna GC. Los espectros GC-EI-MS sin procesar se asignaron al conjunto de datos de prueba RAW. Después de la sustracción de fondo, los espectros resultantes se asignaron al conjunto de datos de prueba de BS.

Selección y análisis de similitud espectral GC-EI-MS

La forma más utilizada, confiable y precisa de comparar espectros de MS es cuantificar la fracción de picos compartidos mediante el uso de puntuaciones de similitud basadas en cosenos que se basan en la multiplicación de las intensidades de los picos coincidentes. [75]. Cuando se adquieren múltiples espectros EI-MS del mismo compuesto, es necesario comprender si se debe tener en cuenta cada espectro MS en particular y, de no ser así, cuál(es) se debe(n). Para validar la hipótesis de que los espectros GC-EI-MS del mismo compuesto (aquí, derivado de TMS) son altamente reproducibles/similares, realizamos una comparación de similitud de coseno todos contra todos dentro del conjunto de datos experimentales RAW y BS. Si bien el valor umbral de similitud de coseno establecido es 0,50, la similitud de coseno mínima para la mayoría de los pares derivados de TMS fue superior a 0,95 (Tabla 2). Hay muy pocos derivados de TMS para los que existía un par de espectros en RAW (ácido 2-anilinofenilacético-TMS (2APA-TMS)), BS (ácido cannabidiolico TMS (CBDA-TMS), nitroxolina TMS (NX-TMS)) o en ambos conjuntos de datos experimentales (L-tirosina TMS (LTYR-TMS), ácido salicílico TMS (SA-TMS)), que produjeron un factor de similitud de coseno mínimo por debajo de 0,50. A pesar de estas pocas discrepancias observadas, mantuvimos todos los espectros de GC-EI-MS de estos derivados de TMS en los conjuntos de datos experimentales.

Además, para 2APA-TMS, 17α-etinilestradiol TMS (EE2-TMS), estriol TMS (E3-TMS), NX-TMS, LTYR-TMS, L-leucina (LLEU-TMS) y L-serina TMS (LSER- TMS), la similitud de coseno mínima entre un par de espectros RAW y BS MS estaba por debajo de 0,50. Además, para los dos últimos derivados de TMS, el factor de similitud de coseno máximo no excedió de 0,50. Dichos valores indican que se producen cambios significativos en los espectros de MS cuando se realiza la sustracción de fondo. En la Fig. 4A se muestra un derivado de TMS de ejemplo con espectros altamente reproducibles, junto con un derivado de TMS de ejemplo donde los espectros de GC-EI-MS son menos reproducibles (Fig. 4B), donde el color verde indica una similitud de coseno alta (0.99–1.00), el color amarillo indica una similitud de coseno media (0,51–0,98) y el color rojo indica una similitud de coseno baja (por debajo de 0,50).

Figura 4
Figura 4

Matrices de similitud de coseno para múltiples espectros de A: CLP-TMS CRUDO y B: NX-TMS CRUDO. El color verde indica una similitud de coseno alta (0,99–1,00), el color amarillo indica una similitud de coseno media (0,51–0,98) y el color rojo indica una similitud de coseno baja (por debajo de 0,50).

Aún así, la reproducibilidad de los espectros GC-EI-MS de los derivados de TMS es en general satisfactoria. Cualquiera de los espectros GC-EI-MS adquiridos de cada derivado de TMS puede utilizarse para probar el modelo CSI:IOKR. Esto es claramente visible en el archivo adicional 5, donde muy pocos derivados de TMS tienen pares de espectros GC-EI-MS de baja similitud, es decir, factor por debajo de 0,50. A pesar de estas pocas discrepancias observadas, mantuvimos todos los espectros de GC-EI-MS de estos derivados de TMS en los conjuntos de datos experimentales.

CSI: IOKR

El protocolo

Se usó CSI:IOKR para identificar CEC a partir de espectros GC-EI-MS de sus derivados TMS. Si bien se han propuesto muchos núcleos diferentes en la literatura [43,44,45,46, 48], es bien sabido que los métodos de aprendizaje automático supervisado basados ​​en kernel tienen problemas de complejidad computacional, especialmente cuando se utilizan kernels complejos. Pueden tener un alto rendimiento predictivo al precio de una gran carga computacional. Guiados por este conocimiento, utilizamos dos núcleos simples, a saber, el PPK como entrada y el núcleo lineal como núcleo de salida. El PPK se calcula a partir de un espectro modelando cada pico en el MS como una distribución gaussiana, donde el m/z la relación y la intensidad representan las dimensiones y modelan todo el espectro como una mezcla de distribuciones normales. El emparejamiento de todos contra todos se realiza integrando el producto entre las dos mezclas de distribución correspondientes. Se ha demostrado que este núcleo es superior a los núcleos simples de coincidencia de picos y pérdidas calculados directamente a partir de los espectros (sin el conocimiento de los árboles de fragmentación) [43, 44]. Entre los 24 kernels de entrada del modelo CSI:IOKR, PPK fue uno de los kernels con mejor desempeño y se le asignó el peso más alto en el enfoque ALIGNF de Brouard et al. [45]. El kernel lineal se seleccionó como kernel de salida en base a los resultados de la evaluación de Brouard et al. [45], donde se desempeñó de manera comparable al núcleo polinomial e insignificantemente peor que el núcleo gaussiano (30,02 % frente a 30,66 % con el enfoque UNIMKL, 28,54 % frente a 29,78 % con el enfoque ALIGNF). PPK como núcleo de entrada y lineal como núcleo de salida también fueron los núcleos con mejor rendimiento en el método IOKRFusion [47].

El rendimiento de IOKR con los dos núcleos seleccionados se evaluó en cada uno de los conjuntos de prueba. La precisión de la identificación se evaluó utilizando tres métricas: (1) la precisión top-k, que corresponde al porcentaje de derivados TMS de prueba para los cuales se encuentra el candidato estructural correcto entre los top k candidatos clasificados; (2) la posición de clasificación absoluta promedio ((overline)), el promedio de valores ARP para todos los CEC-TMS, definido como el número de candidatos con una mejor clasificación que el compuesto correcto más 1 y (3) la posición relativa promedio en la clasificación ((overline)), de valores PVP para todos los CEC-TMS [76]calculado como (Ec. 2):

$$ = fracleft( derecha)$$

(2)

donde BC denota el número de candidatos mejor calificados que el candidato correcto, WC denota el número de candidatos clasificados inferior, es decir, peor que el candidato correcto y TC denota el número total de candidatos. los (overline) varía de 0 a 1, con (overline) = 0 si el candidato correcto ocupa el primer lugar y (overline) = 1 si el candidato correcto ocupa el último lugar. Para cada ejecución de IOKR, los derivados de TMS que faltaban en el grupo de candidatos de PubChem se denominaron «faltantes».

Resultados de rendimiento

Los resultados de la evaluación del rendimiento de CSI:IOKR se recopilan en la Tabla 2. Primero, investigamos si el filtrado del conjunto de datos de entrenamiento y el procesamiento posterior a la adquisición del conjunto de datos de prueba afectaron el rendimiento. El filtrado espectral del conjunto de datos de entrenamiento involucró los pasos ilustrados en la Fig. 2, mientras que el procesamiento posterior a la adquisición solo involucró la sustracción de la línea de base. Como es evidente en la Tabla 2 y la Fig. 5, se logró un rendimiento más bajo cuando se utilizó el conjunto de datos GC-EI-MS del NIST sin filtrar (CD 0.1) en la fase de aprendizaje, para ambos conjuntos de datos de prueba. Aumento de dos a cuatro veces de la parte superiork Se observaron precisiones cuando se usó el conjunto de datos NIST GC-EI-MS filtrado en 3 pasos (CD 3.3) para entrenar el modelo (en lugar de CD 0.1). También el (overline) y (overline) mejorado dos veces con el conjunto de datos CD 3.3. por ejemplo, el (overline) del derivado TMS correcto fue 31 posiciones y 29 posiciones más alto para los conjuntos de datos RAW y BS, respectivamente. Como es evidente en la Fig. 5, aparecieron diferencias muy sutiles de menos del 2 % entre el rendimiento en los conjuntos de datos de prueba RAW y BS en todos los experimentos, lo que favoreció ligeramente al conjunto de datos de prueba RAW, especialmente cuando se usó CD 3.3 para entrenar el modelo. sin embargo, el (overline) los valores fueron comparables para los conjuntos de prueba RAW y BS con los conjuntos de entrenamiento CD 0.1 y CD 3.3, lo que confirma que esta resta de referencia no es importante para la tarea de identificación. Por lo tanto, consideramos que el modelo CSI:IOKR funciona mejor cuando se entrena con el conjunto de datos de entrenamiento CD 3.3 y se prueba en el conjunto de datos de prueba RAW. Por lo tanto, se realiza una evaluación adicional del rendimiento de CSI:IOKR en función de los resultados de CD 3.3 + RAW.

Tabla 2 Las precisiones de identificación de CSI:IOKR en diferentes conjuntos de datos de entrenamiento y prueba.
Figura 5
Figura 5

Gráfico de precisión top-k para CSI:IOKR con diferentes conjuntos de datos de prueba y entrenamiento. CD 0.1 + RAW (línea roja); CD 0.1 + BS (línea azul); CD 3.3 + RAW (línea amarilla) y CD 3.3 + BS (línea verde).

Para cada configuración experimental, el número total de derivados de CEC-TMS, el número (n) y el porcentaje (%) de derivados de CEC-TMS que faltan, y los derivados de CEC-TMS clasificados correctamente entre los primeros 1, 10 y 20 resultados (top k precisiones), (overline) y (overline) son dados.

Además, comparamos el rendimiento de CSI:IOKR para dos subgrupos de derivados de TMS del conjunto de prueba, es decir, aquellos con espectros GC-EI-MS dentro y fuera del conjunto de datos de entrenamiento («presencia en el conjunto de datos de entrenamiento» Sí/No, Tabla 2 ). Los resultados muestran un mejor rendimiento de identificación para los espectros GC-EI-MS que formaban parte del conjunto de datos de entrenamiento para el conjunto de datos CD 3.3. Las diferencias en el rendimiento son pequeñas y su dirección no está clara para el conjunto de datos de entrenamiento CD 0.1, especialmente para la métrica top 1. La razón subyacente puede ser que el tamaño de los conjuntos de candidatos era típicamente mucho menor para el grupo de derivados de TMS que no formaban parte del conjunto de datos de entrenamiento, lo que refleja la gran cantidad de derivados de TMS que no forman parte de PubChem.

Con esto en mente, investigamos la relación entre el tamaño del conjunto de candidatos y el rendimiento de identificación. La distribución de los tamaños de los conjuntos de candidatos se presenta en la Fig. 6. El tamaño máximo de un conjunto de candidatos era inferior a 400, mientras que la mayoría de los conjuntos de candidatos (alrededor del 50 %) constaban de 0 a 25 candidatos (Fig. 6A). Según los resultados (Fig. 6B), la dificultad de la tarea de identificación no parece depender en gran medida del tamaño del conjunto de candidatos, ya que el método puede identificar correctamente una proporción significativa de compuestos de prueba dentro del top 1 y top. 10 candidatos, incluso para conjuntos de candidatos más grandes [45]. Para 32 desafíos del conjunto de datos de prueba, sus conjuntos de candidatos correspondientes no contenían el compuesto correcto.

Figura 6
figura 6

A: Distribución de tamaños de conjuntos de candidatos de PubChem para los espectros del conjunto de prueba. El color azul representa los derivados de TMS que están en PubChem y el color naranja representa los derivados de TMS que no están en PubChem; B: Distribución de derivados de TMS del conjunto de datos de prueba; el eje y representa el porcentaje de derivados TMS correctos que no están presentes en su conjunto de candidatos (color verde); porcentaje de derivados de TMS correctos que ocupan el primer lugar (color rosa); porcentaje de derivados TMS correctos clasificados entre los 10 primeros (color amarillo); porcentaje de derivados de TMS que están clasificados por debajo de las 10 primeras posiciones (color naranja) y porcentaje de derivados de TMS que faltan, es decir, derivados de TMS que no están en el conjunto de candidatos de PubChem (color azul) entre los derivados de TMS de prueba con tamaños de conjunto de candidatos en cada contenedor de tamaño, mientras que el eje x representa los contenedores de tamaño de conjunto de candidatos.

La relación del número de candidatos dentro de cada conjunto de candidatos de PubChem con el porcentaje de candidatos clasificados por encima del compuesto correcto (Fig. 7) no reveló ningún patrón específico, independientemente de si los derivados de TMS tenían sus espectros dentro o fuera del conjunto de datos de entrenamiento. Los resultados indican que la influencia del tamaño de los conjuntos de candidatos de PubChem en la precisión de la identificación es insignificante. Es decir, el modelo CSI:IOKR, en términos porcentuales, no funciona peor con conjuntos de candidatos más grandes. Sin embargo, esto puede no producir un rendimiento satisfactorio cuando el compuesto correcto se clasifica, por ejemplo, en la posición 100 entre 1000 candidatos. En este caso, el porcentaje es bueno, mientras que el rango en sí no lo es.

Figura 7
figura 7

El porcentaje de candidatos clasificados por encima del compuesto correcto frente al tamaño de cada conjunto de candidatos de PubChem. Los triángulos rojos representan el porcentaje de derivados de TMS que no están presentes en el conjunto de datos de entrenamiento; los cuadrados amarillos representan el porcentaje de derivados de TMS que están presentes en el conjunto de datos de entrenamiento.

Para investigar la capacidad de CSI:IOKR para identificar grupos particulares de derivados de TMS, dividimos estos últimos en 6 clases de TMS estructurales, según el resto al que estaba unido el grupo de TMS (archivo adicional 6). Para cada clase de TMS, la mediana del número de candidatos en todos los conjuntos de candidatos de la clase se trazó frente a la proporción de derivados de TMS para los que el candidato correcto se clasificó entre los 10 y los 20 candidatos principales (Fig. 8) y promedio. (overline) (Figura 9). Se omitieron los derivados de TMS para los que el candidato correcto estaba ausente de los conjuntos de candidatos correspondientes.

Figura 8
figura 8

La mediana del número de candidatos en los conjuntos de candidatos de diferentes clases de derivados de TMS representados frente a la proporción de derivados de TMS de desafío dentro de los grupos clasificados correctamente entre los 10 candidatos principales (cuadrados rojos) y los 20 candidatos principales (triángulos amarillos).

Figura 9
figura 9

Diagrama de caja que representa la distribución de la (overline) de los compuestos de desafío en cada clase de derivados de TMS. El gráfico azul oscuro representa los derivados alifáticos de O-TMS, el gráfico naranja representa los derivados de fenil O-TMS, el gráfico gris representa los derivados de O-TMS de anillo no aromático, el gráfico amarillo representa los derivados mono N-TMS, el gráfico azul claro representa el bisfenol-TMS y derivados de TMS relacionados, mientras que el gráfico verde representa los otros derivados de poli TMS.

Para todas las clases de TMS, CSI:IOKR se desempeña satisfactoriamente tanto en términos de la proporción de derivados de TMS clasificados correctamente entre los 10/20 principales candidatos como en términos de (overline) del reto TMS derivados. A excepción de los derivados alifáticos de O-TMS y los derivados de N-TMS, ≥ 50 % de los derivados de TMS correctos se clasifican entre los 10 principales candidatos. Se logran puntajes de clasificación especialmente buenos para los derivados de poli TMS, es decir, derivados de bisfenol O-TMS y derivados de TMS relacionados, y los otros derivados de poli TMS, incluidos los derivados mixtos de N, O-TMS y N-TMS, que tienen M más alto.wy el tamaño de candidato mediano más bajo, lo que puede contribuir parcialmente a su clasificación relativamente buena. Es decir, el CEC-TMS correcto se clasificó en las posiciones promedio 10,68 y 19,50, respectivamente, mientras que el tamaño promedio del conjunto de candidatos de PubChem fue 22,04 y 28,60, respectivamente, que es de 2 a 5 veces más bajo que los valores de las otras clases de TMS. También es evidente a partir de la Fig. 8 que CSI:IOKR funciona sólidamente para fenil O-TMS y derivados de O-TMS no aromáticos, que producen tamaños de conjunto de candidatos promedio relativamente altos (108.43 y 120.67, respectivamente, datos no mostrados). A pesar de eso, sus puntajes de clasificación son satisfactorios, así como su promedio. (mathrm). La clase de derivados O-TMS no aromáticos contiene 5 derivados CEC-TMS y, por lo tanto, el número de derivados CEC-TMS no es representativo, por lo que se pueden extraer conclusiones sólidas. Por otro lado, la clase O-TMS de fenilo está representada por 21 CEC-TMS, con una posición de clasificación promedio baja (19.14), pero un tamaño de conjunto de candidatos de PubChem promedio alto (108.43). Aquí, un factor que puede contribuir positivamente a la buena clasificación de algunas clases estructurales es la especificidad de los patrones de fragmentación, lo que conduce a la unicidad de su espectro GC-EI-MS, que es responsable de la buena clasificación, independientemente del tamaño de la Conjunto de candidatos de PubChem. Finalmente, (overline) es > 0,50 o cercano a 0,50 (el umbral de precisión satisfactoria) para todas las clases de TMS, excepto para los derivados de fenil-O-TMS (datos no mostrados).

La agrupación de espectros de MS para el conjunto de datos RAW (Fig. 10A) y BS (Fig. 10B) reveló 6 y 4 grupos, respectivamente. El RRP y la proporción de derivados de TMS clasificados entre los 10/20 principales candidatos diferían significativamente entre los grupos de derivados de TMS con una similitud espectral de MS significativa. Los tamaños medios de los candidatos para todos los grupos (excepto el grupo 3) fueron 0,55 (Fig. 11A). (overline) los valores varían significativamente dentro de todos los grupos, con promedio (overline) (overline)s (0,26 y 0,21) (Fig. 11B).

Figura 10
figura 10

Agrupación de A: espectros GC-EI-MS de consenso del conjunto de datos de prueba RAW y B: Espectros GC-EI-MS de consenso del conjunto de datos de prueba BS basados ​​en la similitud del comportamiento y las propiedades de MS.

Figura 11
figura 11

A La mediana del número de candidatos en los conjuntos de candidatos de diferentes grupos de derivados de TMS (conjunto de datos SIN PROCESAR) representados frente a la proporción de derivados de TMS de desafío dentro del grupo correctamente clasificados entre los 10 candidatos principales (cuadrados rojos) y los 20 candidatos principales (triángulos amarillos). B Diagrama de caja que representa los diferentes (overline) valores para los compuestos de desafío en cada grupo de derivados de TMS del conjunto de datos RAW (abajo): gráfico azul oscuro: I, gráfico naranja: II, gráfico gris: III, gráfico amarillo: IV, gráfico azul claro: V y gráfico verde: VI.

Leyenda: 1: BPAF-2TMS; 2: DH-BP-2TMS; 3: 2APA-TMS; 4: 3M5NC-2TMS; 5: CLP-TMS; 6: 3MC-2TMS; 7: 4,4′-BP-2TMS; 8: HPP-TMS; 9: H-BP-TMS; 10: 4NC-2TMS; 11: 4NG-TMS; 12: 4NS-TMS; 13: 4NP-TMS; 14: 4OP-TMS; 15: 5AD-TMS; 16: 5NG-TMS; 17: 6HP-TMS; 18: 6MAM-TMS; 19: 6NG-TMS; 20: 8HQ-TMS; 21: 9HF-TMS; 22: 11HAD-TMS; 23: 11HT-2TMS; 24: 11-OH-THC-2TMS; 25: 11N9THC-2TMS; 26: E2-2TMS; 27: EE2-TMS; 28: 17HP-TMS; 29: AA-2TMS; 30: AMP-TMS; 31: PAA-TMS; 32: BA-TMS; 33: BZECG-TMS; 34: BzPb-TMS; 35: 22BPF-2TMS; 36: 24BPF-2TMS; 37: BPA-2TMS; 38: BPAP-2TMS; 39: BPB-2TMS; 40: BPBP-2TMS; 41: BPC-2TMS; 42: BPCL-2TMS; 43: BPE-2TMS; 44: BPF-2TMS; 45: BPFL-2TMS; 46: BPM-2TMS; 47: BPP-2TMS; 48: HPBP-2TMS; 49: BPS-2TMS; 50: BPZ-2TMS; 51: BD-TMS; 52: BP26DM-2TMS; 53: BuPb-TMS; 54: BHT-TMS; 55: CBC-TMS; 56: CDB-2TMS; 57: CBDA-3TMS; 58: CBN-TMS; 59: CBZ-TMS; 60: CAT-2TMS; 61: CA-4TMS; 62: CLA-TMS; 63: DQO-TMS; 64: THC-TMS; 65: THCA-2TMS; 66: DF-TMS; 67: BP-8-2TMS; 68: ERY-4TMS; 69: E3-3TMS; 70: E1-TMS; 71: EtPb-TMS; 72: ET-TMS; 73: IB-TMS; 74: IbUPb-TMS; 75: IPrPb-TMS; 76: LLEU-TMS; 77: LAA-4TMS; 78: LLEU-2TMS; 79: LSER-3TMS; 80: LTYR-3TMS; 81: MCA-2TMS; 82: MAMP-TMS; 83: MePb-TMS; 84: MORPH-2TMS; 85: NAP-TMS; 86: NX-TMS; 87: OCA-2TMS; 88: PCA-2TMS; 89: PrPb-TMS; 90: QA-5TMS; 91: RES-2TMS; 92: SA-2TMS; 93: SA-TMS; 94: SHA-4TMS; 95: STA-2TMS; 96: STA-TMS; 97: SFA-2TMS; 98: SFA-TMS; 99: SYR-TMS; 100: T3HC-TMS; 101: TCS-TMS; 102: DHDPE-2TMS; 103: UA-2TMS.

En general, el rendimiento del modelo CSI:IOKR para la identificación de derivados TMS utilizando espectros GC-EI-MS es algo inferior en comparación con su rendimiento en un conjunto de datos de referencia, representado por 4138 espectros LC-ESI-MS/MS de Global Natural Biblioteca de productos sociales (GNPS) [45]. Esto podría deberse al tamaño más pequeño de nuestro conjunto de datos de prueba o al tipo de datos de entrada (LC-ESI-MS/MS frente a GC-EI-MS). Curiosamente, CSI:IOKR en nuestro estudio dio como resultado un ARP mediano idéntico al de MetExpert para derivados de TMS, con un top 1 ligeramente más bajo (11 % frente a 13 %) y una precisión de los 15 principales notablemente mejor (63 % frente a 52 %).

Fuente del artículo

Deja un comentario