Flujo de trabajo de KNIME para recuperar interacciones causales entre fármacos y proteínas, construir redes y realizar análisis de enriquecimiento topológico demostrado por un estudio de caso de DILI | Revista de quimioinformática

Caso de estudio

Como caso de estudio se eligió el análisis de datos DILIRank. DILIRank es el conjunto de datos de referencia actualizado de los compuestos de Daño hepático inducido por fármacos (DILI) de la FDA [12]. Los medicamentos se agrupan en cuatro categorías según su potencial para causar DILI. Nuestro análisis se llevó a cabo con 180 medicamentos que tienen más probabilidades de causar DILI (categoría «mostDILI») y con 272 medicamentos que no están relacionados con DILI («noDILI»). Para demostrar la aplicabilidad general del flujo de trabajo, también realizamos dos estudios de casos breves sobre cardiotoxicidad y nefrotoxicidad. En el estudio de caso de cardiotoxicidad, se descargaron moléculas pequeñas aprobadas de ChEMBL con clasificación ATC Nivel 2 «Terapia cardíaca» y se filtraron los compuestos tóxicos. Como grupo tóxico, se recogieron compuestos cardiotóxicos retirados, también de ChEMBL. El conjunto de datos final consta de 30 terapias cardíacas no tóxicas y 26 fármacos cardiotóxicos. Para el estudio de caso de nefrotoxicidad, se creó un conjunto de datos mediante la combinación de compuestos nefrotóxicos retirados de ChEMBL con un conjunto de datos recientemente publicado de compuestos nefrotóxicos basado en la base de datos SIDER [13]. El conjunto de datos combinado contiene 19 compuestos.

Con estos 19 compuestos se realizó una primera evaluación de la parte diana causal para estimar la disponibilidad de datos de los fármacos. Después de eso, se seleccionó un solo compuesto (CHEMBL421) para su posterior análisis. La lista de objetivos regulados a la baja del compuesto se envió al componente ii, iii, iv y v, como se indica en la Fig. 1. Los resultados detallados de estos dos estudios de caso se presentan en el Suplemento (Archivo adicional 1).

flujo de trabajo

El flujo de trabajo tiene cinco componentes separados, que se pueden usar y combinar individualmente según las necesidades del usuario. En nuestro estudio de caso, comenzamos con (i) el perfil del objetivo causal y realizamos (ii) para obtener un conjunto de datos específicos del hígado. Las partes (iii), (iv) y (v) se llevaron a cabo con subconjuntos de nuestros datos.

Datos objetivo causales

En la primera sección del flujo de trabajo, se pueden crear perfiles de proteínas diana causales utilizando tres bases de datos diferentes. En una publicación anterior, se describió una descripción detallada de la recuperación de perfiles objetivo para compuestos. [14]. Sin embargo, como el flujo de trabajo anterior no distingue entre efectos positivos y negativos de los compuestos, en este flujo de trabajo se enfatiza este tipo de información:

  1. (a)

    Los objetivos se definieron como proteínas individuales de tipo humano, que se anotan como proteínas objetivo del compuesto de interés en una de las bases de datos utilizadas o

  2. (b)

    el compuesto se anotó como activo en la proteína en ensayos biológicos o

  3. (C)

    el compuesto tiene un valor de actividad para el objetivo en un rango activo predefinido.

El límite para el rango activo se fijó en 10 μM. Nuestro análisis estaba destinado a realizarse en diversas familias de proteínas. El límite de actividad se puede ajustar para que sea más estricto o se puede modificar para familias de proteínas particulares donde otro valor podría ser más apropiado. Dado que la intención era considerar todo el efecto sistémico del fármaco, no se hizo ninguna diferenciación entre dianas terapéuticas y dianas putativas.

Anotaciones de modo de acción

El ChEMBL (versión 27) [15]DrugBank (versión 5.1.6) [16]y IUPHAR (versión 2020.4) [17] las bases de datos proporcionan anotaciones de modo de acción en pares de compuestos y objetivos. Estos se recuperaron mediante acceso programático o descarga. Dado que el vocabulario de las anotaciones difiere entre las bases de datos, se agregó al flujo de trabajo una traducción individual de los términos en categorías. Las categorías se resumen en la Tabla 1.

Tabla 1 Categorías de modo de acción definidas en el flujo de trabajo

Los ejemplos de las anotaciones y las traducciones de los datos ChEMBL e IUPHAR se muestran en las Tablas 2 y 3, la anotación completa se proporciona como suplemento (Archivos adicionales 2, 3).

QUÍMICA

Tabla 2 Ejemplos de anotaciones de modo de acción basadas en datos de ChEMBL

IUPHAR

Tabla 3 Anotaciones de modo de acción basadas en datos IUPHAR

anotaciones de ensayo

La API del ensayo ChEMBL ofrece más posibilidades para encontrar objetivos causales. Con esta llamada, se pueden recuperar los datos de descripción del ensayo, que se utilizaron como base para la minería de texto. La minería de texto se realizó utilizando palabras clave, que pueden implicar el tipo de relación entre proteína y compuesto. Se probó una lista de palabras clave potenciales en KNIME, luego se agregaron comodines en cada extremo y la canalización se ejecutó con las palabras clave ajustadas por comodines. Se podría aplicar una opción para refinar con exclusiones para eliminar los casos en los que los términos de los diferentes grupos estaban presentes en el mismo ensayo pero no se incluyeron en la etapa de prueba. Se utilizó un valor de pChEMBL de 5 como punto de corte para los activos (pChEMBL > = 5), pChEMBL 5 es equivalente a 10 μM [18]. Si la anotación implicaba «no concluyente» o «no activo», el punto de datos se eliminó de la lista. Se agregó una categoría no activa a nuestra lista para los pares compuesto-objetivo que se probaron juntos y no mostraron actividad. De nuevo, se utilizó el punto de corte de pChEMBL 5 (pChEMBL

Se pueden encontrar ejemplos de minería de texto en la Tabla 4. La anotación completa está disponible como suplemento, con las palabras clave utilizadas y tal como se aplica en KNIME (archivo adicional 4).

Tabla 4 Anotación de los datos del ensayo según la descripción del ensayo y las palabras clave

Consistencia

Después de ejecutar el flujo de trabajo con ambos conjuntos de compuestos, se incorporó un paso de verificación para establecer la consistencia de las anotaciones de las bases de datos y nuestros esfuerzos de minería de texto. Se eliminaron los puntos de datos con anotaciones contradictorias, con el objetivo de realizar un análisis completo y confiable. Para ese propósito, se agregó un panel adicional al flujo de trabajo de KNIME. En este panel, los pares únicos de fármaco-objetivo se agruparon por las anotaciones y se eliminaron todas las contradicciones de los resultados. Por ejemplo, si se anotó un par compuesto-proteína como grupo de modo de acción 1 y también 3 (Tabla 1), los datos no se eliminaron ya que el grupo 1 es un subgrupo del grupo 3; por lo tanto, no hay contradicción. Sin embargo, si el par compuesto-objetivo se anotó como 1 y 2, la interacción se excluyó del análisis.

Especificidad de tejido

El flujo de trabajo proporciona una opción para el filtrado de proteínas específico de tejido mediante el acceso programático de la base de datos de Proteomics ProteomicsDB (versión 3.0). La base de datos pretende contribuir a la identificación del proteoma humano, proporcionando una amplia cobertura [19]. Usando la llamada API, se puede recuperar la lista de tejidos donde se expresa la proteína y seleccionar el tejido de interés y crear un subconjunto específico de tejido. Para el estudio de caso de DILI, se eligió el hígado como tejido de interés.

Identificación de objetivos regulados al alza y a la baja relacionados con DILI

El primer paso en el análisis de los datos específicos de tejido recuperados para el estudio de caso fue buscar proteínas en los grupos modulados positiva y negativamente que están altamente conectadas con la mayoría de DILI y menos o no conectadas con el grupo sin DILI. Para este propósito, se asignó una puntuación de importancia DILI a cada proteína diana como se describe a continuación. Se utilizaron valores absolutos; sin embargo, el análisis también se puede realizar con valores normalizados.

Pasos del proceso de puntuación:

  1. (1)

    Se estableció a cuántos compuestos mostDILI y noDILI se puede conectar la proteína, respectivamente.

  2. (2)

    Si la proteína se puede conectar a ambos grupos, el cociente de la participación de los dos grupos se calculó de la siguiente manera:

    1. una.

      (x)mostDILI/(x)noDILI = significado

    2. b.

      (x) = número de compuestos

  3. (3)

    El límite de significación se fijó en 5, lo que significa que la participación del grupo con más DILI es al menos cinco veces mayor que la del grupo sin DILI.

  4. (4)

    Si el objetivo solo estaba conectado al grupo más DILI, el límite también se estableció en 5, lo que significa que está conectado al menos a 5 compuestos.

Creación y visualización de redes.

La base de datos STRING (versión 11.5) aspira a recopilar y anotar todas las interacciones disponibles públicamente entre proteínas para crear una red global amplia e imparcial. [20]. Al utilizar los servicios web de STRING, el flujo de trabajo se amplió con la posibilidad de construcción y visualización de redes. Por ejemplo, la red de proteínas de las proteínas que están reguladas a la baja por un grupo de compuestos se puede visualizar enviando la lista de proteínas requerida. El flujo de trabajo proporciona una visualización basada en la conectividad anotada en la base de datos STRING. Esto permite al usuario tener una visión general de la red y ayuda a identificar las propiedades topológicas de los nodos. Dado que STRING contiene diferentes tipos de conexiones, la llamada API se puede modificar configurando parámetros como network_flavor o network_type. En nuestro análisis, las configuraciones fueron: network_flavor = confianza, para representar el puntaje de confianza de la interacción entre dos nodos a través del grosor del borde, y network_type = funcional, que indica interacciones funcionales y físicas.

Interacciones causales proteína-proteína

Signaling Network Open Resource 2.0 (SIGNOR 2.0) es un depósito público de información sobre relaciones causales entre entidades biológicas [21]. La base de datos se agregó al flujo de trabajo como una capa adicional para introducir interacciones causales proteína-proteína. Con esta información, el usuario puede tener una red causal completa de proteínas conectadas con los compuestos de interés. Aquí se utilizó la función de descarga proporcionada por SIGNOR, que contiene información sobre diferentes moléculas y su conectividad. Solo se consideraron las interacciones de tipo proteína-proteína, y el efecto anotado se extrajo de los datos (p. ej., regulación positiva). Las anotaciones se agruparon en las mismas categorías que se discutieron para los objetivos (Tabla 1).

Análisis de enriquecimiento topológico

La última parte del flujo de trabajo realiza TEA utilizando la aplicación web EnrichNet (versión 1.1) [22]. EnrichNet realiza una evaluación estadística basada en gráficos basada en redes de interacción que permiten una interpretación directa de los resultados a través de su sitio web. Con esta parte del flujo de trabajo, se brinda la posibilidad de diferentes análisis basados ​​en topología para investigar qué vías o procesos biológicos se enriquecen en los datos enviados. EnrichNet ofrece diferentes bases de datos como base para el análisis. Este parámetro también se puede cambiar en el flujo de trabajo. El análisis representado aquí se realizó en base a la base de datos Reactome (versión 77). Reactome es una de las principales bases de datos que captura vías biológicas [23]. EnrichNet proporciona acceso programático, donde la llamada API da como resultado un enlace al sitio web de EnrichNet. Esta llamada se incluyó en el flujo de trabajo de KNIME, donde se puede realizar el análisis de enriquecimiento y abrir los resultados dentro del flujo de trabajo a través de un enlace interactivo. Los resultados se pueden ver y descargar directamente sin salir de la plataforma KNIME.

Deja un comentario