una herramienta para la identificación de genes coincidentes (asociados y disociados) en pangenomas. |

¿Qué es?

Coinfinder es una herramienta de algoritmo y software que detecta genes que se asocian y se disocian con otros genes con más frecuencia de lo esperado por casualidad en pangenomas. Coinfinder está escrito principalmente en C++ y es una herramienta de línea de comandos que genera salidas de texto, gexf y pdf para el usuario.

Coinfinder utiliza una estadística de prueba binomial exacta corregida por Bonferroni de las tasas esperadas y observadas de asociación gen-gen para evaluar si un par de genes dado es coincidente.

Coinfinder está diseñado para tomar como entrada un conjunto de datos de pangenomas y sus genes. Idealmente, los genes se agruparán en grupos de genes homólogos utilizando una herramienta pangenómica como Panaroo, rugido, PIRATAo Pandora. Coinfinder debe usarse para identificar conjuntos de genes coincidentes dentro de un conjunto de datos pangenomic dado. Coinfinder se escribió para identificar genes coincidentes entre cepas de especies procariotas (es decir, un pangenoma de especie), pero se puede extender a otros conjuntos de datos pangenómicos.

Para más información:

Coinfinder está alojado y administrado en github: https://github.com/fwhelan/coinfinder

O puede leer el manuscrito para obtener más información retrasada: Fiona J. Whelan, Martin Rusilowicz y James O. McInerney. “Coinfinder: detectando asociaciones y disociaciones significativas en pangenomas.” hacer: https://doi.org/10.1099/mgen.0.000338


Si usa Conda: conda install -c conda-forge -c bioconda -c defaults coinfinder

cmake -DCMAKE_BUILD_TYPE=Release .
cmake --build .
./coinfinder

En macOS, el compilador predeterminado puede ser clang en vez de g++. Si es así, es posible que deba apuntar el compilador a gcc; por ejemplo: export CC=/usr/local/bin/gcc-6; CXX=/usr/local/bin/g++-6; MPICXX=/usr/local/bin/mpic++


coinfinder -i <gene information> [-I] -p <phylogeny> -o <output prefix> [--associate|--dissociate]

Coinfinder requiere información genética y una filogenia como entrada. La información del gen se puede proporcionar en uno de dos formatos: (a) como el gene_presence_absence.csv salida de rugido; (b) como una lista delimitada por tabuladores de genes presentes en cada cepa. Un ejemplo de una lista de genes delimitada por tabulaciones:

gene_1	genome_1
gene_1	genome_2
gene_1	genome_3
gene_2	genome_2
gene_2	genome_3
gene_3	genome_1
gene_3	genome_2

Nota la gene_presence_absence.csv la salida de Panaroo parece diferir de Roary en que los campos no están entre comillas dobles. Coinfinder asume este formato de comillas dobles; podría usar algo como lo siguiente para corregir esto:

sed -e 's/^|$/"/g' -e 's/,/","/g' gene_presence_absence.csv > gene_presence_absence-withquotes.csv

La filogenia debe tener formato Newick sin ramas de longitud cero. Sugerimos que esta filogenia se construya utilizando la información del gen central (por ejemplo, como se sugiere en la tubería de Roary https://sanger-pathogens.github.io/Roary/).

Por último, el usuario debe decidir entre ejecutar Coinfinder para encontrar asociaciones (pares de genes presentes juntos) o disociaciones (pares de genes que están presentes separados o se evitan entre sí).

Para obtener más información sobre el uso, consulte coinfinder -h:

File input- specify either: 
    -i or --input          The path to the gene_presence_absence.csv output from Roary
                           -or-
                           The path of the Alpha-to-Beta file with (alpha)(TAB)(beta)
    -I or --inputroary     Set if -i is in the gene_presence_absence.csv format from Roary
    -p or --phylogeny      Phylogeny of Betas in Newick format (required)
Max mode (mandatory for coincidence analysis):
    -a or --associate      Overlap; identify groups that tend to associate/co-occur.
    -d or --dissociate     Separation; identify groups that tend to dissociate/avoid.
Significance- specify: 
    -L or --level          Specify the significnace level cutoff (default: 0.05)
Significance correction- specify: 
    -m or --bonferroni     Bonferroni correction multiple correction (recommeneded)
    -n or --nocorrection   No correction, use value as-is
    -c or --fraction       (Connectivity analysis only) Use fraction rather than p-value
Alternative hypothesis- specify: 
    -g or --greater        Greater (recommended)
    -l or --less           Less
    -t or --twotailed      Two-tailed
Miscellaneous:
    -x or --num_cores      The number of cores to use (default: 2)
    -v or --verbose        Verbose output.
    -r or --filter         Permit filtering of saturated and low-abundance data.
    -U or --upfilthreshold Upper filter threshold for high-abundance data filtering (default: 1.0 i.e. any alpha in >=100/% of betas.
    -F or --filthreshold   Threshold for low-abundance data filtering (default: 0.05 i.e. any alpha in <=5% of betas.
    -q or --query          Query a specific gene.
    -T or --test           Runs the test cases and exits.
    -E or --all            Outputs all results, regardless of significance.
Output:
    -o or --output         The prefix of all output files (default: coincident).

Una red de asociación de ejemplo en la que cada gen (nodo) está conectado a otro gen con una línea (borde) si estadísticamente coinciden entre sí. Los nodos se ponderan según la independencia del linaje en la filogenia (es decir, cuanto más grande es el nodo, más filogenéticamente independiente es el gen). Los nodos están coloreados por componente conectado, o el conjunto de genes con relaciones asociativas entre sí. Estos datos también se pueden mostrar como un mapa de calor de presencia/ausencia en relación con la filogenia (nota: este mapa de calor es un subconjunto de todos los resultados; en particular, el gran conjunto de genes de color vino se eliminó para facilitar la visibilidad).

El conjunto de datos de ejemplo, incluidos los archivos de entrada y de salida esperados que usan el manuscrito asociado, se puede encontrar aquí.

@article

Si tiene algún problema con Coinfinder, ¡queremos saberlo! No sea tímido y registre un problema que incluya la mayor cantidad posible de lo siguiente.

Fuente del artículo

Deja un comentario