Eines de bioinformàtica per a la interpretació biològica i la visualització de dades

Des del grup hem desenvolupat eines com la Food-Biomarker Ontology (FOBI) (Castellano-Escuder P, et al., 2020), la primera ontologia dissenyada per integrar dades de metabolòmica i nutrició, i POMAShiny (Castellano-Escuder P, et al., 2021), que ofereix mètodes estadístics univariants, mètodes multivariants i de reducció de dimensions, tècniques de selecció de característiques, enfocaments d’anàlisi de regressió regularitzada, algorismes de classificació basats en aprenentatge automàtic, estratègies de models de predicció i diverses opcions d’interacció visual d’alta qualitat.

 

Seguint els principis FAIR, ambdòs codis font i els fitxers de dades estan disponibles a partir dels repositoris públics de GitHub.

The Food-Biomarker Ontology (FOBI) és la primera ontologia creada per integrar dades de metabolòmica i nutrició (Castellano-Escuder P, et al., 2020). Aquesta ontologia té com a objectiu relacionar diferents tipus d’aliments amb els seus metabòlits associats o biomarcadors d’ingesta alimentària.

 

FOBI consta de 1.197 termes, 4 propietats diferents, 13 classes d’aliments de nivell superior, 11 classes de biomarcadors de nivell superior i més de 4.500 relacions. A més, FOBI forma part del projecte OBOFoundry, i els identificadors de FOBI s’han indexat a les bases de dades HMDB i FooDB per facilitar la interoperabilitat i l’intercanvi de dades.

 

 

Anar a FOBItools
Image 1

Food-Biomarker Ontology (FOBI)

Visualització gràfica de FOBI

Arquitectura de FOBI considerant la poma com a exemple.

Image 1
Anàlisi de la informació de FOBI des d'OBO a un format de taula llegible
Conversió d'ID de compostos (entre noms de metabòlits, FOBI, ChemSpider, KEGG, PubChemCID, InChIKey, InChICode i IDs d'HMDB)
Anàlisi de la significança biològica mitjançant els mètodes ORA i MSEA
  • Anàlisi d’enriquiment de classes químiques: ORA i MSEA utilitzant les classes químiques de FOBI com a conjunts de metabòlits.
  • Anàlisi d’enriquiment d’aliments: ORA i MSEA utilitzant els grups d’aliments de FOBI com a conjunts de metabòlits.
Image 1
Algoritme de mineria de textos per a l'anotació de dades dietètiques en text lliure

POMAShiny

POMAShiny és una eina web que ofereix un flux de treball estructurat, flexible i fàcil d’utilitzar per al processament, exploració i anàlisi estadística de dades metabolòmiques. Aquesta eina es basa en el paquet POMA de R/Bioconductor, que augmenta la reproductibilitat i la flexibilitat de l’anàlisi fora de l’entorn web. El flux de treball de POMAShiny està estructurat en quatre panells seqüencials i ben definits:

  1. Carrega de dades,
  2. Preprocessament,
  3. EDA (Exploració de Dades),
  4. Anàlisi estadística.
Anar a POMAShiny
Image 1

POMAShiny

Càrrega de dades

POMAShiny requereix dos fitxers en format CSV com a entrada: un fitxer de metadades (target) i un fitxer de característiques (features). El fitxer de metadades ha d’incloure els noms de les mostres a la primera columna, les etiquetes de grup (per exemple, control i cas) a la segona, i opcionalment, covariables rellevants a partir de la tercera columna. El fitxer de característiques conté les característiques quantificades de l’experiment, amb una característica per columna. L’ordre de les files ha de ser el mateix en ambdós fitxers. Un cop carregats, POMAShiny converteix els fitxers en un objecte MSnSet, segons el paquet MSnbase de R/Bioconductor.

 

Els usuaris poden seleccionar mostres específiques al fitxer de metadades per crear subconjunts de dades per a l’anàlisi. A més, POMAShiny ofereix la funció opcional de combinar característiques que pertanyen a una mateixa entitat (com pèptids d’una proteïna o ions d’un compost). Per utilitzar aquesta funció, cal un fitxer de “grup” (CSV) que indiqui quines característiques s’han de combinar. També permet descarregar una taula amb els coeficients de variació de les característiques combinades.

Image 1
Preprocessament
  • Imputació de valors perduts: En metabolòmica i proteòmica, sovint alguns valors no es poden identificar o quantificar per raons biològiques o tècniques (com detecció imprecisa o valors sota el límit de quantificació). Per abordar aquest problema, POMAShiny ofereix un panell d’imputació de valors perduts en tres passos seqüencials:
  1. Distingir entre zeros i valors perduts.
  2. Eliminar característiques amb un alt percentatge de valors perduts (per defecte, 20%).
  3. Imputar els valors perduts restants utilitzant mètodes com imputació per zero, mitjana, mediana, mínim, o l’algoritme de k-nearest neighbours.
  • Normalització: La variabilitat en les dades pot influir en els resultats estadístics, fent necessària la normalització. POMAShiny ofereix sis mètodes de normalització per transformar i escalar les dades en un sol pas: autoscaling, level scaling, log scaling, log transformation, vast scaling i log pareto scaling. Això permet corregir factors com diferències en magnituds, variabilitat tècnica o heteroscedasticitat.

 

  • Detecció de valors anòmals:
    Els valors anòmals poden ser biològics (variacions naturals) o analítics (errors durant el procés). Aquests poden distorsionar els resultats estadístics i les tècniques de modelatge predictiu. POMAShiny facilita la detecció d’anòmals mitjançant gràfics i taules, amb opcions personalitzables per eliminar-los abans de l’anàlisi estadística.
Image 1
Anàlisi exploratòria de dades (EDA)

L’EDA ajuda a identificar factors incontrolats i possibles valors anòmals, i és recomanable realitzar-la abans de l’anàlisi estadística. A més, en absència de biaixos significatius, l’EDA pot proporcionar una visió inicial de les característiques més rellevants de l’estudi.

 

POMAShiny ofereix gràfics interactius i personalitzables per a l’EDA, incloent-hi gràfics de volcà (per a estudis de dos grups), boxplots, gràfics de densitat i mapes de calor agrupats. També inclou opcions per a anàlisi de components principals (PCA) i anàlisi de clústers.

Image 1
Anàlisi estadístic

Aquest panell inclou diversos mètodes estadístics, des dels enfocaments més habituals en l’anàlisi de dades de metabolòmica i proteòmica fins a altres metodologies menys freqüents en aquests camps. Tots els mètodes estadístics que ofereix POMAShiny estan implementats de manera molt intuïtiva per a l’usuari i generen tant taules descarregables com gràfics interactius com a resultats. Aquests anàlisis són els següents:

  • Anàlisi univariant
  • Limma
  • Anàlisi multivariant
  • Anàlisi de clústers
  • Anàlisi de correlació
  • Regressió regularitzada
  • Boscos aleatoris
  • Ràtio d’odds
  • Productes de rang
Image 1
This site is registered on wpml.org as a development site. Switch to a production site key to remove this banner.