No Thumbnail Available

Combinaison d’Analyse Univarié et Multivarié dans l’Analyse de Données Omiques Issues d’un Plan d’Expérience

(2022)

Files

NguipdopLowe_64501900_2022.pdf
  • UCLouvain restricted access
  • Adobe PDF
  • 2.35 MB

Details

Supervisors
Faculty
Degree label
Abstract
Dans le domaine des sciences omiques, spécifiquement la transcriptomique et la métabolomique, les expériences ont pour but la comparaison de différentes conditions pour l'identification des biomarqueurs d'intérêts et donnent lieu à de grandes bases de données dont le nombre de variables est très élevé par rapport au nombre d'observations. Les analyses statistiques utilisées sont spécifiques, basées sur des workflows et sont réparties en 2 grandes classes, univariée et multivariée. Les données issues d'une expérience métabolomique (LC-MS) sont supposées suivre une distribution normale, l'analyse univariée est réalisée au moyen d'un modèle linéaire général et la méthode de correction des faux positifs parmi les ensembles d'hypothèses rejetés communément utilisée est celle proposée par Benjamini-Hoscheberg. Pour l'analyse multivariée, les méthodes ASCA+ et APCA+ implémentées dans l'outil LMWiRe ont été utilisées afin de distinguer et d'analyser les sources de variabilité induite par les effets fixes des différents facteurs du plan d'expérience. Cependant, les données issues d'une expérience transcriptomique (RNA-seq) sont supposées suivre une distribution binomiale négative, l'analyse univariée est réalisée au moyen d'un modèle linéaire généralisé, mais avant toute modélisation, le paramètre de dispersion doit au préalable être estimé. Afin de comprendre cette modélisation, nous avons utilisé l'outil classique tel que MASS et l'outil de transcriptomiques tel que EdgeR afin de retrouver les résultats obtenus par des formules retrouvées dans la littérature. L'analyse multivariée quant à elle, a consisté à adapter les méthodologies ASCA+ et APCA+, qui de base ont été réalisées pour les données supposées suivre une distribution normale, sur des données RNA-seq. Afin d'illustrer les différentes méthodologies présentées, deux études de cas ont été élaborées sur Rstudio à l'aide des outils présentés et les résultats obtenus ont été présentés et interprétés. Les différents fichiers (Rmd et Html) présentant le workflow d’analyses sont disponibles en attache à ce mémoire. In the field of omic sciences, specifically transcriptomics and metabolomics, experiments aim to compare different conditions for the identification of biomarkers of interest and give rise to large databases whose number of variables is very high compared to the number of observations. Specific statistical analyses are used, based on workflows, and are divided into 2 main classes: univariate and multivariate. Data from a metabolomic experiment (LC-MS) are assumed to follow a normal distribution, univariate analysis is performed using a general linear model, and the method commonly used for correcting false positives among rejected hypotheses is that proposed by Benjamini-Hoscheberg. For multivariate analysis, the ASCA+ and APCA+ methods implemented in the LMWiRe tool were used to distinguish and analyze the sources of variability induced by the fixed effects of different factors in the experiment design. However, data from a transcriptomic experiment (RNA-seq) are assumed to follow a negative binomial distribution. Univariate analysis is performed using a generalized linear model, but before any modeling, the dispersion parameter must first be estimated. In order to understand this modeling, we used a classic tool such as MASS and a transcriptomic tool such as EdgeR to find the results obtained by formulas found in the literature. The multivariate analysis consisted in adapting the ASCA+ and APCA+ methodologies, which were carried out for the data supposed to follow a normal distribution, on RNA-seq data. In order to illustrate the different methodologies presented, two case studies were developed on Rstudio using the tools presented and the results obtained were presented and interpreted. The different files (Rmd and Html) presenting the analysis workflow are available as an attachment to this dissertation.