PlatStat/README.md

73 lines
5.4 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Projet de création dune plateforme dautomatisation de tests statistiques
## Introduction
Le but de cette plateforme est dautomatiser les traitements statistiques permettant détudier les différences existantes entre plusieurs groupes. Avant de voir quels sont les tests effectués, nous commencerons par faire un rappel des notions de base à avoir pour interpréter ces tests.
## Prérequis
- **Hypothèse nulle (H0)** : L'hypothèse de départ à tester. Elle est généralement formulée comme une égalité ou une absence de différence significative entre les groupes.
- **Hypothèse alternative (H1 ou Ha)** : L'hypothèse que vous voulez prouver, généralement formulée comme une différence ou une inégalité significative entre les groupes.
- **Niveau de signification (α)** : Le seuil de probabilité en dessous duquel vous rejetterez l'hypothèse nulle. Il est souvent fixé à 0,05, ce qui signifie que vous acceptez un risque de 5 % de commettre une erreur de type I.
- **P-valeur** : La probabilité d'obtenir des résultats aussi extrêmes que ceux observés si l'hypothèse nulle est vraie. Une p-valeur faible (généralement < α) suggère que vous pouvez rejeter l'hypothèse nulle.
## Les tests
Dans un premier temps, les tests choisis ont été les suivants :
- Shapiro
- Levene
- Barlett
- Fisher
- Wilcoxon
- Student
- Welch
- Anova
- Emmeans
- Krustal-Wallis
### Shapiro
Le test de Shapiro est un test permettant dévaluer la normalité dune distribution. Lhypothèse H0 ici est que la distribution est normale. Ainsi, on estime que la distribution est normale sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Levene
Le test de Levene est un test non paramétrique, il ne présuppose aucune distribution, permettant de comparer les variances de plusieurs échantillons. Lhypothèse H0 est lhomoscédasticité des populations. Ainsi, on estime les variances égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Barlett
Le test de Barlett est un test paramétrique, il présuppose une distribution, permettant de comparer les variances de plusieurs échantillons. Lhypothèse H0 est lhomoscédasticité des populations. Ainsi, on estime les variances égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Fisher
Le test de Fisher est un test non paramétrique, il ne présuppose aucune distribution, permettant de comparer les variances de deux échantillons. Lhypothèse H0 est lhomoscédasticité des deux populations. Ainsi, on estime les variances égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Wilcoxon
Le test de Wilcoxon est un test non paramétrique, il ne présuppose aucune distribution, permettant de comparer la moyenne de deux échantillons. Lhypothèse H0 est légalité des moyennes des deux populations. Ainsi, on estime les moyennes égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Student
Le test de Student est un test paramétrique, il présuppose une distribution normale et une égalité des variances, permettant de comparer la moyenne de deux échantillons. Lhypothèse H0 est légalité des moyennes des deux populations. Ainsi, on estime les moyennes égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Welch
Le test de Welch est un test paramétrique, il présuppose une distribution, permettant de comparer la moyenne de deux échantillons. Lhypothèse H0 est légalité des moyennes des deux populations. Ainsi, on estime les moyennes égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### ANOVA
L'ANOVA est un test paramétrique, présupposant la normalité de la distribution ainsi que légalité des variances, utilisée pour comparer les moyennes de trois groupes ou plus pour déterminer si au moins un groupe est statistiquement différent des autres. Lhypothèse H0 est légalité de toutes les moyennes, lhypothèse H1 est donc « Il existe au moins une moyenne de groupe différente des autres ». Ainsi, on estime les moyennes égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
### Emmeans
Le test Emmeans est utilisé après avoir rejeté lhypothèse nulle lors dune ANOVA. Il permet de déterminer les groupes se différenciant les uns des autres.
### Krustal-Wallis
Le test de Krustal-Wallis est un test non paramétrique, ne présupposant pas la normalité de la distribution, utilisée pour comparer les moyennes de trois groupes ou plus pour déterminer si au moins un groupe est statistiquement différent des autres. Lhypothèse H0 est légalité de toutes les moyennes, lhypothèse H1 est donc « Il existe au moins une moyenne de groupe différente des autres ». Ainsi, on estime les moyennes égales sauf si lon trouve une p-value inférieure à notre niveau de signification.
Nous pouvons donc résumer les cas dutilisations des différents tests de comparaison des moyennes à laide de larbre de décision.
![](arbre1.png)
Afin de tester la normalité des distributions nous utiliserons, dans tous les cas, un test de Shapiro sur chacune des variables quantitatives. Pour tester lhomoscédasticité larbre de décision suivant :
![](arbre2.png)