Statistiques et graphes

Lors des projets Data ou de Business Intelligence, la visualisation est un point crucial. Notre solution vous propose les graphiques associés à vos données les plus usuels dans le domaine de l'analyse de données. Les graphiques présentés dépendront des types de données présents dans vos fichiers. L'objectif est de vous donner rapidement une base de réflexion sur vos données.

La matrice de corrélation

La matrice de corrélation est un outil très utile pour comprendre les corrélations entre les variables de votre jeu de données. Les valeurs de la matrice de corrélation varient entre -1 et 1. Une valeur proche de 1 indique une corrélation positive entre les variables, une valeur proche de -1 indique une corrélation négative entre les variables et une valeur proche de 0 indique une absence de corrélation entre les variables.

Vous ne la verrez que si votre fichier comporte au moins deux colonnes de type numérique.

Mais attention aux conclusions hâtives car corrélation n'est pas causalité !

L'analyse par colonne

L'analyse par colonne vous permet de visualiser les statistiques descriptives de vos colonnes. Les statistiques que vous pourrez voir sont :

  • pour les données numériques et temporelles : la moyenne, l'écart-type, le minimum, le maximum, le premier quartile, le deuxième quartile et le troisième quartile.
  • pour les données textuelles : le nombre de valeurs uniques, la valeur la plus fréquente et sa fréquence.

Vous pourrez aussi voir la répartition de vos données grâce à un histogramme pour tous les types de données. L'histogramme des données textuelles est en réalité un top 10 des valeurs les plus fréquentes.

Une représentation 2D de vos données

Vous pourrez voir une représentation 2D de vos données grâce à un nuage de points obtenu par une méthode nommée t-SNE. Cette représentation vous permettra de voir la répartition de vos données et de voir s'il y a des groupes de données qui se dégagent. Si vous avez des colonnes de type catégoriel, vous pourrez voir la répartition de vos données en fonction de ces colonnes.

Un graphique x/y

Vous pourrez voir un graphique x/y pour deux colonnes de votre choix. Ce graphique vous permettra de voir la relation entre ces deux colonnes.

Avertissement concernant les graphiques : le nombre de points est limité pour des raisons de performance et de visibilité. Vous pourrez choisir la taille de l'échantillon que vous voulez voir.