Pourquoi faire un tableau croisé dynamique ? Vous avez des données qui ont été collectées au fil du temps, un peu, beaucoup, énormément… mais vous ne savez pas par où commencer pour les explorer. Si vous souhaitez apprendre à résumer des données rapidement, vous êtes sur la bonne page !
Dans cet article, je vais vous expliquer pourquoi les tableaux croisés dynamiques (TCD) sont tellement utiles et surtout comment les créer et les manipuler. Je vais vous montrer comment fabriquer, à partir d’une liste de données, ces résumés très pratiques dans 3 logiciels : dans Excel, dans R et dans R++.
Les TCD sont essentiels pour résumer des listes de données – surtout longues – organisées en colonnes. Par exemple la liste de vos dépenses avec la date de l’achat, l’âge et le pays d’origine des vainqueurs du tour de France avec le temps qu’ils ont mis à chaque étape, ou encore la production mensuelle de céréales par agriculteur dans les 10 dernières années.
Quelles que soient vos données, elles ne sont utiles que résumés, car il ne s’agit pas de les lire une par une comme un roman, mais d’en tirer des informations clé, des statistiques qui vont vous parler et vous aider à décider de la suite des événements…
« Tableau » : vous allez créer un résumé de vos données sous forme de tableau dont vous choisirez les lignes et les colonnes. Ça a l’avantage d’être très clair et de pouvoir être transformé en graphe.
« Croisé » : on dit que les TCD sont «croisés » car ils servent à croiser les variables (les colonnes) de vos données. Toutes les données peuvent être croisées. On obtient ainsi des résumés sous forme de tableau où chaque instance de la variable est comptée, additionnée ou représentée en pourcentages. On regardera la production de céréales par rapport au mois de l’année, par rapport à l’agriculteur, par rapport à sa région, la taille de son exploitation, etc
« Dynamique » : c’est le plus pratique, le plus magique des mots ! Une fois créé, votre TCD pourra être rafraîchi à chaque fois que la liste de données source sera changée ou agrandie. De plus, le résumé peut être modifié selon les critères précis que vous lui donnez (dépenses moyennes en nourriture seulement, ou bien uniquement dépenses en énergie l’hiver comparé à l’été). C’est formidable pour pouvoir explorer les données, jouer avec les variables ou pour creuser l’analyse dans une direction précise.
Le TCD est votre premier outil pour analyser une liste de données, surtout si elle est longue. En un clin d’œil vous pourrez avoir une vue d’ensemble, tout en ayant facilement accès aux détails. C’est un bijou de l’analyse descriptive.
Mais comment faire pour y parvenir ? J’ai choisi de vous montrer comment faire un tableau croisé dynamique dans trois logiciels :
Donc trois outils très différents, choisissez celui qui vous convient !
Les TCD sont les outils ultra populaires de Microsoft Excel car ils permettent de visualiser rapidement et simplement les données d’une feuille de calcul.
Vous pouvez vous exercer sur votre propre jeu de données.
Il s’agit des relevés de vente par vendeur d’un magasin de chaussures et accessoires.
Tout d’abord vous devez sélectionnez la liste de données en incluant les colonnes et leurs étiquettes.
Note : Si une colonne n’a pas d’étiquette, le TCD ne fonctionnera pas, vous aurez un message d’erreur. Faites bien attention que chaque colonne ait un titre.
Lorsque vos données sont sélectionnées, il faut alors cliquer sur ‘Insertion’ dans le menu horizontal principal puis cliquer sur ‘Tableau croisé dynamique’.
Une fenêtre s’est alors ouverte intitulée ‘Créer un tableau croisé dynamique’.
Elle vous montre la référence de la plage de cellules que vous venez de choisir (les données source), ainsi que (plus bas) l’option – par défaut – d’installer le TCD dans une nouvelle page.
Cette option est préférable pour avoir de l’espace sur une page vierge.
Cliquez simplement sur OK.
Vous voyez désormais une nouvelle fenêtre sur la droite qui s’appelle ‘Champs de tableau croisé dynamique’.
La liste des étiquettes de colonnes de votre tableau source est dans la partie du dessus.
Choisissez alors une variable que vous souhaitez résumer et glissez-la dans la partie inférieure de cette même fenêtre, dans l’encart ‘Lignes’.
Par exemple, vous pouvez sélectionner ‘vendeur’ et faire glisser cette étiquette dans l’encart ‘Lignes’.
Vos données seront donc résumées par vendeur.
Mais ce n’est pas fini, car pour l’instant vous ne voyez à gauche de votre écran que la liste des vendeurs !
Que souhaitez-vous savoir pour chaque vendeur ? Le montant total vendu ? Alors il faut faire glisser l’étiquette ‘Prix total’ dans l’encart ‘valeurs’.
Vérifiez bien qu’il est désormais écrit ‘Somme de prix’ dans l’encart ‘valeurs’.
Bravo ! Vous avez créé un TCD.
Il est à gauche de l’écran.
Alors dites-moi… qui est le meilleur vendeur ?
Que se passe-t-il ? Le prix total par vendeur est faux ? Aucun problème, vous allez voir, c’est très simple à corriger. Parfois, par défaut le TCD va compter les lignes au lieu d’additionner les valeurs. Il vous faut alors changer l’opération qui s’applique sur la variable ‘prix’.
Cliquez sur ‘Nombre de prix’ dans l’encart ‘Valeurs’, un menu déroulant s’affiche et vous sélectionnez la dernière option vers le bas ‘Paramètres des champs de valeurs’ . Une fenêtre s’ouvre (ci-contre) et vous cliquez sur ‘Somme’.
Super, vous avez maintenant changé d’opération, le prix est maintenant résumé (additionné) par vendeur.
Et si l’on regardait les sommes vendues par magasin ? Dans un TCD, presque tout se fait dans la fenêtre de droite ‘Champs de tableaux croisés dynamiques’. Donc en fait c’est facile. Dans cette fenêtre, vous n’avez qu’à glisser l’étiquette ‘vendeur’ vers le haut pour la remettre dans la liste et glisser à la place l’étiquette ‘magasin’ dans l’encart ‘Lignes’. Vous observez alors sur la gauche le TCD changé, il montre désormais un résumé par magasin.
Maintenant vous l’avez compris, il suffit de faire glisser des variables dans la fenêtre du tableau pour créer et modifier le TCD.
Alors vous pouvez essayer toutes les
options que vous souhaitez… Cela ne va pas endommager vos données sources, elles sont sagement rangées dans une autre feuille de calcul !
Essayons par exemple, de changer les champs comme dans l’exemple ci-contre. Vous voyez ainsi les quantités par vendeur et par type de produit.
Et que se passe-t-il si vous glissez deux champs dans l’encart ‘Lignes’ ? Par exemple magasin, puis vendeur ? Les lignes du TCD sont alors détaillées par magasin et dans chaque magasin, par vendeur.
C’est pratique, n’est-ce pas ? Vous savez donc maintenant résumer les données d’une liste en créant des résumés plus ou moins détaillés.
Imaginons maintenant que je veuille observer une partie des données. Que se passe-t-il en Europe par exemple ? Il faut apprendre à filtrer les champs.
Vous filtrez directement sur le TCD en ouvrant les menus déroulants pour les lignes et les colonnes.
Si le champ à filtrer n’y est pas, insérer-le grâce à l’encart ‘Filtres’ (dans la fenêtre des champs). Le nouveau champ apparaît alors au-dessus du TCD.
Avec ce même menu déroulant pour chaque variable du TCD, vous pouvez aussi classer les résultats, en ordre décroissant par exemple.
Alors, qu’est-ce que vous en dites ? C’est vraiment chouette de pouvoir en quelques clics voir les résultats résumés qui vous prendraient des heures à la main avec la machine à calculer !
Maintenant que vous avez compris la façon dont on manipule le TCD pour changer les résultats et explorer les données, je vous donne un tuyau. Au lieu de refaire un nouveau TCD à chaque nouvelle recherche, vous pouvez aussi copier le TCD et faire un ‘collage spécial valeur’ dans une nouvelle page. Vous pouvez ainsi conserver les résultats et réutiliser le même TCD.
Cerise sur le gâteau. S’il y a un résultat que vous ne comprenez pas dans le TCD, par exemple les résultats de Jérôme à HongKong, double-cliquez sur ce chiffre. C’est magique ! Les données relatives à ce chiffre s’affichent alors dans une nouvelle feuille de calcul pour que vous puissiez les vérifier.
Deuxième cerise sur le gâteau. Vous vous souvenez ? Le tableau est DY-NA-MIQUE. Donc si vous rajoutez des données dans le tableau source, le TCD peut alors les inclure. Comment fait-on ? Une fois les nouvelles données insérées dans la feuille de calcul source (et le dossier sauvegardé), il suffit de faire clic-droit au milieu du TCD et de choisir ‘Actualiser’, OK. Les résultats incluent alors les nouvelles données.
Maintenant c’est à vous ! Bonne chance avec les TCD dans Excel !
Et pour ceux qui préfèrent faire des statistiques dans R, voici comment s’y prendre avec le langage R.
Dans R tout fonctionne avec du code. Il n’est pas très difficile de s’y mettre mais ça prend du temps, car les possibilités d’erreurs sont plus nombreuses. Une virgule au mauvais endroit, une faute de frappe… et votre résultat n’apparaît pas.
Voici les étapes pour construire un TCD dans le logiciel R.
Tout d’abord importez votre tableau source dans un data frame (c’est le nom que R donne à une liste de données). Avant tout :
Donc pour importer vos données en csv, on écrit dans la console R :
Pour voir le tableau, c’est-à-dire le dataframe que nous avons appelé ‘df’, il suffit d’écrire str(df) :
Pour faire un tableau croisé, on utilise la fonction table(champ1,champ2)
Je nomme mon tableau « tc » tc<- puis pour ajouter les sommes par ligne et par colonne, j’utilise la fonction addmargins(tc)
On transforme le tableau ci-dessus avec la fonction prop.table()
Mais que remarquez-vous ? Les totaux par ligne et par colonne ont disparu ! Donc on les rajoute pour avoir tous les chiffres essentiels d’un tableau croisé dynamique.
Voilà, nous avons transformé une liste de données dans R en un tableau à deux entrées montrant les pourcentages par ligne et par colonne. C’est parfait ! Si vous le souhaitez, vous pouvez consulter cet article d’Olivier Godechot, qui m’a aidé à vous présenter cette partie.
Bien sûr, R permet de traiter beaucoup de données alors que le nombre de lignes est limité à un million dans Excel. Par contre, il faut connaître les quelques éléments de code présentés ci-dessus. Mais il existe d’autres alternatives. Ainsi, le nouvel outil R++ utilise le code R mais avec une interface sans code. Il est donc à mi-chemin entre Excel et R !
Si vous ne le connaissez pas, le logiciel statistique R++ s’attache à mettre l’analyse statistique à portée de tous. Donc tout en étant très performant au niveau de l’analyse descriptive ou exploratoire, il est aussi hyper facile d’utilisation. Car contrairement à R, il n’est pas nécessaire de coder pour avoir les résultats. Les tests statistiques (pour étudier les corrélations entre variables par exemple) sont réalisés en deux clics ainsi que la visualisation de toutes les variables en graphes.
En ce qui concerne les tableaux croisés dynamiques, R++ s’attache à élaborer un comptage des données selon chaque variable de votre liste. C’est aussi très rapide, en deux clics !
Le choix de cette option épurée vient du fait que les TCD sont avant tout utilisés pour résumer le tableau de données, par comptage uniquement.
Nous allons travailler avec le même fichier de vente que dans les deux exemples précédents. Vous allez donc l’importer de votre ordinateur. Allez dans l’onglet « Import » du Menu Vertical et cliquez sur l’icône entourée en rouge ci-dessous.
Lorsque vous avez importé le dossier, cliquez maintenant sur le bouton rond et vert (en bas à droite de l’écran) et le tour est joué !
Vous n’aurez pas de manipulation à faire sur les données, vous pouvez donc cliquer directement sur l’onglet « Données » du menu vertical, une fois le fichier téléchargé. Dans cet onglet vous pourrez explorer chaque variable grâce à l’icône « Résumé », le troisième du menu horizontal.
Vous observez alors toutes les statistiques pour chaque variable ou autrement dit chaque colonne de votre liste de données : effectifs, pourcentages, moyenne, écart type, etc.
Cliquez sur l’onglet « Tests Statistiques ». Cette zone est dédiée à l’analyse bivariée (donc deux variables à la fois). Tiens, ça ne vous rappelle pas la forme d’un tableau croisé, ça ? Eh oui, pour obtenir un TCD dans R++, vous devez d’abord cliquer sur la variable de référence, celle qui va être étudiée (généralement celle qui se situe sur les lignes du TCD). Ici, par exemple, je clique sur « vendeur » (la colonne passe alors à gauche et en vert) pour voir quel vendeur a eu le plus de clients.
J’obtiens ainsi les tableaux croisés dynamiques ainsi que les graphes de toutes les variables croisées avec la colonne « vendeur ». Et tout ça en un clic ! C’est un gain de temps formidable pour tout analyste.