La gestion des données est une étape essentielle de l’analyse statistique. Il s’agit d’éliminer les doublons, de corriger des typos, de discrétiser une variable continue. En somme, la gestion des données dans le cadre des statistiques s’apparente au nettoyage de votre dataset. Comment faire en sorte que les informations que nous allons analyser soient “propres” et bien “rangées” ?
Je vous déconseille de tout faire à la main… Parcourir des lignes de données avec vos yeux et corriger les erreurs au fur et à mesure sur votre clavier peut prendre des heures, sans compter l’ennui, le mal de tête et le risque de ne pas tout voir ! Pour faciliter cette tâche ingrate et longue, R++ a développé un petit outil fantastique qui s’appelle le Typeur R++. Cette fonctionnalité, unique sur le marché, observe les modalités incorrectes et vous les apporte sur un plateau !
Avant de pouvoir utiliser une base de données, il est souvent nécessaire de “gérer les modalités”. Ainsi, dans l’exemple ci-dessous, certaines réponses peuvent être mal orthographiées. Par exemple, si on considère la variable « Sexe », on trouve des “hommes”, des “femmes” mais aussi des “Hommes” avec un h majuscule ou même des “femes” avec un seul m. Il faut regrouper toutes ces options en seulement deux modalités. Cela fait partie de la gestion des données.
Pour résoudre cette anomalie, je dois juste utiliser mon curseur. Je glisse et dépose les modalités erronées sur les modalités correctes. Cela les regroupe et hop! Les modalités sont corrigées.
Parfois il manque une colonne sur le graphique. Par exemple, pour une question, les réponses étaient ‘économie’, ‘droit’, ‘sport’ et ‘langue’. Personne n’a répondu ‘langue’ mais c’est tout de même très important de le voir figurer sur le graphique. Donc je clique sur le « + » et ça me permet d’ajouter une modalité.
À l’inverse, s’il y a une modalité qui doit être supprimée, on la sélectionne, on clique sur “Suppr” et la modalité disparaît (elle devient une valeur manquante).
Comme toujours, on retrouve ces changements dans l’onglet Analyse.
Avec R++, la gestion des données est facile et rapide !
Et vous? Comment faites-vous pour nettoyer vos données ?
Est-ce que vous avez réussi à trouver un bon système ? Décrivez-nous votre expérience de cette première étape mal aimée des analystes…
La gestion des données est bien souvent chronophage ou douloureuse… alors testez R++ !
Et voyez par vous-même avec un essai gratuit et sans engagement. Il suffit juste de vous inscrire et vous recevrez un lien de téléchargement dans votre inbox.
Pour voir la gestion des modalités en vidéo, cliquez ici.