Laboratoire de Biostatistique, Epidémiologie et Informatique Médicale - Faculté de Médecine de Tours - Université François Rabelais (France)

Comment présenter vos données pour une analyse statistique

De LBEIM

Cette page décrit les 7 points essentiels à vérifier avant d'analyser vos données par un logiciel statistique du Labo de Biostatistique de Tours. Il est très important de s'y conformer avant de venir à la consultation de méthodologie du Labo.

Sommaire

Repérez l'unité statistique d'analyse

C'est l'unité élémentaire d'étude, le plus souvent le patient, repérée par un numéro d'identification unique et possédant un certain nombre d'attributs ou variables la décrivant.

Mettez les données de votre tableur dans un format rectangulaire

Chaque ligne correspond à un sujet (on dit aussi "unité statistique") ; chaque colonne correspond à une (et une seule) variable (on dit aussi "valeur de l'attribut considéré de l'unité statistique"). L'intersection de chaque ligne et colonne doit contenir la valeur (unique) de la variable pour le sujet considéré.

Lors de la constitution de votre tableau de travail, raisonnez en termes de sujets et de variables et non pas en termes de présentation des résultats. Si un groupe de sujets a eu le traitement A et l'autre le traitement B, il doit simplement y avoir une variable (colonne, nommée par exemple "Groupe") qui contient A ou B pour chaque sujet. Vos tableaux doivent rester simples et sans fioritures.

Donnez un nom simple à vos variables

La première ligne (et UNIQUEMENT la première ligne) de votre tableau (en-tête de colonne) doit contenir les noms de chaque variable.

Essayez d'être raisonnablement descriptif en évitant des noms comme VAR1, VAR2 ..., et conservez soigneusement la signification et le contenu de chaque variable. Vérifiez surtout de ne pas avoir 2 fois le même nom de variable. Chaque colonne doit avoir un en-tête unique. D'autre part, certains logiciels statistiques imposent des contraintes assez draconiennes qu'il est nécessaire de respecter.

  • Le nom de la variable ne devrait pas dépasser 10 caractères.
  • Vous pouvez utiliser des lettres et des chiffres, mais évitez les caractères accentués et les caractères spéciaux (& , $, %, -) et l'espace. Vous pouvez utiliser _. En général, les programmes ne font pas la différence entre majuscule et minuscule.
  • Le premier caractère doit être alphabétique.

Etre enfin capable de déterminer s'il s'agit d'une variable qualitative (C), quantitative (M) ou un couple survie (S temps de participation et état aux dernières nouvelles). Vous en aurez IMPERATIVEMENT besoin pour choisir la bonne présentation des résultats et le bon test statistique.

Codez convenablement vos variables qualitatives

Il faut que vous donniez un nom unique à chaque catégorie de votre variable qualitative. Les codes alphabétiques sont plus informatifs et plus faciles à mémoriser. Les codes numériques sont plus pratiques dans certaines sélections et analyses statistiques et permettent d'imposer un ordre de classement. A vous de choisir, mais conservez précieusement la signification de vos codes.Il sera toujours possible, au moment de l'analyse, de regrouper vos catégories.

Les variables non renseignées sont simplement vides (pas de blanc ni autre caractère).

Saisissez soigneusement vos variables quantitatives

Vos variables quantitatives ne doivent être que numériques. Ne pas saisir des >, < ou ?. Si vous ne connaissez pas la valeur, laissez la case vide. Attention aux O et 0, l et 1. Attention au caractère séparateur décimal, c'est la virgule dans Excel. Soyez constant dans le format de saisie d'une date (le transfert d'une date pose toujours problème !).

Privilégiez toujours les variables quantitatives aux variables qualitatives, il sera toujours temps de les transformer après coup..

Donnez un numéro identifiant unique pour chaque ligne de votre tableau

Il vous permettra de remonter aux données sources pour vérification.

Vérifiez et re-vérifiez vos données avant toute analyse

Calculez les fréquences des catégories de chaque variable qualitative pour repérer des codes inconnus ou mal saisis. Tracez l'histogramme de vos variables quantitatives pour repérer les données aberrantes ou non-numériques.

Il est préférable d’enregistrer votre feuille Excel sous un format pas trop récent (Excel 95-2003 par exemple) afin d'être facilement relu.

Vérifiez encore une fois vos données. Vérifiez les noms des variables. Une fois que toutes vos données seront saisies et vérifiées, vous pourrez alors voir votre biostatisticien favori. Le temps gagné sur la correction des erreurs et la mise en forme des données sera investi dans une meilleure analyse et explication des résultats.

Bon courage.

Titre : Comment présenter vos données pour une analyse statistique
Catégories :
Rédacteur : Utilisateur:Pb
Date importante : Non
Headline: Oui

Réf:LBEIM:NOD0105

Administration

Administrateurs seulement