Cours de Statistiques
chemin

Description d'une série statistique.

Variables, caractères statistiques: types de variables, représentations graphiques et tabulaires.

Variables ou caractères statistiques.

La description statistique d'une population d'objets exige des opérations différentes selon que cette démarche s'inscrit dans une problématique de recherche bien définie ou n'est qu'une démarche exploratoire. Si l'on souhaite apporter des réponses à des questions déjà posées (par exemple étudier l'hémotypologie d'une population de 167 Kurdes) les caractéristiques sélectionnées pour décrire la, population sont de fait imposées (dans le cas cité, il s'agit de caractéristiques telles que le rhésus le groupe sanguin etc.) En revanche si la démarche est avant tout exploratoire les caractéristiques pertinentes pour décrire les objets de la population ne sont pas toujours disponibles a priori. Le premier souci du statisticien est alors d'isoler les informations recueillies qui sont susceptibles de variations entre les objets étudiés.

Donnons un exemple.

La population que nous nous proposons d'explorer est une population composée de trois individus, Ces trois individus sont trois textes. Ce sont trois extraits du même conte: Blanche-Neige. Ils reprennent le début du conte et s'interrompent à l'instant où le miroir magique déclare que Blanche-Neige est plus belle que la reine.

Extrait 1 :

Dans un château vivaient une jolie princesse, Blanche-Neige, et une reine cruelle et très belle. "Vous êtes la plus belle du royaume" lui disait son miroir magique.
Mais un jour qu'elle lui demandait: "Suis-je toujours la plus belle ?" le miroir lui répondit: "Non ma reine, c'est Blanche-Neige."

Extrait 2

Il était une fois par un jour d'hiver une reine qui cousait auprès d'une fenêtre en bois d'ébène. Dehors, il neigeait. La reine ouvrit la fenêtre pour regarder danser les flocons et elle se piqua avec son aiguille. Quelques gouttes de sang tombèrent dans la neige. C'était si joli ce rouge sur le blanc que la reine dit: "Je voudrais un enfant qui ait la peau blanche comme la neige, les lèvres et les joues rouges comme le sang et les cheveux noirs comme l'ébène." On l'appela Blanche-Neige. Mais la reine tomba malade et mourut. Le roi se remaria avec une femme très belle mais très orgueilleuse. Elle possédait un miroir magique et chaque matin elle se regardait et demandait: "Miroir, miroir magique, dis moi qui est la plus belle ?". Et le miroir répondait: "Ô reine, tu es la plus belle en ce royaume." Mais Blanche-Neige grandissait et devenait de plus en plus belle. Un jour, le miroir répondit "Ô reine, tu es très belle, mais Blanche-Neige est la plus belle en ce royaume".

Extrait 3.

Il était une fois une reine cruelle qui passait son temps à interroger son miroir magique. "Miroir, miroir joli, lui disait-elle: qui est la plus belle du pays?". Et toujours le miroir lui répondait: "Vous êtes la plus belle!" Un jour son miroir osa lui dire : "Ô reine, vous êtes belle, mais Blanche-Neige l'est encore plus que vous".

Ces trois objets sont différents et le premier travail statistique est de rendre compte de ces différences en créant des variables ou caractères statistiques.

Ainsi les trois textes diffèrent selon leur longueur. Nous traduirons cette différence en créant la variable nombre de mots . Au premier texte correspond la valeur 50, au second 180, et au troisième 60.

Ils diffèrent selon le style utilisé par l'imprimeur. Ces variations seront traduites par une variable nommée style . Le premier texte est de style cursive , le second arial , le troisième monospace .

Ils diffèrent aussi par exemple par la délivrance de l'information des liens unissant Blanche- Neige et la reine. On peut ainsi créer une variable nommée Oppositions entre Blanche-Neige et la reine qui prendrait les valeurs suivantes princesse/reine pour le premier texte, Belle-fille princesse/Belle-mère reine pour le second, aucune pour le troisième.

Ils diffèrent enfin par la mise en scène du roi ou l'absence de ce personnage. On peut alors créer une variable roi personnage cité qui prend deux valeurs vrai ou faux . Il existe encore bien d'autres variables à créer (par exemple le nombre de personnages) mais nous ne travaillerons qu'avec les quatre ainsi construites. En effet elles relèvent de quatre traitements statistiques différents et seront dites de types différents.

Les quatre variables isolées plus haut sont de types différents car les catégorisations qu'elles permettent d'effectuer sur les individus de la population sont de nature différente.

  1. La variable roi personnage cité qui ne prend que deux valeurs vrai/faux, permet de catégoriser en deux classes les individus. Deux individus quelconques de la population ont donc soit des valeurs identiques soit des valeurs contraires. Ils sont soit identifiées (on leur associe la même valeur) soit opposés (on leur associe deux valeurs contraires). Ce type de variable s'appelle variable binaire ou variable logique.
  2. La variable style permet une catégorisation des individus qui ne permet pas davantage de penser des individus en terme de proches de voisins ou de éloignés En effet aucune hiérarchie ne peut être établie entre les trois classes que sont style1 , style 2 , style 3 . Les individus de la population une fois triés, sont soit identifiés (on leur associe la même valeur) soit différents (on leur associe des valeurs différentes). Une telle variable est dite qualitative. D'autres exemples de variables qualitatives sont: le groupe sanguin (A, AB, O etc.), le sexe (homme, femme) etc. Les variables binaires sont des variables qualitatives particulières.
  3. La variable oppositions Blanche-Neige/ reine est une variable un peu différente de la variable style car les classes qui lui sont attachées peuvent être ordonnées, hiérarchisées. On peut ordonner les trois classes produites selon l'ordre suivant: aucune information , princesse/reine , Belle-fille princesse/belle-mère reine qui rend compte de la progression du niveau d'information sur les liens entre Blanche- Neige et la reine. Par conséquent les individus de la population une fois catégorisés peuvent être déclarés identiques, différents comme dans le cas précédent mais aussi plus proche de, plus éloigné de, etc. Ce type de variable est dit qualitative ordonnée.
  4. Enfin la variable nombre de mots est une variable qui permet de penser l'écart entre deux individus auxquels on associe des valeurs différentes pour cette variable. Non seulement on peut ordonner les individus à l'aide des valeurs prises (le texte l comprend moins de mots que le texte 3 et encore moins que le texte 2) mais on peut également comparer les individus par le rapport entre les valeurs prises (le texte 2 comprend trois fois plus de mots que le texte 3). Cette variable se dénomme variable numérique ou quantitative.

En définitive, deux grandes catégories de variables sont à retenir: les variables numériques ou quantitative et les variables qualitatives

Une fois les variables identifiées le travail descriptif commence. On doit tout d'abord procéder à l'identification de la valeur prise par chaque individu. Cette identification produit une liste de valeurs prises, liste désordonnée, qui est difficilement déchiffrable. Cette liste s'appelle aussi série

Par exemple on obtient les liste ou les séries suivantes:

Roi personnage cité : faux, vrai, faux. Nombre de mots : 50, 180, 60.

La deuxième étape de ce travail et donc la première description consiste à produire un tableau décrivant les variations de la variable, à produire une ou plusieurs représentations graphiques et à mettre en mots les informations ainsi recueillies.