Traitement de données classées

De nombreuses sources de données comportent des nombres ou des caractères alphabétiques représentant divers systèmes de classification ou regroupements. Les données classées demandent une attention particulière dans le choix de la méthode d'agrégation des données.

Traitement selon une valeur nominale ou ordinale

Dans la plupart des cas, les données classées devraient être traitées comme des données nominales ou ordinales, à l'aide du SRAP (Système de réagrégation des attributs de polygones) pour produire une table de noms de classe uniques et le pourcentage de chaque classe qui recoupe le polygone cible. Par exemple, lorsque des données de population ont été classées dans des plages de valeurs, plutôt qu'en données chiffrées représentant de véritables proportions, il convient d'utiliser une interpolation ordinale qui produirait une table liée à la couverture de polygones cibles, listant chaque classe de population source qui recoupe un polygone cible et le pourcentage qu'elle représente par rapport à la cible.

Conversion à des valeurs chiffrées

Dans les cas où des valeurs numériques sont requises pour les polygones cibles, on peut substituer des valeurs chiffrées à des données classées, soit avant ou après le processus d'interpolation. Cette approche pose cependant des problèmes puisqu'elle peut introduire des erreurs graves dans le jeu de données.

Une méthode pour substituer des valeurs à l'étendue d'une classe consiste à utiliser la valeur médiane de la classe. Par exemple, on pourrait représenter la classe de « 100 à 200 personnes » par une valeur de 150. Cette approche pose une difficulté lorsqu'on traite les classes qui se trouvent aux extrêmes, soit les plus élevées et les plus faibles. Quelle valeur devrait-on utiliser pour représenter la classe de « 0 à 99 personnes »? De nombreuses régions du Canada n'ont aucun habitant et la valeur 0 pourrait être une valeur plus représentative de cette classe que 50. Il est tout aussi difficile de déterminer une valeur appropriée pour la classe de « plus de 200 personnes », alors que le choix d'une valeur substitut demande une certaine connaissance des données.

Source : tiré de Ballard et Schut, 1995