Aller au contenu

Cartographier les données de vente en les couplant aux données de recensement

22 février 2024

Ira Taraday

Cartographier les données de vente en les couplant aux données de recensement pour comprendre les facteurs démographiques

Les entreprises utilisent les données démographiques pour prendre des décisions synonymes de croissance et de réussite, une stratégie qui ne date pas d’hier. La difficulté, c’est de coupler avec précision les données de vente et de recensement pour trouver cette information.

Dans le cadre d’un récent projet, nous avons eu l’occasion d’élucider les complexités du couplage de données. Lisez la suite pour savoir comment nous avons surmonté les problèmes et créé un modèle capable de produire des analyses riches et pertinentes.

Le projet

Notre objectif était d’extraire des données de recensement et de les coupler aux données de vente d’un client pour créer un modèle qui mesure le potentiel de revenu d’un territoire. Notre client souhaitait utiliser ces données pour mieux comprendre ses territoires de vente, en évaluer le potentiel et renforcer sa base de données en y injectant de l’information démographique.

Pour l’aider à atteindre ses objectifs, nous avons dû trouver un moyen de cartographier ses données de vente et de les coupler à des territoires alignés aux données de recensement. Il a ensuite fallu extraire et tester ces données de recensement pour déterminer les facteurs permettant de mesurer le potentiel de revenu du territoire en question.

Les difficultés du couplage de données

1. Un territoire difficile à définir

Tout d’abord, les territoires de vente du client n’étaient pas clairement définis. Nous cherchions des couches de données suffisamment riches, mais à une échelle suffisamment petite pour que le client puisse s’en servir pour délimiter ses territoires de vente.

Nous avons établi qu’il était possible d’extraire des données à différents niveaux : divisions de recensement, subdivisions de recensement, agrégations et RTA (région de tri d’acheminement). L’échelle des RTA était parfaite pour définir les territoires de vente du client, mais peu de rapports étaient accessibles à ce niveau de précision. C’est pourquoi nous avons aussi travaillé avec les subdivisions de recensement. Malheureusement, ces différentes couches ne se superposaient pas. C’était notamment le cas des RTA et des subdivisions.

Illustrons le problème avec les divisions de recensement de Hamilton, en Ontario (zones délimitées en vert) [fig. 1]. Vous remarquerez les différentes RTA qui composent la division :

Les divisions de recensement étaient adaptées pour les grandes villes comme Hamilton, mais trop grandes pour les régions plus petites. Par exemple, Guelph est une subdivision, mais fait partie de la division de Wellington.

Au final, nous avons choisi d’utiliser une subdivision, puisque la résolution est suffisamment fine (à l’échelle de la ville, à peu près) pour le territoire du client. Les subdivisions présentaient toutefois une difficulté : certaines grandes villes comme Toronto correspondaient à une seule subdivision, tandis que d’autres villes comme Montréal en représentaient plusieurs.

2. Coupler les données de recensement  aux données du client

L’étape suivante était de réussir à coupler les données de vente du client aux données de recensement. Les données de vente avaient été saisies sans contrainte de format, nous avons donc rarement pu trouver de moyen simple de les cartographier par rapport aux subdivisions. Dans la mesure où une ville peut représenter plusieurs subdivisions (ou ne pas en être une) et où les RTA ne s’alignent pas tout à fait sur celles-ci, nous souhaitions utiliser les coordonnées géographiques des clients pour déterminer la subdivision à laquelle ils appartiennent.

Pour y parvenir, nous avons créé un appariement flou entre les données de vente et une autre source de données, ce qui nous a permis d’obtenir plus d’information sur les clients (ex. :  coordonnées géographiques) et de les utiliser pour corriger les erreurs dans les données de vente. Comme nous avons saisi les données sans contrainte de format, nous avons rencontré plusieurs problèmes lors de la création de l’appariement flou. Voici quelques-unes des principales difficultés rencontrées :

  • Client inactif sans données associées
  • Données incorrectes
  • Abréviations/sigles

Pour résoudre ces problèmes, nous avons essayé de créer un sous-ensemble de données contenant le nom, le code postal et l’adresse des clients. Nous avons commencé par nettoyer les sigles et les abréviations, et par créer un appariement flou à partir du nom avec le code postal apparaissant dans les données du client. Les bons appariements ont ensuite été vérifiés et validés un par un.

Lorsque nous n’obtenions pas de bon appariement entre le nom et le code postal, nous étendions le sous-ensemble de données à l’échelle de la ville et de la RTA (en cas d’erreur dans le code postal), puis tentions l’appariement avec le nom et l’adresse. Nous avons utilisé une moyenne pondérée en faveur du nom (et non de l’adresse) pour déterminer la validité des appariements, de manière à prévenir les faux positifs (ex. : 3, rue Young donnant un meilleur appariement que 300, rue Young).

3. Réparer nos sources de données « fiables »

Nous avons utilisé les données du client pour tenter de résoudre les problèmes que présentaient les données de vente et pour alimenter davantage notre modèle. En travaillant sur l’appariement, nous avons rencontré des erreurs dans la source de données supposée fiable. En l’occurrence, il s’agissait de simples erreurs. Le code postal était en minuscules dans certaines rangées, alors qu’il était en majuscules dans 99,9 % des cas, ou alors il suivait le format « A1A1A1 » au lieu de « A1A 1A1 ».

Dans d’autres cas, des données manquaient et nous avons dû trouver comment combler ces lacunes de la manière la plus adaptée possible. Par exemple, quand la subdivision n’était pas renseignée, nous avons extrapolé à partir des autres entrées correspondant à la même RTA, en nous basant sur sa subdivision dominante.

4. Cartographier les données de vente en les couplant aux données de recensement

À cette étape du projet, nous disposions d’une méthode pour coupler les données de vente aux données des clients, et nous étions prêts à associer ces dernières à une subdivision de recensement. Nous avons utilisé GeoPandas pour cartographier les coordonnées des clients sur la carte des subdivisions de recensement que nous avons obtenue auprès de Statistiques Canada. Nous avons ainsi pu apparier les clients à la carte de recensement et extraire une liste des subdivisions qui leur sont associées. Les quelques clients qui chevauchaient deux subdivisions ont été supprimés du modèle.

5. Créer le modèle

 

Résultats

Comme le client ne disposait pas de moyen fiable de déterminer des territoires de vente, nous avons créé un modèle que nous avons pu appliquer à tous les clients potentiels apparaissant dans le jeu de données du client. Nous avons créé des territoires basés sur la ville, le code postal, la RTA ainsi que la division et la subdivision de recensement pour relier les ventes au potentiel de revenu. Grâce à ce modèle, le client peut choisir la manière dont il définit ses territoires et repérer facilement les clients et les revenus potentiels pour évaluer sa propre performance par comparaison.

VOUS AVEZ UN PROJET ?