Explorer les territoires autrement : défis et potentiels des données dérivées

Chronique de la data et de l'innovation n° 3   Sommaire

30 janvier 2025ContactAlexandre Floury, François Michelot, Martin Omhovère

Épidémie de Covid, guerre en Ukraine, inflation : ces dernières années ont été marquées par une succession de chocs ayant profondément affecté le quotidien et les comportements des populations. Que ce soit par l’essor du télétravail, l’émergence de nouvelles aspirations résidentielles ou encore des arbitrages financiers inédits, ces transformations, parfois combinées, ont influencé les dynamiques territoriales et amené les collectivités à s’interroger sur la pertinence et le dimensionnement de leurs politiques publiques. Dans ce contexte, les évolutions démographiques ont constitué l’un des questionnements les plus prégnants pour réorganiser rapidement les services aux populations à la sortie de la crise sanitaire. Mais quelles données mobiliser lorsque les statistiques institutionnelles se trouvent dépassées par la rapidité des transformations des modes de vie ? Si l’on se tourne vers des données alternatives comme les données dérivées, plusieurs précautions s’imposent. Cette chronique propose un retour d’expérience sur l’utilisation des données de réexpéditions de courrier produites par le Groupe La Poste. 

Limites des données institutionnelles et alternatives

Sous l’effet des confinements successifs et des fermetures des lieux de sociabilité qui font le dynamisme et l’attractivité des centres urbains, l’épidémie de Covid a suscité une reconfiguration profonde des mobilités résidentielles. Cela a soulevé des interrogations pressantes sur l’évolution de la population et de son profil, tant pour les lieux de départ que dans les territoires d’arrivée.

Alors que l’analyse des mobilités résidentielles s’appuie habituellement sur les données du recensement de la population produites et diffusées chaque année par l’Insee, dans un contexte d’évolution rapide du comportement des ménages, cette source a vu son utilité considérablement diminuer en raison de leur manque de « fraîcheur ». De part leur méthodologie de collecte, lorsqu'elles sont publiées ces données reflètent des observations réalisées jusqu'à cinq ou six ans plus tôt. Ainsi, les fichiers publiés fin juin 2024, constituant le « RP2021 », synthétisent les données recueillies lors des enquêtes annuelles de recensement des années 2018 à 2023, et à l’exception de 2021 (recensement annulé). Ce recensement ne décrit donc que très imparfaitement les dynamiques démographiques récentes. 

Afin d’analyser l’évolution des mobilités résidentielles, L’Institut Paris Region a décidé de recourir à des données dérivées (voir encadré) en se tournant vers les données de réexpéditions de courrier commercialisées par le Groupe La Poste. L’objectif initial était d’explorer les mobilités résidentielles des Franciliens au sein même de l’Île-de-France, ainsi que les arrivées et les départs de la région. 

Ce choix a été motivé par plusieurs avantages propres aux données de réexpéditions de courrier, à commencer par leur disponibilité (fraîcheur, délai d’obtention réduit, coût d’acquisition limité) mais aussi la transparence quant à leur production et à leur structuration. Le Groupe La Poste s’est en effet positionné en partenaire de L’Institut et a proposé des extractions selon des mises en forme (échelles et typologies géographiques, périodicité, comparabilité) facilitant le travail d’étude, tout en assurant la protection des données personnelles. En permettant d’aller au-delà des formats standard de diffusion des données, l’adaptabilité et l’ouverture à l’expérimentation du fournisseur de données constituent des conditions primordiales pour réaliser un travail d’étude de qualité à partir de données dérivées.

Trois grands types de données

 Données de référence : produites par des institutions de la statistique publique pour mener des études en vue de planifier ou d’évaluer une politique. À titre d’exemple, le recensement de la population, initialement à visée fiscale et militaire, a désormais pour vocation l’observation des territoires afin d’éclairer les enjeux d’aménagement et, plus particulièrement, d’orienter et de suivre les politiques publiques qui y sont déployées.


 Données d’observation : issues d’enquêtes ou de sondages, elles répondent à des questionnements spécifiques portant, par exemple, sur les comportements, opinions, attitudes, aspirations, ou tout autre dimension du vécu. Procédant par échantillonnage, elles ne permettent pas une vision exhaustive, ni des approches territoriales très fines. 


 Données dérivées : dans un contexte d’informatisation et de digitalisation croissant, de plus en plus de données sont produites en lien avec le pilotage ou la mise en œuvre de services. Ces données peuvent être détournées de leur usage initial à des fins d’observation ou de recherche. Exemple : les données hospitalières, initialement constituées pour réaliser un contrôle de gestion, permettent aujourd’hui d’alimenter la connaissance sur l’accès et la consommation de soins.

À propos des données de réexpéditions de courrier

Dans le cadre des services postaux qu’il assure, le Groupe La Poste propose aux personnes changeant d’adresse en France ou vers l’international d’assurer la réexpédition de leur courrier. Sont alors transférés les courriers ordinaires, les lettres recommandées, la presse, les catalogues, la publicité ainsi que les colis Colissimo. La souscription d’un contrat de réexpédition (temporaire ou définitive) vaut pour l’ensemble du foyer. Les bénéficiaires du foyer sont alors mentionnés dans le contrat de réexpédition. Au moment de la souscription, les personnes renseignent un ensemble d’informations, à commencer par leur lieu de résidence actuel et futur. Ces informations sont collectées, regroupées et structurées par le Groupe La Poste pour assurer le service, mais aussi les valoriser en les vendant à des tierces personnes. La commercialisation de ces données s’inscrit selon des mises en forme assurant l’anonymat des personnes. Ce service permet ainsi aux territoires et aux entreprises d’avoir des indicateurs agrégés sur les mobilités résidentielles. Cette plateforme est accessible aux collectivités locales, agences ou entreprises, et se nomme GLobalMapSolutions. Une version Freemium de démonstration est accessible à l'adresse suivante :https://free.geoptis.com/

Évaluer la qualité avant d'engager l'analyse  

La mobilisation de données dérivées doit s’accompagner d’un protocole de vérification de leur qualité.  Il s’agit d’un préalable essentiel pour garantir leur fiabilité, leur pertinence et leur utilité dans les prises de décision. La qualité des données renvoie à plusieurs aspects :

  • L’exactitude : les données doivent être précises et refléter la réalité de manière correcte. Elles doivent donc être exemptes d'erreurs, de duplications ou de valeurs incohérentes.
  • La cohérence : les données doivent être cohérentes avec d’autres sources, en différents endroits et points dans le temps. Il s’agit d’éviter les contradictions et les incompatibilités entre différentes sources de données et, si elles apparaissent, d’en comprendre l’origine pour en tenir compte dans l’analyse. 
  • La complétude : les données doivent présenter toutes les informations nécessaires et pertinentes pour répondre au questionnement visé. Des données incomplètes peuvent conduire à des analyses erronées, voire à des décisions incorrectes.
  • La validité : les données doivent respecter les règles et les contraintes définies pour leur utilisation. Il s’agit de s'assurer qu'elles sont appropriées et pertinentes pour l'objectif auquel elles sont destinées. 
  • La fiabilité : les données doivent provenir de sources dignes de confiance, mettant en œuvre les dispositifs d’évaluation pour détecter et traiter les erreurs éventuelles.
  • La pertinence : il est important de définir clairement les critères de pertinence des données afin de s'assurer qu'elles sont appropriées pour répondre aux besoins et aux objectifs spécifiques de l'analyse ou de la prise de décision.
  • L’intégrité : les données doivent être protégées contre les altérations non autorisées ou les manipulations. Des mécanismes de sécurité et de contrôle d'accès doivent être mis en place pour garantir l'intégrité des données.

Des normes internationales ont été définies pour garantir la qualité des données produites (ISO/IEC 25012, ISO8000, Data Management Association, The Data Gouvernance Institute, etc.). 
Coutumier de l’utilisation de nombreuses données dérivées, L’Institut Paris Region a vérifié la cohérence et la précision, ainsi que le type de mobilités résidentielles couvert par les données de réexpédition avant d’engager l’étude. Plusieurs contrôles ont été réalisés à cet effet :

 Vérification de la cohérence en volume des réexpéditions à l’échelle de l’Île-de-France en les comparant avec les données du recensement de la population pour 2019, année commune aux deux sources. Sachant que tous les déménagements ne donnent pas lieu à la signature d’un contrat de réexpédition du courrier (effet d’âge, numérisation croissante des échanges, services alternatifs, etc.), l’objectif était d’apprécier la part des déménagements qui pouvait être retrouvée dans les contrats de réexpédition. Outre l’année 2019, des vérifications ont également été réalisées pour l’ensemble de la série, de 2019 à 2022, afin de s’assurer que les variations annuelles s’inscrivaient dans des ordres de grandeur plausibles. Ces deux comparaisons ont révélé des incohérences dans les premières extractions de données. D’expérience, l’Institut a pu constater que des erreurs de ce type étaient fréquentes chez les fournisseurs de données dérivées, rendant cette première étape de vérification indispensable avant d’engager les analyses. Les extractions ont ainsi pu être corrigées par le groupe La Poste, permettant la constitution d’une base propre à l’analyse.

 Vérification de la représentativité des données pour différents types de mobilité : l’Institut s’interrogeait sur trois types de flux (internes à l’Île-de-France, départs et arrivées vers et depuis la province). Nos travaux antérieurs sur les mobilités résidentielles avaient montré que ces flux correspondaient à différents profils de population, avec des probabilités de recours à un contrat de réexpédition très variées. L’Île-de-France, particulièrement attractive pour les jeunes, étudiants ou jeunes actifs, présentait un risque de sous-estimation des arrivées, creusant ainsi le déficit migratoire de la région si l’on se contentait des données de réexpédition. Une nouvelle fois, la comparaison avec les données du recensement réalisée pour la période de référence, antérieure à la pandémie, a confirmé que la représentativité des données était bien meilleure pour les départs de l’Ile-de-France que pour les arrivées. Le même constat a pu être établi pour les mobilités internes à l’Île-de-France, avec une représentativité bien plus importante pour les flux centrifuges que pour les flux centripètes. Ces différences s’observaient également à l’échelle des départements accueillant de grandes métropoles, particulièrement pour le Rhône (Lyon).

Adapter le questionnement

À la suite des vérifications menées par l'équipe projet, le périmètre de l'étude a été resserré afin de publier des résultats en phase avec la réalité des faits décrits par les données de réexpéditions de courrier. Il a fallu notamment renoncer à toute analyse de l’évolution du solde migratoire de la région avec le reste du pays compte tenu des différences de représentativité entre les flux au départ et ceux à l'arrivée en Île-de-France (voir annexe). Pour atténuer les différences de représentativité des contrats de réexpédition selon les territoires de destination, il a également été décidé de raisonner en base 100, c’est-à-dire de façon relative à la situation observée avant la pandémie. Nous avons enfin renoncé à l’analyse des mobilités intra-franciliennes, qui n’avait plus guère de sens compte tenu de la très faible représentativité des données pour les mobilités de proximité et centripètes qui dominent dans le paysage des déménagements au sein de l’Île-de-France. Voir à ce propos l'article : Les Franciliens privilégient les déménagements de proximité au sein de leur région.

L’analyse a donc été recentrée sur les départs de l’Île-de-France. Et l’exploitation des données de réexpédition a alors permis d’identifier des résultats inédits. Tout d’abord concernant les territoires d’arrivée ayant vu leur attractivité renforcée par le Covid : les couronnes métropolitaines proposant une offre généreuse de maisons individuelles (préférence pour les jardins et la faible densité), les territoires bien connectés à l’Ile-de-France qui, avec la diffusion du télétravail, se démarquaient par leur attrait (témoignant de nouvelles organisations et de vies gardant un lien avec l’Ile-de-France). Surtout, ces données ont permis d’appréhender la temporalité qui avait été celles de ces départs, notamment de Paris, considérablement plus nombreux en 2020 et 2021 mais témoignant d’un très net reflux en 2022. Ces observations ont permis d’adapter la prospective démographique réalisée par L’Institut en formulant l’hypothèse d’un « effet moisson » lié aux confinements successifs. Dit autrement : les départs de l’Ile-de-France observés en 2020 et 2021 correspondent en grande partie à l’accélération de projets de ménages qui nourrissaient déjà ce projet. Un constat qui devrait se traduire par des départs moins nombreux dans les années à venir. 

L'importance de l'expertise et du dialogue dans l'exploitation des données dérivées

À L’Institut Paris Region, le recours aux données dérivées ne se limite pas à celles de réexpéditions de courrier fournies par le Groupe La Poste. Nous utilisons également des données fiscales, médico-administratives, de géolocalisation de bornages téléphoniques, etc. Mais l'exemple du courrier témoigne de l’expertise et des processus de vérification qui sont systématiquement nécessaires pour s’engager dans une analyse pertinente, après avoir identifié et pris en considération leurs limites. Souvent attractives en termes de coût et de fraîcheur, les données dérivées sont à l’inverse très pauvres en informations attributaires : profil socio-démographique des personnes, âges, etc. Il s'agit d'une limite à prendre en considération, non seulement pour apprécier la pertinence des données à l’aune des politiques publiques à outiller, mais aussi parce que ce faible niveau d’information complexifie les phases de contrôle qualité. Face à cette difficulté, disposer d’une très bonne connaissance du contexte dans lequel les données ont été recueillies est essentiel pour anticiper leurs éventuels angles morts. Cette connaissance nécessite un lien de confiance et un dialogue constant avec le fournisseur des données, comme cela a pu être le cas avec La Poste. 

Illustration extraite d'un document sur les principes généraux de qualité des données publiées par les ministères MTE et MTECT. Dessinateur : Étienne Appert https://www.etienneappert.fr/

Les données dérivées offrent des perspectives prometteuses pour éclairer une action publique plus réactive et efficace. Cependant, cette promesse repose sur trois conditions essentielles. La première est le maintien de statistiques institutionnelles permettant de vérifier et d’étalonner les données dérivées. L’intérêt de ces dernières ne réside que dans cette alliance entre différentes sources, et non pas dans leur substitution. La deuxième condition est de disposer d’une double expertise : d’une part sur la donnée, et d’autre part sur les thématiques concernées. Cela garantit la capacité de poser les bonnes questions et de proposer des solutions pertinentes pour valoriser les données. Enfin, le retour d’expérience sur l’utilisation des données est un point crucial pour la montée en compétence mutuelle des producteurs et des utilisateurs. Sur ces deux derniers aspects, les agences d’urbanisme apparaissent comme des lieux privilégiés : elles favorisent une articulation avec les problématiques opérationnelles des acteurs publics, elles mobilisent une expertise spécialisée et elles assurent la capitalisation ainsi que la diffusion des retours d’expérience.

Annexe

Vérification de la représentativité des flux

Comme le montre la comparaison ci-dessous entre les données dérivées de La Poste et celles du recensement de la population 2018, les mobilités de la province vers l’Île-de-France souffrent d’une moins bonne représentativité que celles de la région francilienne vers la province. L'écart entre les deux sources est deux fois plus important pour les flux Île-de-France vers la province (45 % vs 23 %). 

Au sein de l’Île-de-France, les ménages se déplaçant de la périphérie vers le centre sont généralement plus jeunes que ceux aux profils plus hétérogènes, allant du centre vers la périphérie. Dans un contexte de « mobilité de proximité », l’hypothèse d’un plus faible recours aux contrats de réexpédition peut également être formulée.
En 2018, les contrats de réexpédition représentent 64 % des mobilités intra-franciliennes estimées par le recensement de la population 2018. Cette représentativité fluctue fortement en fonction de l’origine et de la destination de ces mobilités : la représentativité des mobilités de la périphérie vers le centre est moins bonne (voir tableau ci-dessous) que celle du centre vers la périphérie. De plus, les mobilités intra-départementales ne sont pas toujours bien représentées, c’est particulièrement le cas de Paris (57 %) et de la Seine-Saint-Denis (56 %).

Cette page est reliée aux catégories suivantes :
Aménagement et territoires | Information géographique et 3D | Société et habitat | Mobilité résidentielle | Chronique & dossier