Quand l'intelligence artificielle révolutionne l'information géographique

Chronique de la data et de l'innovation n° 1   Sommaire

23 mai 2024ContactMichel Médic, Corinne Ropital, Dounia Yassin

La vision par ordinateur, un domaine de l'informatique en pleine expansion, est devenue un atout majeur grâce à l'utilisation de réseaux neuronaux. Inspirés du cerveau humain, ils permettent aux machines d'interpréter et d'analyser à grande échelle des informations visuelles complexe. Cette avancée ouvre la voie à diverses applications, avec notamment la détection de surfaces spécifiques à partir de photographies aériennes ou d’images satellites : parking, toitures, décharges sauvages... Les applications sont sans limite. À L'Institut Paris Region, nous développons en interne des compétences en intelligence artificielle, en particulier dans le domaine du deep learning, dans le cadre de nos travaux de recherche et de développement d'applications innovantes. Dans ce premier numéro des chroniques de la data et de l’innovation, nous explorons la façon dont L'Institut Paris Region investit l’IA pour enrichir son système d’information géographique régional et alimenter les travaux de ses experts.

 

Au commencement, le potentiel solaire

L’énergie solaire constitue l’une des priorités et l’un des principaux leviers de développement des énergies renouvelables en Île-de-France. 
En lien avec les objectifs de développement des énergies renouvelables, du zéro artificialisation nette (ZAN) et les obligations fixées par la loi relative à l’accélération de la production d’énergies renouvelables (loi APER – mars 2023), l’Institut a souhaité se doter de données sur les gisements solaires pour faciliter le développement de la filière en offrant une connaissance fine des gisements solaires disponibles.  
Ainsi, après avoir modélisé les gisements solaires en toitures à partir de bases de données déjà existantes (via l’IGN notamment), l’institut a également modélisé les gisements solaires de parkings franciliens, à partir cette fois d’une base de données créée en interne et reposant sur un modèle d’intelligence artificielle de deep-learning
Ce travail a permis de constituer une base de données des parkings franciliens selon une typologie détaillée, pour permettre ensuite des approfondissements adaptés par type d’acteurs (équipements publics, entreprises, habitat, logistique, etc.). 
 

L’exemple de la détection des parkings sur les emprises logistiques

La logistique occupe une place cruciale en Île-de-France, avec une empreinte foncière considérable. Jusqu'à présent, les toitures et les parkings de ces zones étaient exclusivement dédiés à des besoins propres tels que l'exploitation des bâtiments, le stationnement des véhicules de fret et ceux des employés. Toutefois, les objectifs de transition écologique, notamment ZAN et ZEN, exigent désormais une diversification des fonctions de ces espaces urbanisés, une exigence qui se doit néanmoins de préserver les activités logistiques existantes.
Dans ce cadre, nos experts ont élaboré des modèles de détection par intelligence artificielle pour évaluer le potentiel solaire des parkings présents sur les espaces de la filière logistique francilienne. Cette approche novatrice a été réalisée en croisant des données géographiques avec des images aériennes, sur lesquelles des modèles d'apprentissage automatique ont permis d'identifier et de localiser avec précision les espaces de stationnement.

En quelques chiffres, cette méthode a permis d'identifier 127 parkings rattachés aux entrepôts logistiques pour une surface de 537 900 m². D'une manière plus globale, concernant les parkings rattachés aux activités économiques et industrielles , ce sont 1 780 parkings qui ont été identifiés, soit une surface de 8 899 375 m².

Cette méthodologie permet non seulement d'identifier des zones disponibles pour des projets d'énergies renouvelables, tels que des ombrières solaires, mais aussi d'optimiser l'utilisation d’espaces urbanisés. En effet, au-delà du développement des EnRR, ces repérages peuvent également aider à quantifier des zones à végétaliser dans le cadre de documents d'urbanisme locaux. Par exemple, en 2023, l’Institut a entrepris un travail ambitieux de recensement du nombre d'arbres sur l'ensemble des 12 000 km2 du territoire francilien. Quelque 26 millions d’arbres avaient ainsi été inventoriés par notre algorithme !

Comment l’IA arrive à géolocaliser des parkings ?

Dans le cas des parkings, pour parvenir à leur localisation et segmentation depuis des photographies aériennes, l'utilisation de l'intelligence artificielle s'avère être une approche prometteuse en exploitant des données variées sur différentes périodes (nous disposons de différentes campagnes entre 2008 à 2021) et en développant des modèles d'apprentissage automatique. Les images servent alors de base pour entrainer et tester notre modèle de reconnaissance. En complément, l'utilisation de couches géographiques, telles que celles fournies par OpenStreetMap (OSM), le mode d'occupation du sol (MOS) et celle du potentiel solaire des parkings de L'Institut Paris Region, permet un référencement précis des emplacements des parkings. Ces données géospatiales servent de guides pour l'annotation des images et l'entraînement du modèle. Dans un second temps, la phase de segmentation délimite les contours des emprises de parking sur les photographies aériennes afin d'obtenir un inventaire précis de l'emplacement de chaque parking sur l’ensemble du territoire régional. 
Lors de ces étapes, l'IA intervient principalement dans le processus de localisation automatique. Les modèles de segmentation d'images, basés sur des réseaux de neurones convolutifs, permettent d’apprendre à identifier les caractéristiques distinctives des parkings à partir des données d'entraînement fournies. En utilisant ces modèles, il devient possible de scruter automatiquement l'ensemble du territoire régional pour localiser précisément les parkings comme cela est décrit ci-après.
 

 

Le processus pas à pas

Un réseau neuronal sophistiqué est capable de réaliser une segmentation d'image, lui permettant non seulement d'identifier un objet sur une image, mais également d'en tracer les contours, comme illustré sur la photographie ci-contre. L’étape de construction de cette IA s’élabore en plusieurs phases :

  1. Extraire des images de parkings
  2. Sélectionner manuellement des « parkings témoins »
  3. Générer des masques
  4. Diviser les données en deux groupes :  l’entraînement et le test
  5. Entrainer le modèle
  6. Vérification sur quelques photos 

1. Extraire des images de parkings

La première étape du processus nécessite des images de parking afin d’alimenter notre réseau de neurones. En l’absence de données, il est intéressant de se poser la question de savoir si des données similaires ne sont pas disponibles en open data ou dans un big data tel qu’OpenStreetMap. Il est essentiel de disposer à la fois de la donnée vectorielle et de la photographie aérienne (ou satellite) correspondante. Une fois les données géographiques acquises, il s’agit d’extraire les images depuis une photo aérienne (ou image satellite) sur les contours des parkings.  Pour notre projet, nous utilisons des images carrées de 512 pixels de côté, avec une résolution de 0,15 cm par pixel, ce qui correspond à des surfaces de 76 mètres de côté. Dans notre exemple, nous partons du centre du parking et nous ajoutons 38 mètres de chaque côté afin de centrer l’image sur le parking.

 

La couche géographique nous permet de récupérer le masque du polygone nécessaire à l’entrainement du modèle.

2. Sélectionner manuellement des « parkings témoins »

Pour produire un modèle qui fonctionne efficacement, il est impératif de l’alimenter avec une donnée qualitative et représentative de la diversité des objets que l’on souhaite faire reconnaitre automatiquement par notre IA.

Dans notre projet, l'entraînement initial s’est appuyé sur une base de données d’environ 1 200 parkings « triés sur le volet ». Lors de cette étape, nous supprimons les parkings :

  • n’étant pas assez visibles sur l’image,
  • ayant un couvert végétal trop important,
  • disposant d’un revêtement non conventionnel (sable, terre, pelouse etc…).  

3. Générer des masques

En segmentation d'image, un masque est une image associée à celle d'origine, où chaque pixel du masque est catégorisé en fonction de la classe ou de l'objet auquel il appartient. Chaque classe ou catégorie est souvent représentée par une couleur spécifique dans le masque. Par exemple, dans le contexte de la segmentation sémantique, les classes peuvent inclure des objets tels que les voitures, les arbres, les piétons, etc.

L'utilisation de masques permet de créer une carte détaillée des différentes parties d'une image, facilitant ainsi la compréhension et l'analyse par les modèles d'intelligence artificielle. Ces masques sont généralement utilisés pour entraîner des modèles de segmentation, qui peuvent ensuite être utilisés pour segmenter de nouvelles images en attribuant à chaque pixel une étiquette correspondant à la classe à laquelle il appartient. Cette approche est fréquemment utilisée dans des domaines tels que la vision par ordinateur, la reconnaissance d'objets et la compréhension visuelle.

4. Diviser les données en deux groupes : l’entraînement et le test

La division d'un jeu de données en deux parties, à savoir l'ensemble d'entraînement et l'ensemble de test, est une pratique courante en apprentissage automatique. 

    L’ensemble d'entraînement 

    • Objectif : il est utilisé pour former le modèle d'apprentissage automatique. Le modèle ajuste ses paramètres en analysant les exemples présents dans cet ensemble.
    • Taille : il est généralement plus grand que l'ensemble de test car le modèle a besoin d'une quantité suffisante de données pour apprendre efficacement.
    • Variété : il doit être représentatif de toutes les classes ou catégories présentes dans le problème à résoudre afin que le modèle apprenne à généraliser.

    L'ensemble de test 

    • Objectif : il est utilisé pour évaluer les performances du modèle sur des données qu'il n'a jamais vues pendant l'entraînement. Cela permet d'estimer la capacité du modèle à identifier de nouvelles données.
    • Indépendance : ses données doivent être indépendantes de celles de l'ensemble d'entraînement pour garantir une évaluation impartiale du modèle.
    • Taille : il doit être suffisamment grand pour fournir une évaluation statistiquement significative. En pratique nous utilisons 20 à 25 % du jeu de données.

    5. Entrainer le modèle

    Nous avons choisi un modèle de type U-NET pour créer notre segmentation d’images. 
    Le modèle U-NET est une architecture de réseau neuronal utilisée pour la segmentation d'images. Il s’agit d’identifier et de délimiter des objets spécifiques dans une image. Il tire son nom de sa forme en « U », caractéristique de son architecture.
    Sans vouloir être trop technique dans cette chronique, nous pouvons retenir que l'idée clé du modèle U-NET est d'utiliser une architecture de réseau qui capture à la fois les informations contextuelles globales et les informations locales détaillées. Cela en fait une option prisée pour la segmentation d'images, notamment dans le domaine médical pour la détection de lésions, fractures, masses ou les anomalies. Une fois entrainé, le réseau U-Net va prendre en entrée une image et produire un masque représentant la prédiction, c'est à dire le contour du parking dans notre cas.

    Bien que l’IA ne soit pas parfaite, l’exactitude de notre modèle qui avoisine les 91 % est suffisante pour obtenir une approximation de la surface du parking. Si une détection ne coïncide pas avec notre base actuelle de parkings, il est nécessaire de vérifier l’information à la main et de saisir le nouveau périmètre.

    6. Vérification des résultats sur quelques photos

    Une expérimentation réussie qui appelle d’autres projets

    L'utilisation d'un réseau neuronal s'est avérée prometteuse pour le repérage automatique des parkings dans les zones logistiques sur le territoire francilien. Cette expérience met en lumière l'efficacité accrues que l'IA apporte au processus de détection des parkings. En automatisant cette tâche, l'IA permet de gagner du temps et des ressources précieuses, tout en garantissant des résultats cohérents et fiables.
    Cette approche pourrait être étendue à la détection d'autres types d'infrastructures ou à l'identification des évolutions de plusieurs natures sur le territoire, offrant ainsi de nouvelles perspectives d'innovation. Les capacités de l’IA permettent de générer des couches cartographiques détaillées qui peuvent être utilisées pour des analyses approfondies et des prises de décision éclairées dans le domaine de la planification urbaine et de la gestion des infrastructures par exemple.
    En somme, ce projet met en évidence l’importance croissante de l’intégration de l’intelligence artificielle dans nos systèmes d’information, soulignant notamment son rôle essentiel dans le traitement et l’analyse des données. En s’emparant de l’IA, les experts de l’Institut développent des solutions innovantes et efficaces, offrant un soutien précieux pour relever les défis complexes de notre société. 

    À propos des réseaux de neurones

    En intelligence artificielle, les réseaux de neurones sont inspirés du fonctionnement du cerveau humain. Nous pouvons les imaginer comme des modèles mathématiques qui apprennent à identifier des images. Ces réseaux sont composés de « neurones », qui sont des unités de traitement de l'information.
    Lorsqu'on entraîne un réseau de neurones pour la reconnaissance d'images, on lui fournit un ensemble de données d'images, chacune étiquetée avec des informations sur son contenu. Le réseau apprend à reconnaître des motifs et des caractéristiques dans ces images grâce à des couches successives de neurones.
    Les images sont converties en données numériques et alimentées dans la première couche du réseau. Chaque neurone dans cette couche réagit à des aspects spécifiques de l'image, comme les bords, les couleurs, ou d'autres caractéristiques simples.
    L'information est ensuite transmise aux couches suivantes, où des combinaisons de caractéristiques plus complexes sont identifiées. Plus le réseau est entraîné avec des données variées, plus il devient capable de reconnaître des objets, des formes ou des structures dans les images.
    Lorsqu'il est confronté à une nouvelle image, le réseau applique ce qu'il a appris pour identifier et étiqueter automatiquement le contenu de l'image. C'est ainsi que fonctionne, de manière simplifiée, un réseau de neurones pour la reconnaissance d'images en intelligence artificielle.

    Un réseau de neurones se divise en trois parties.

    1. Couche d'entrée :
    La couche d'entrée est le point d'entrée des données dans un réseau de neurones. Elle est composée de neurones qui reçoivent les données brutes et les transmettent aux couches suivantes. Le nombre de neurones dans la couche d'entrée est généralement égal au nombre de “features” (caractéristiques) dans les données.

    2. Couches cachées :
    Les couches cachées sont situées entre la couche d'entrée et la couche de sortie. Elles sont composées de neurones qui effectuent des calculs complexes sur les données afin d'extraire des caractéristiques plus abstraites et de les transmettre à la couche suivante. Un réseau de neurones peut avoir une ou plusieurs couches cachées. Le nombre de couches cachées et le nombre de neurones par couche sont des hyperparamètres qui doivent être optimisés pour obtenir de bonnes performances.

    3. Couche de sortie :
    La couche de sortie est la dernière couche du réseau de neurones. Elle est composée de neurones qui produisent la prédiction finale du réseau. Le nombre de neurones dans la couche de sortie dépend du type de problème que le réseau de neurones est censé résoudre. Par exemple, pour un problème de classification à 3 classes, il y aura trois neurones dans la couche de sortie, un pour chaque classe.
     

    Entrainement d’un réseau de neurones à partir d’images de trois classes différentes (parking, dépôt sauvage, cimetière)

    Le réseau de neurones va s’alimenter avec les images labelisées des trois classes pour créer « son propre algorithme » afin d'apprendre à différencier ces trois types d’objet.

    Prédiction

    Une fois le réseau entraîné, on injecte une image de type parking, dépôt sauvage ou cimetière, inconnue des données d’entraînement, et le réseau sera en mesure d’identifier l’image et de la classer dans la bonne catégorie.
     

    Cette page est reliée aux catégories suivantes :
    Aménagement et territoires | Information géographique et 3D | Chronique & dossier