eau donnée tarification usager paiement pour services environnementaux
A
Études
Assainissement
Eau potable
TSM 3 2021 - Page(s) 31-36

Analyse textuelle des RPQS pour la constitution de bases de connaissances

Textual analysis of RPQS for the constitution of knowledge bases

Résumé

Le rapport annuel sur le prix et la qualité du service de l’eau (RPQS) constitue une source potentielle pour accéder à des informations indisponibles dans le système d’information des services publics d’eau et d’assainissement (Sispea). Cependant, le format textuel des rapports rend difficile leur exploitation sur plusieurs années ou à grande échelle dans une optique d’analyse de données massives. Notre travail s’intéresse à l’utilisation d’approches de traitement automatique du langage pour puiser de l’information dans ces rapports afin de constituer une base de connaissances à l’échelle soit d’un service, soit de plusieurs services. Cette base peut servir pour valider/compléter en partie les données contenues dans la base Sispea sujette à des erreurs ou à des oublis, mais elle peut également constituer une source qui alimente des modèles prédictifs à des fins d’aide à la décision. Dans cet article, nous développons un programme informatique fondé sur notre solution Ro-CamemBERT (Recurrence over CamemBERT) qui est un modèle de traitement automatique de la langue française basé sur l’apprentissage profond ou « deep learning », ce dernier consiste à faire apprendre à un modèle ou à une machine à partir d’un réseau neuronal artificiel, qui est une architecture spécifique formée de couches qui structurent des fonctions explicatives entre des extrants (variables expliquées) et une masse de données (variables explicatives). Le programme ainsi développé permet de répondre automatiquement à des questions dont les réponses se trouvent potentiellement dans les RPQS. Le décideur peut formuler des questions dont la réponse constitue une donnée recherchée. Il est alors possible de compléter une base de données existante ou d’en créer une nouvelle. Le processus d’analyse des rapports est ainsi automatisé, une évaluation de l’erreur des réponses automatiques est également effectuée pour mesurer l’écart possible entre les réponses obtenues et celles attendues. Le modèle développé apparaît comme fiable à hauteur de 80 %. Il a été testé sur des RPQS de service d’eau en Alsace.

Abstract

The annual report on price and quality of service (RPQS) is a potential source for accessing information that is inaccessible from Sispea. However, the textual format of the reports makes it difficult to use them over several years or on a large scale for a 'big data' analysis. Our work is therefore interested in the use of automatic language processing approaches for natural languages, which enables us to draw information from these reports in order to build up a knowledge base on the scale of one or several services. This database can be used to validate/complete part of the data contained in the national database Sispea, which is subject to errors or omissions, but it can also be a source for feeding predictive models for decision-making purposes. In this article, we develop a computer program based on our Ro-CamemBERT (Recurrence over CamemBERT) solution, which is a model of automatic processing of the French language based on deep learning. The latter consists in making a model or a machine learn from an artificial neural network, which is a specific architecture formed of layers that structure explanatory functions between outputs (explained variables) and a mass of data (explanatory variables). The programme thus developed allows questions to be answered automatically, where the answers can potentially be found in the RPQS. The decision-maker can thus formulate questions whose answers constitute a sought-after quantitative or qualitative datum. It is then possible to complete an existing database or to create a new one. The process of analysing the reports is thus automated, and an evaluation of the error of the automatic responses is also carried out to measure the possible discrepancy between the responses obtained and those expected. The model developed appears to be up to 80% reliable, and has been tested on RPQSs from the Alsace region.

Mots clés : Analyse textuelle, Apprentissage, Base de connaissances, Ro-CamemBERT, RPQS, Sispea
Keywords : Textual analysis, Learning, Database, Ro-CamemBERT, RPQS, Sispea
https://doi.org/10.36904/tsm/202103031

1,4 Sciences des données et connaissances (SDC) – ICube – UMR-CNRS 7357 – Institut national des sciences appliquées (INSA) – Strasbourg

2 Gestion territoriale de l'eau et de l'environnement (GESTE) – UMR MA 8101 ENGEES (École nationale du génie de l'eau et de l'environnement) – Strasbourg

3,5 Conception, Systèmes d’information et Processus inventifs (CSIP) – ICube – UMR-CNRS 7357 – Institut national des sciences appliquées (INSA) – Strasbourg

Dans TSM et sur le même thème
Articles parus dans les cinq dernières années
Acheter l'article 16,00 ou 16
Article paru dans TSM 3 2021
Consulter tout le numéro
Également au sommaire de ce numéro