10/04/2019

Grand débat : l’intelligence artificielle au service de l’intelligence collective ?

Entretien avec Anne Bouverot

Interviewé

Anne Bouverot - contributeur externe

Présidente du Conseil d'Administration de Technicolor et Présidente de la Fondation Abeona

Le Premier ministre Edouard Philippe a présenté, lundi 8 avril, la synthèse du grand débat national. Au total, 1,5 million de Français auront participé à cet exercice, produisant une quantité colossale de données non structurées à analyser. Afin de les traiter, le gouvernement a fait appel à des entreprises d’intelligence artificielle spécialisées dans le traitement de texte. Dans ce billet, Anne Bouverot, Senior Advisor chez TowerBrook Capital Partners, nous explique le fonctionnement de ces systèmes.

Comment a fonctionné l'intelligence artificielle en charge de traiter les résultats du grand débat national ?

Presque deux millions de contributions ont été reçues sur le site internet du grand débat national, et plus de 16 000 communes ont mis en place des cahiers de doléances. Nous avons donc de gros volumes de données non structurées, en langage naturel. C’est une situation dans laquelle l’intelligence artificielle (IA) est très efficace – les assistants virtuels ou chatbots nous permettent d’obtenir des informations lorsqu’on réserve un voyage ou effectue un achat en ligne, et Google translate ou autres outils permettent de traduire des textes facilement. Par ailleurs, l’IA sait traiter ces données en un temps réduit – en l’occurrence en deux semaines environ pour les données du grand débat.

Nous avons donc de gros volumes de données non structurées, en langage naturel. C’est une situation dans laquelle l’intelligence artificielle (IA) est très efficace.

Le processus est le suivant. Concernant les contributions manuscrites, les cahiers de doléances sont d’abord numérisés par la Bibliothèque nationale de France et son partenaire, Numen (spécialiste de la digitalisation de documents). Pour ce faire, l’entreprise utilise des logiciels de reconnaissance d’écriture manuscrite. Ces textes sont ensuite analysés et classifiés par les sociétés Cognito et Bluenote.

Concernant les contributions sur le site internet dédié, elles sont directement en format numérique. Elles sont confiées à la société de sondage OpinionWay et son partenaire en intelligence artificielle, Qwam. Il y a, d’une part, des questions à choix multiples pour lesquelles il est assez facile d’analyser les réponses, et, d’autre part, des textes traités par des moteurs d’extraction de mots et de concepts, en s’appuyant sur un référentiel de termes défini à l’avance. Cela permet un regroupement en un certain nombre de catégories, par exemple "impôts", "hôpitaux", "vote blanc", etc.

Quels sont les risques associés ?

Les programmes de reconnaissance et d’analyse de textes ne sont pas nouveaux et fonctionnent en général assez bien. Malgré tout, il y a des risques de confusion et d’incompréhension. Par exemple, faut-il lire "fracture" ou "facture" sur ce cahier de doléances ? Faut-il classer un texte tel que "je suis plutôt d’accord, mais en fait" dans les "pour" ou les "contre" la taxe carbone ? Et comment s’assurer que le système d’IA prenne bien en compte les émotions, la colère, l’ironie ?

Par ailleurs, toute classification représente des choix – combien de catégories, quels en sont les mots-clés ? Par exemple est-ce que les termes "allocations familiales" et "quotient familial" doivent être regroupés ? Est-ce que "le service public" est différent des "services publics" ? Faut-il créer une catégorie pour le crédit d’impôts pour l’emploi d’une personne à domicile, ou regrouper cela dans les "niches fiscales" ?

Y a-t-il des enjeux de représentativité et comment y faire face ?

Il y a en effet plusieurs enjeux. Premièrement, comme dans tout processus public et ouvert de ce type, certains peuvent essayer de pousser une idée en menant des campagnes très actives de communication,via les réseaux sociaux, les chaînes Whatsapp ou des envois groupés par mail, afin que de nombreuses personnes publient un seul et même texte défendant une idée précise. Par exemple, de toute évidence, un groupe s’est mobilisé pour la suppression de la limitation à 80 km/h sur les routes départementales : nous retrouvons un texte qui a été repris à l’identique par des milliers de contributeurs. Heureusement, l’intelligence artificielle retrouve très facilement les textes identiques (contrairement à des textes différents défendant la même idée), et peut mettre en lumière de telles stratégies d’influence. Cependant, il reste à décider ce qu’on en fait.

Il y a ensuite un deuxième enjeu de représentativité, plus profond. Ces contributions proviennent d’environ 1,5 million de personnes. C’est beaucoup bien sûr, mais c’est une fraction de la population française. Concernant les contributions sur le site internet, nous n’avons pas de données pour les classer par âge, genre, niveau de ressources… La seule information demandée est le code postal. Dès lors, une des choses que l’on observe est que Paris et les grandes villes sont un peu plus représentées.

Par ailleurs, pour les réunions publiques, le Cevipof a entrepris des sondages auprès des participants de 240 débats : il s’agit d’une majorité d’hommes, âgés de plus de 50 ans, en activité ou retraités, ayant fait des études supérieures et propriétaires de leur logement. On peut dire qu’il y a un risque de biais, avec une sous-représentation des populations jeunes, des chômeurs, des femmes et des personnes moins diplômées. Est-ce que ces personnes auraient les mêmes inquiétudes et propositions ? Par exemple, la demande de baisse de la fiscalité serait-elle ressortie de manière aussi visible ?

Là, ce n’est pas le cas, parce que l’objectif du gouvernement, en organisant ce grand débat, était de permettre à celles et ceux qui le souhaitaient de s’exprimer, et d’en laisser une trace écrite. Ce n’était pas de faire un sondage, ni de recueillir des votes.

Lorsqu’on mène un sondage, on regarde avec attention tous ces éléments et on modifie les pondérations. C’est ce que l’on appelle un redressement statistique, qui vise à obtenir des éléments représentatifs de la population. Là, ce n’est pas le cas, parce que l’objectif du gouvernement, en organisant ce grand débat, était de permettre à celles et ceux qui le souhaitaient de s’exprimer, et d’en laisser une trace écrite. Ce n’était pas de faire un sondage, ni de recueillir des votes. La synthèse du grand débat fait donc ressortir des sujets importants pour un grand nombre de citoyens, et le gouvernement va devoir prendre cela en compte. Cependant, il se garde la liberté de choisir les directions dans lesquelles il souhaite avancer.

Quel est le produit fini, et que reste-t-il à faire pour arriver à des conclusions ?

Ce ne sont pas les logiciels d’intelligence artificielle qui vont produire la synthèse du grand débat ! Les sociétés mentionnées plus haut - qui sont toutes françaises d’ailleurs, ce qui montre le dynamisme de l’écosystème national en IA - permettent de transformer l’écriture manuscrite en textes, puis de regrouper ces textes en catégories principales le plus pertinentes possibles, avec une idée du nombre de contributions par catégories. Ensuite, plusieurs cabinets (Roland Berger, Res Publica, Missions Publiques) analysent cela et produisent une synthèse. Même avec l’aide de l’intelligence artificielle, cet exercice est compliqué : en ressortiront beaucoup d’idées intéressantes, dans les domaines de la consultation comme dans d’autres. Il va toutefois y avoir des propositions contradictoires entre elles. Enfin, comme nous l’avons vu, il est difficile de déterminer dans quelle mesure ces propositions sont représentatives.

Ce ne sont pas les logiciels d’intelligence artificielle qui vont produire la synthèse du grand débat !

Les contributions sont disponibles en ligne mais il est important, pour la crédibilité du processus, que la transparence ne s’arrête pas là : il faut que les versions manuscrites soient également accessibles en ligne (c’est prévu), mais aussi que les résultats des analyses et regroupements de textes en catégories soient rendus publics. C’est-à-dire que, pour une catégorie donnée, par exemple "niches fiscales", le public doit pouvoir avoir accès à l’intégralité des textes qu’elle rassemble.

Il faudra aussi que les différentes entreprises ayant participé à ce travail de classification et de synthèse soient très ouvertes et puissent répondre à des questions concernant leur mode de travail, leurs outils, les difficultés qu’elles ont rencontrées, etc. L’idée est que des tierces parties, associations, chercheurs indépendants, puissent accéder à ces données, aux résultats intermédiaires et aux résultats finaux, pour pouvoir confirmer – ou non ! – la qualité et la neutralité de leur traitement.