Concernant les contributions sur le site internet dédié, elles sont directement en format numérique. Elles sont confiées à la société de sondage OpinionWay et son partenaire en intelligence artificielle, Qwam. Il y a, d’une part, des questions à choix multiples pour lesquelles il est assez facile d’analyser les réponses, et, d’autre part, des textes traités par des moteurs d’extraction de mots et de concepts, en s’appuyant sur un référentiel de termes défini à l’avance. Cela permet un regroupement en un certain nombre de catégories, par exemple "impôts", "hôpitaux", "vote blanc", etc.
Quels sont les risques associés ?
Les programmes de reconnaissance et d’analyse de textes ne sont pas nouveaux et fonctionnent en général assez bien. Malgré tout, il y a des risques de confusion et d’incompréhension. Par exemple, faut-il lire "fracture" ou "facture" sur ce cahier de doléances ? Faut-il classer un texte tel que "je suis plutôt d’accord, mais en fait" dans les "pour" ou les "contre" la taxe carbone ? Et comment s’assurer que le système d’IA prenne bien en compte les émotions, la colère, l’ironie ?
Par ailleurs, toute classification représente des choix – combien de catégories, quels en sont les mots-clés ? Par exemple est-ce que les termes "allocations familiales" et "quotient familial" doivent être regroupés ? Est-ce que "le service public" est différent des "services publics" ? Faut-il créer une catégorie pour le crédit d’impôts pour l’emploi d’une personne à domicile, ou regrouper cela dans les "niches fiscales" ?
Y a-t-il des enjeux de représentativité et comment y faire face ?
Il y a en effet plusieurs enjeux. Premièrement, comme dans tout processus public et ouvert de ce type, certains peuvent essayer de pousser une idée en menant des campagnes très actives de communication,via les réseaux sociaux, les chaînes Whatsapp ou des envois groupés par mail, afin que de nombreuses personnes publient un seul et même texte défendant une idée précise. Par exemple, de toute évidence, un groupe s’est mobilisé pour la suppression de la limitation à 80 km/h sur les routes départementales : nous retrouvons un texte qui a été repris à l’identique par des milliers de contributeurs. Heureusement, l’intelligence artificielle retrouve très facilement les textes identiques (contrairement à des textes différents défendant la même idée), et peut mettre en lumière de telles stratégies d’influence. Cependant, il reste à décider ce qu’on en fait.
Il y a ensuite un deuxième enjeu de représentativité, plus profond. Ces contributions proviennent d’environ 1,5 million de personnes. C’est beaucoup bien sûr, mais c’est une fraction de la population française. Concernant les contributions sur le site internet, nous n’avons pas de données pour les classer par âge, genre, niveau de ressources… La seule information demandée est le code postal. Dès lors, une des choses que l’on observe est que Paris et les grandes villes sont un peu plus représentées.
Ajouter un commentaire