5G et machine learning : changement de paradigme ?

Regards croisés entre Gilles Babinet et Victor Storchan

Gilles Babinet

Ancien conseiller sur les questions numériques

Victor Storchan

Ingénieur en Machine Learning

D’ici 2030, quelques centaines de milliards d'appareils de notre vie quotidienne (téléphones, tablettes, drones, voitures ou assistants personnels) seront connectés au réseau 5G pour dialoguer entre eux et stockeront les données collectées par leurs capteurs. L'extraction de valeur résidera donc dans notre aptitude à faire évoluer les modèles d’intelligence artificielle (IA). Victor Storchan, Senior Machine Learning Engineer pour une grande banque et Senior Advisor chez Altermind, et Gilles Babinet, conseiller numérique de l’Institut Montaigne, répondent à nos questions sur les conséquences de la 5G pour l’IA.

Pourquoi la 5G est elle une révolution dans la façon dont nos données sont collectées, en amont de leur traitement par les modèles d’IA ?

Victor Storchan

Dans sa forme actuelle, l’IA s’est nourrie d’un volume de données considérable, souvent agrégées sous l’impulsion des entreprises de l’Internet et de la numérisation. Ces données, pour l'essentiel (80 %) sont entreposées dans le cloud, une solution de stockage à distance dont les principaux acteurs sont américains.

Avec l'avènement imminent de la 5G, ce paradigme est sur le point de changer significativement. En effet, la 5G n’est pas un continuum technologique, comme le fut le passage incrémental de la 3G à la 4G. Cette technologie permet le déploiement d’une structure de calcul largement décentralisée au profit de l'Internet des objets, réorganisant la réalité du quotidien (voitures autonomes, assistants vocaux et capteurs en tout genre) et l’espace public (villes intelligentes, réseaux électriques optimisés, réseaux de santé, etc.). De ce fait, nos données migreront massivement du cloud vers un stockage local ou en périphérie (edge), c’est-à-dire proche de la source où elles ont été produites ou proche de l’objet qui en aura l’usage.

La 5G sera donc un facilitateur d’agrégation de données pour la plupart des industries qui n’avaient auparavant pas le luxe de pouvoir les collecter de façon massive afin de les analyser. De plus, cet éparpillement de l’information dans une masse d’objets connectés modifie sensiblement la nature des jeux de données. Ainsi, le nombre, le format ou le type des données qui serviront pour l'entraînement des modèles d’IA variera largement en fonction des préférences des utilisateurs ou des diverses options activées lors de la production de ces données. Il s’agit donc d’une transformation d’un environnement très centralisé, fournissant une qualité homogène de données, en une structure génératrice de edge data, c’est à dire de données par nature biaisées et incomplètes.

Gilles Babinet

Je ne peux que souscrire à ce point de vue ; le numérique est soumis de façon étonnante à une forme de cycle similaire à ce que décrivait l’économiste Nikolaï Kondratiev, c’est à dire un cycle de forte croissance suivi d’une période de dépression. Dans l’environnement numérique, la 5G et intelligence artificielle vont être les facteurs complémentaires d’une bascule profonde, posant de nouvelles opportunités en matière d’innovation, d’économie ou de social. Avec cent milliards d’objets connectés venant s’inscrire dans le réseau d’ici à quelques années, on conçoit assez bien qu’une explosion de données est sur le point de survenir. Ce chiffre impressionnant ne peut trouver sa concrétisation que dans le cadre d’un nouveau contexte technologique où la technologie 5G joue un rôle de premier plan. Ce sujet est loin d’être trivial car la technologie ne fait pas tout ; la capacité des acteurs économique à saisir la rupture de cycle pour créer de nouveaux modèles d’affaires, industrialiser l’inscription de ces objets sur les réseaux, en traiter le volume de données, les sécuriser, reste pour l’instant un défi à relever.

En quoi la 5G changera-t-elle la conception de nos futurs systèmes d’IA ?

Victor Storchan

Historiquement, les plateformes basées sur la publicité ciblée ont remporté la bataille des données personnelles. Technologiquement, ce modèle ne sera pas réplicable dans un contexte industriel qui utilise des données sensibles ou privées largement distribuées dans un réseau, et dont les enjeux de protection sont décisifs. L’Internet des objets, couplé aux nouvelles capacités de stockage local, doit permettre à l’utilisateur de garder le contrôle de ses données uniquement présentes physiquement dans ses appareils.

Des outils sont actuellement à notre disposition pour faire face à ces mutations. Par exemple, l’apprentissage transféré ou transfer learning a pour principe d’utiliser l’information initiale apprise par un algorithme pour la réutiliser sur un jeu de données de nature proche. Par exemple, les caractéristiques des bilans médicaux d’une population de jeunes adultes diffèrent de celles d’un échantillon de séniors. Une partie de l’information d’un modèle entraîné sur le premier groupe sera utile pour le second.

L’apprentissage fédéré (ou federated learning) permet de garder les données sécurisées et anonymes tout en les rendant accessibles pour la recherche : les données sont cryptées et anonymisées pour que le modèle central ne voit ni les vraies données ni ne sache à quel utilisateur elles appartiennent.

Avec la 5G, on pourra par ailleurs résoudre plusieurs défis d’organisation posés par la mise en production de modèles d’IA. Avant la 5G, la multiplication des structures en silos (pays par pays, branche par branche, etc...) et la nature décentralisée des données étaient autant de barrières d’entrée pour une communauté IA qui valorise l’open source et le croisement des données. Mais cette décentralisation présentait plusieurs avantages: agilité, endiguement de phénomènes de propagations ou meilleur respect de la confidentialité des données. Afin de garder le meilleur des deux mondes, l’apprentissage fédéré (ou federated learning), développé initialement en anticipation du déploiement de la 5G, permet de garder les données sécurisées et anonymes tout en les rendant accessibles pour la recherche : les données agrégées depuis différentes sources sont cryptées et anonymisées pour que le modèle central ne voit ni les vraies données ni ne sache à quel utilisateur elles appartiennent.

Initialement pensé pour être distribué sur nos téléphones, le passage à l’échelle de l’apprentissage fédéré se heurtait à des limitations technologiques que la 5G permet de résoudre. Ainsi, la 5G et l’apprentissage fédéré sont complémentaires : la faible latence (délai entre le moment où une information est envoyée et le temps où elle est reçue) et la bande passante élevée que permet la 5G amélioreront la communication nécessaire au bon déploiement de cette innovation d’IA, en dialogue permanent avec les sources de données locales. Elle est en outre une opportunité séduisante de faire profiter massivement le tissu économique local des potentialités de l’IA. C’est en effet le moyen pour différentes parties prenantes de collaborer sans dévoiler leurs atouts stratégiques : des petits acteurs locaux aux capacités de collecte de données limitées et avec un accès à la puissance de calcul réduite peuvent bénéficier d’effets d'échelles d’acteurs plus importants et accroître ainsi la compétitivité d’une filière en mutualisant l'entraînement des modèles d’IA sans révéler leurs données.

Plus généralement, l’évolution de l’IA vers des modèles entraînés à la source de la production de données, plus collaboratifs, moins consommateurs de données et d’énergie, doit à terme simplifier l’adoption de cette technologie par l’industrie.

Gilles Babinet

Comme le relève Victor, le edge computing se pose naturellement comme une architecture très adaptée à des besoins de calcul désynchronisés qui vont être propres aux services d’intelligence artificielle. Pour autant, des questions très complexes restent en suspens quant à la façon dont la resynchronisation de ces données dans le cadre d’un apprentissage machine s’effectuera, notamment en matière de sécurité et de confidentialité. On a vu au travers de quelques incidents médiatisés récents que des entreprises étaient obligés d’écouter des conversations issues d’objets connectés (assistants vocaux…) pour les améliorer. Ces problèmes ne sont pas incidents, et faute d’innovations technologiques majeures permettant d’industrialiser les notions de federated learning, ils risquent de se démultiplier sous différentes formes.

L’enjeu énergétique reste également une grande inconnue ; si rapprocher le calcul peut limiter le transport et faire une économie importante de requêtes du client vers le serveur, il est difficile de supputer de façon claire que ces nouvelles organisations seront optimales du point de vue énergétique.

Enfin, la virtualisation poussée des réseaux privés dans un réseau 5G, si elle semble très élégante, peut potentiellement accroître significativement le profil de risque de ce type d’architecture ; un facteur qui motive probablement les gouvernements de nombreux pays à vouloir limiter la présence d’équipements à risque.

Quels sont les atouts de l’Europe pour déployer ces nouveaux systèmes ?

Gilles Babinet

L’amplitude prévisible de cette évolution est telle qu’elle devrait en théorie aboutir à une réorganisation du marché du numérique. C’est d’ailleurs un test en grandeur nature pour savoir si les acteurs actuellement dominants - les Gafam - maintiendront leurs places à l’issue de l’aboutissement de cette rupture technologique, ou la céderont partiellement à d’autres. Il faut en effet avoir à l’esprit que Apple et Microsoft sont apparu dans un tel cycle (le passage du mainframe - des équipements physiques très encombrants - à la micro-informatique), tandis que Google, Amazon et Facebook sont devenus dominants dans le cadre du cycle qui a suivi (l’émergence des services de cloud).

C’est d’ailleurs un test en grandeur nature pour savoir si les acteurs actuellement dominants - les Gafam - maintiendront leurs places à l’issue de l’aboutissement de cette rupture technologique, ou la céderont partiellement à d’autres.

Le edge computing, conséquence conjuguée de la 5G et de l’IA, pourrait voir de nouvelles catégories d’acteurs émerger, en particulier dans les environnements où les automates sont très répandus. C’est par exemple le cas des environnements industriels, ou ceux des chaînes d’approvisionnement et du transport.

Il sera intéressant d’observer comment les écosystèmes technologiques parviennent à se fédérer pour parvenir à saisir cette opportunité. Ainsi, l’Allemagne semble chercher une voie permettant de mutualiser les environnements de données industrielles de sorte à faciliter le développement de l’apprentissage machine dans le monde industriel. Thierry Breton semble avoir perçu qu’il existe un trou de souris dans lequel une coordination européenne, si celle-ci était intelligente, pourrait permettre de bénéficier fortement de cette rupture de cycle. Encore une fois, si rien ne bouge d’ici quelques années, nous devrions avoir une démonstration aboutie de l'existence d’une situation de monopole préjudiciable à l’innovation et au fonctionnement juste du marché.

Victor Storchan

Les télécommunications ont depuis toujours été au coeur de la stratégie européenne d’innovation et illustrent l’excellence de sa recherche. Dès 1865, la Convention télégraphique internationale était signée à Paris entre 20 pays européens et le vieux continent se dotait ainsi de la toute première organisation internationale de l’Histoire. Nous sommes aujourd’hui à un point d’inflexion et, en réaffirmant sa capacité d’initiative, l’Europe peut faire de cette prochaine vague technologique la démonstration que l'innovation n’est pas un jeu à somme nulle mais un moyen d’augmenter globalement le niveau de vie tout en promouvant des valeurs sociales fortes. La 5G rebat les cartes et l’Europe a des atouts. Thierry Breton a rappelé qu’elle détient plus de 50% des brevets sur la 5G contre 30 % pour les chinois et 16 % pour les américains. De même, la recherche européenne a toujours été la plus grande pourvoyeuse d’article en IA, comme le montre le rapport AI Index 2019 de Stanford.

Copyright : HECTOR RETAMAL / AFP