Menu

TechnocITé
Nos formations
Nos services entreprise
Infos pratiques
Validation des Compétences
 
 

Avec le soutien de

Hainaut Wallonie Agoria
forem fse InterregIV
Cefora
feder
 

Bruno Schröder est directeur technologique de Microsoft BeLux et responsable des projets de développements économiques depuis plusieurs d’années. Membre du groupe des Technology Officers de Microsoft, il garde un œil aiguisé sur les évolutions du monde actuel et porte un regard critique sur la manière dont s’effectue la mutation des savoirs à l’aune du numérique. À l’occasion de la conférence qu’il a donné au Mundaneum dans le cadre de l’exposition Renaissance 2.0, voyage aux origines du web, nous avons souhaité l’interroger sur une série de problématiques liées aux nouveaux paradigmes de la Société de l’Information : Big Data, Open Data, moteurs de recherche, obsolescence des formats de données, Cloud, Internet des Objets, autant de concepts fondamentaux pour comprendre les enjeux d’aujourd’hui et de demain.

- Le traitement du Big Data, ces énormes masses de données dont on peut tirer des résultats pertinents par le biais de techniques d’analyse poussées, est devenu un enjeu majeur pour les développeurs de logiciels. Quel est e point de vue de Microsoft sur cette problématique ?

bruno-schroder-portraitBruno Schroder : Le Big Data est un enjeu important. C’est un thème très présent dans le monde scientifique et il est la base de ce que l’on appelle le quatrième paradigme scientifique. Actuellement, nous sommes dans l’ère de la découverte de phénomènes nouveaux qui sont rendus visibles grâce à l’exploration des données et non plus, comme par le passé, grâce à la modélisation des lois physiques ou à l’observation empirique. Cette méthode nouvelle est à l’œuvre dans le monde scientifique et, depuis peu, dans le monde de l’entreprise. Elle permet notamment d’étudier certaines longues séries afin de trouver des mécanismes encore inconnus. Par exemple, à l’occasion d’un projet de recherche mené par Microsoft, nous avons pu découvrir des interactions médicamenteuses complètement inconnues jusqu’alors. Lorsqu’on associe des processus d’apprentissage automatique (ce que l’on appelle du machine learning en anglais) avec des grandes quantités de données afin d’identifier des patterns récurrents, cela permet de déceler des choses qui passaient jusque là inaperçues. De cette manière, en étudiant les statistiques de retour des patients dans un hôpital dans les trente jours suivant la première admission mais pour une pathologie différente, on a pu déceler les causes probables de ces retours (infections bactériennes, mauvaise hygiène) en croisant un grand nombre de données différentes.

En outre, il existe aujourd’hui un autre phénomène en croissance : le Big Data social. Il s’agit de l’exploitation d’une grande quantité de données, disponibles de manière publique, en vue de révéler certains comportements précis. Par exemple, la chaine Target, aux Etats-Unis, qui a utilisé les comportements d’achat et les données reprises sur les cartes de fidélité afin d’identifier les femmes enceintes dans le but de faire de la publicité ciblée. Cela fonctionne tellement bien que la publicité pouvait arriver avant même que la famille ne soit officiellement au courant de la grossesse, ce qui pose bien entendu un certain nombre de questions éthiques sur la violation de la vie privée. Et pourtant, cette méthode ne se base que sur une série de données publiques, divulguées de manière volontaire. Mais il n’existe pas encore nécessairement une acceptation sociale de la mise en lumière de choses qui sommeillent dans des données publiques mais qui ne sont pas encore « révélées » car les données n’ont pas été croisées et mises en relation.

Donc, dans les nouveaux types de savoirs qui voient le jour, il y a toute une part de ce que le monde digital peut nous apprendre à notre sujet et cela représente une nouvelle catégorie d’informations que nous n’avons pas encore appris à intégrer socialement.  

- Quels types de défis technologiques posent l’essor incroyable des données et leur partage à grande échelle en temps réel ? On sait notamment qu’en termes de recherche une très grande part des données disponibles sur le web sont tout simplement inaccessibles et constituent ce que l’on appelle le « web invisible », soit près de 85% de la totalité des contenus mis sur la Toile.

Sur la question de l’accessibilité des données aux moteurs de recherche, il ne faut pas oublier la question de la propriété de celles-ci et de la propriété intellectuelle qui entrent en ligne de compte. Il y a aussi le caractère historique de certaines données qui fait qu’elles sont difficilement disponibles. Le mouvement Open Data a pour objectif notamment de récupérer d’anciennes bases de données et de les transposer dans un format exploitable, ce qui constitue le véritable enjeu qui sous-tend cette problématique.

Par ailleurs, on oublie souvent que derrière les indexeurs, il y a un modèle business. Quoique Google puisse dire au sujet de sa volonté d’indexer le savoir dans sa totalité, l’indexation est surtout un moyen d’obtenir des informations sur les utilisateurs de manière à rendre les publicités plus efficaces. Tout le modèle économique de Google est basé sur l’efficacité publicitaire et la monétisation à travers la publicité

Bing présente un modèle différent, basé sur les services et la vente de logiciels. Microsoft ne se positionne pas dans un modèle de profilage des utilisateurs, en commercialisant les accès sur base de la détection de leurs centres d’intérêts, par le biais des requêtes provenant des recherches. Le modèle Google ne propose donc pas d’indexer la totalité des données existantes mais bien d’augmenter l’efficacité publicitaire, avec toutes les contraintes de rentabilité que cela implique. N’est donc indexé que ce qui est porteur de sens dans cette logique là. D’où l’intérêt pour un chercheur d’utiliser des indexeurs différents, spécialisés.

Ce modèle de profilage mis en œuvre par Google marche bien au niveau du chiffre d’affaire mais il ne peut fonctionner que tant que les personnes qui utilisent le service de recherche de Google ne comprennent pas ce qu’ils font et continuent à révéler des informations à leur insu. À l’opposé de cette logique, Microsoft, avec Bing, est dans une logique d’identification et de mise à disposition volontaire des informations par les utilisateurs du service.

Cependant, un grand nombre d’acteurs de l’industrie ne souhaite pas s’engager dans cette voie et rendre le processus transparent. Il y a donc un certain obscurantisme qui se perpétue.

- Le développement très rapide des technologies, des matériels et des formats n’entraine-t-il pas un risque d’obsolescence accéléré des données, de « perte de mémoire » généralisée ? Comment garantir que les données numérisées aujourd’hui sous un format (propriétaire ou non) soient encore lisibles dans vingt ou cinquante ans lorsque les matériels et les normes auront évolué ?

Ce problème n’est pas trop compliqué à résoudre car, à partir du moment où les données sont au format numérique, elles peuvent être récupérées et traduites dans d’autres formats. Le Cloud est là pour répondre à ce problème en termes de stockage.

La vraie question problématique par contre reste celle de l’accès aux médias physiques qui ne seraient plus utilisables (bandes magnétiques ou VHS, cartes perforées, etc.). Il est nécessaire de préserver les équipements de lecture et procéder à un travail de migration.

 

La conférence de Bruno Schröder organisée au Mundaneum le 12 décembre 2012

JavaScript est désactivé!
Pour afficher ce contenu, vous devez utiliser un navigateur compatible avec JavaScript.