Big Data, la révolution des données en marche

Merci à JF Soupizet de nous donner cette fiche de lecture sur Big Data, la révolution des données en marche (de Viktor Mayer-Schonberger & Kenneth Cukier )

source

Cet ouvrage traduit de l’anglais fait le point sur le phénomène des big data ou données de masse et ses implications; il est présenté comme un guide des avantages et des dangers de cette technologie présentée ici comme marquant l’avènement d’une nouvelle ère de la connaissance, à l’image de l’invention de l’imprimerie. (cliquer sur titre pour lire la suite)

Big Data, la révolution des données en marche

  • Viktor Mayer Schonberger Kenneth Cukier
  • Traduction française Editons Robert Laffont Paris SA 2014

Cet ouvrage traduit de l’anglais fait le point sur le phénomène des big data ou données de masse et ses implications; il est présenté comme un guide des avantages et des dangers de cette technologie présentée ici comme marquant l’avènement d’une nouvelle ère de la connaissance, à l’image de l’invention de l’imprimerie.

Les données de masse se réfèrent à ce qui peut être accompli à grande échelle et ne peut l’être à une échelle plus petite. Elles s’appliquent à l’extraction de nouvelles connaissances dans des bases de données, avec des impacts sur les marchés, les organisations, les relations entre les citoyens et les gouvernements. Elles permettent de tirer parti des données disponibles dont les volumes augmentent de manière difficile à imaginer et qui couvrent des champs de plus en plus variés. Ainsi le réseau Facebook enregistre près de 10 millions de photographies chaque heure ou les 800 millions d’utilisateurs de Youtube téléchargent plus d’une heure de vidéo par seconde. Plus généralement on estime que la quantité de données double tous les trois ans.

Pour les auteurs, les données de masse conduisent à trois mutations qui constituent autant de ruptures : la capacité sans précédent de traiter des grands volumes de données, l’abandon de la dictature de l’exactitude et le passage de la causalité à la corrélation.

Historiquement, le traitement des grandes quantités d’informations a été lié aux recensements mais le coût, la durée d’exploitation et le manque de souplesse de ces opérations les ont rendues occasionnelles en dépit des progrès spectaculaires dans l’automatisation de leur traitement ; et dans de nombreux cas, la technique de l’échantillonnage les ont remplacées. En rupture avec cette approche, les données de masse permettent d’exploiter la totalité des informations et de travailler à des niveaux de granularité variables, ouvrant la voie à des observations jusqu’ici impossibles à réaliser.

Ensuite, la masse des données disponibles permet de s’affranchir de la quête de la mesure parfaite et d’accepter certaines imprécisions dans les données exploitées ou des divergences dans leurs structures. Dès à présent les indices de prix établis sur cette méthode par PriceStats concurrencent ceux des instituts traditionnels.

Enfin, le troisième changement concerne l’objet même de la recherche, au lieu de tester une hypothèse émise a priori et qui liait deux phénomènes par une relation de causalité, les données de masse délaissent le pourquoi et ne retiennent que le quoi. L’expérience d’Amazon en matière de recommandations d’achat à ses clients fondées sur les proximités observées par le passé et non sur les analyses des critiques littéraires illustre le caractère opératoire de la démarche.

Les conséquences sont multiples, elles concernent potentiellement tous les domaines qui peuvent tirer un bénéfice d’une prédiction fondée sur les corrélations observées et tout particulièrement la santé, l’économie, les transactions de toute sorte. Elles peuvent aussi avoir une incidence sur des décisions en matière de ressources humaines, en particulier la sélection des sportifs ou même sur des questions touchant aux relations entre personnes.

Au delà, ces technologies présentent des risques que les auteurs classent en trois catégories : la paralysie des mécanismes actuels de protection de la vie privée, la question des personnes présumées futures coupables (en écho au film minority report) et enfin la menace d’une dictature des données. En réponse ils préconisent diverses voies de solution dont la substitution du mécanisme actuel de « notification et consentement » par la mise en place d’une responsabilité légale des utilisateurs de données sur la base d’une déclaration préalable aux traitements de celle-ci. Ils recommandent également d’imposer une traçabilité des opérations d’exploitation des données effectuées pour permettre une réfutabilité des conclusions.

Les données de masse posent d’ailleurs de nombreuses autres questions dont celle de leur valorisation financière, comme l’a montré l’introduction en bourse de Facebook qui a valorisé les informations à hauteur de près de 100$ par utilisateur du réseau.

Les auteurs prennent leur distance avec l’affirmation de Chris Anderson dans « Wired »que l’ère du pétaoctet marquait la fin de la théorie. Il convient sans doute d’être plus prudent encore. Les données de masse ouvrent une nouvelle ère du prédictif, celle dans laquelle une myriade d’évènements feront l’objet d’une probabilité de réalisation qui risque dans bien des cas de se transformer en une quasi-certitude pour les médias, voire d’acquérir un statut de prévision auto réalisatrice.

La démarche connaît pourtant des limites et si elle paraît acceptable pour un événement qui est lui même une somme de micro occurrences, le succès d’une campagne commerciale ou le niveau de risque dans un lieu spécifique par exemple, elle appelle plus que des réserves quand il s’agit d’une occurrence isolée comme la récidive d’un condamné libérable ou la réussite à un examen. Par ailleurs causalité et corrélation ne sont pas des concepts disjoints et la recherche des causalités ne disparaîtra pas au prétexte qu’il serait suffisant de disposer d’une connaissance opératoire de ce qui peut se passer. Le raisonnement qui conduit à lier des données reste une étape du processus et d’ailleurs, les « datascientists » font partie des nouveaux métiers qui émergent dans ce domaine.

En conclusion, les données de masse apparaissent comme une nouvelle vaque technologique comme le numérique en connaît régulièrement. Leur impact ne doit pas être sous estimé et si elles ne prédiront pas l’avenir, elles esquisseront quand même les lignes discernables des scénarios du possible pour ceux qui disposeront des accès et sauront maîtriser la technologie. Naturellement, elles interrogent tout particulièrement les prospectivistes.

Jean-François Soupizet

Voir aussi cette fiche de lecture

Haut de page