Aller au contenu | Aller au menu | Aller à la recherche

Big Data, la révolution des données en marche

Merci à JF Soupizet de nous donner cette fiche de lecture sur Big Data, la révolution des données en marche (de Viktor Mayer-Schonberger & Kenneth Cukier )

source

Cet ouvrage traduit de l’anglais fait le point sur le phénomène des big data ou données de masse et ses implications; il est présenté comme un guide des avantages et des dangers de cette technologie présentée ici comme marquant l’avènement d’une nouvelle ère de la connaissance, à l’image de l’invention de l’imprimerie. (cliquer sur titre pour lire la suite)

Big Data, la révolution des données en marche

  • Viktor Mayer Schonberger Kenneth Cukier
  • Traduction française Editons Robert Laffont Paris SA 2014

Cet ouvrage traduit de l’anglais fait le point sur le phénomène des big data ou données de masse et ses implications; il est présenté comme un guide des avantages et des dangers de cette technologie présentée ici comme marquant l’avènement d’une nouvelle ère de la connaissance, à l’image de l’invention de l’imprimerie.

Les données de masse se réfèrent à ce qui peut être accompli à grande échelle et ne peut l’être à une échelle plus petite. Elles s’appliquent à l’extraction de nouvelles connaissances dans des bases de données, avec des impacts sur les marchés, les organisations, les relations entre les citoyens et les gouvernements. Elles permettent de tirer parti des données disponibles dont les volumes augmentent de manière difficile à imaginer et qui couvrent des champs de plus en plus variés. Ainsi le réseau Facebook enregistre près de 10 millions de photographies chaque heure ou les 800 millions d’utilisateurs de Youtube téléchargent plus d’une heure de vidéo par seconde. Plus généralement on estime que la quantité de données double tous les trois ans.

Pour les auteurs, les données de masse conduisent à trois mutations qui constituent autant de ruptures : la capacité sans précédent de traiter des grands volumes de données, l’abandon de la dictature de l’exactitude et le passage de la causalité à la corrélation.

Historiquement, le traitement des grandes quantités d’informations a été lié aux recensements mais le coût, la durée d’exploitation et le manque de souplesse de ces opérations les ont rendues occasionnelles en dépit des progrès spectaculaires dans l’automatisation de leur traitement ; et dans de nombreux cas, la technique de l’échantillonnage les ont remplacées. En rupture avec cette approche, les données de masse permettent d’exploiter la totalité des informations et de travailler à des niveaux de granularité variables, ouvrant la voie à des observations jusqu’ici impossibles à réaliser.

Ensuite, la masse des données disponibles permet de s’affranchir de la quête de la mesure parfaite et d’accepter certaines imprécisions dans les données exploitées ou des divergences dans leurs structures. Dès à présent les indices de prix établis sur cette méthode par PriceStats concurrencent ceux des instituts traditionnels.

Enfin, le troisième changement concerne l’objet même de la recherche, au lieu de tester une hypothèse émise a priori et qui liait deux phénomènes par une relation de causalité, les données de masse délaissent le pourquoi et ne retiennent que le quoi. L’expérience d’Amazon en matière de recommandations d’achat à ses clients fondées sur les proximités observées par le passé et non sur les analyses des critiques littéraires illustre le caractère opératoire de la démarche.

Les conséquences sont multiples, elles concernent potentiellement tous les domaines qui peuvent tirer un bénéfice d’une prédiction fondée sur les corrélations observées et tout particulièrement la santé, l’économie, les transactions de toute sorte. Elles peuvent aussi avoir une incidence sur des décisions en matière de ressources humaines, en particulier la sélection des sportifs ou même sur des questions touchant aux relations entre personnes.

Au delà, ces technologies présentent des risques que les auteurs classent en trois catégories : la paralysie des mécanismes actuels de protection de la vie privée, la question des personnes présumées futures coupables (en écho au film minority report) et enfin la menace d’une dictature des données. En réponse ils préconisent diverses voies de solution dont la substitution du mécanisme actuel de « notification et consentement » par la mise en place d’une responsabilité légale des utilisateurs de données sur la base d’une déclaration préalable aux traitements de celle-ci. Ils recommandent également d’imposer une traçabilité des opérations d’exploitation des données effectuées pour permettre une réfutabilité des conclusions.

Les données de masse posent d’ailleurs de nombreuses autres questions dont celle de leur valorisation financière, comme l’a montré l’introduction en bourse de Facebook qui a valorisé les informations à hauteur de près de 100$ par utilisateur du réseau.

Les auteurs prennent leur distance avec l’affirmation de Chris Anderson dans « Wired »que l’ère du pétaoctet marquait la fin de la théorie. Il convient sans doute d’être plus prudent encore. Les données de masse ouvrent une nouvelle ère du prédictif, celle dans laquelle une myriade d’évènements feront l’objet d’une probabilité de réalisation qui risque dans bien des cas de se transformer en une quasi-certitude pour les médias, voire d’acquérir un statut de prévision auto réalisatrice.

La démarche connaît pourtant des limites et si elle paraît acceptable pour un événement qui est lui même une somme de micro occurrences, le succès d’une campagne commerciale ou le niveau de risque dans un lieu spécifique par exemple, elle appelle plus que des réserves quand il s’agit d’une occurrence isolée comme la récidive d’un condamné libérable ou la réussite à un examen. Par ailleurs causalité et corrélation ne sont pas des concepts disjoints et la recherche des causalités ne disparaîtra pas au prétexte qu’il serait suffisant de disposer d’une connaissance opératoire de ce qui peut se passer. Le raisonnement qui conduit à lier des données reste une étape du processus et d’ailleurs, les « datascientists » font partie des nouveaux métiers qui émergent dans ce domaine.

En conclusion, les données de masse apparaissent comme une nouvelle vaque technologique comme le numérique en connaît régulièrement. Leur impact ne doit pas être sous estimé et si elles ne prédiront pas l’avenir, elles esquisseront quand même les lignes discernables des scénarios du possible pour ceux qui disposeront des accès et sauront maîtriser la technologie. Naturellement, elles interrogent tout particulièrement les prospectivistes.

Jean-François Soupizet

Voir aussi cette fiche de lecture

Commentaires

1. Le vendredi 13 juin 2014, 20:39 par JPh Immarigeon

Jean-Philippe Immarigeon Ah, voilà quelque chose de capital qui rejoint mes réflexions : l'abandon de la dictature de l'exactitude. Autrement dit : Big Data = incertitude croissante. Or il était admis que l'information est de la néguentropie, à savoir que plus on a d'information mieux on gère le chaos déterministe. L'abandon de l'exactitude avec davantage d'information est donc la fin de ce mythe de la néguentropie, et le pendant inversé des principes de Poincaré puis Bohr et Heisenberg, que l'objectivité maximale s'obtient avec des systèmes informationnellement pauvres. Sauf que poursuivre avec le Big Data pour augmenter l'incertitude en proportion n'a aucun sens, un gamin de 5 ans le comprend, et moi je ne comprends pas ce que tente de montrer l'article, alors que revenir au principe de haute objectivité quantique et de réduction de l'incertitude est ce qu'on cherche, non...? Conclusion : il faut bien tout arrêter en matière de Big Data, la course au chaos étant en train d'être démontrée, même involontairement, par ses propres thuriféraires.

2. Le lundi 16 juin 2014, 00:20 par oodbae

Et comment les auteurs veulent ils imposer une tracabilité des opérations d'exploitation? En créant des données sur cette exploitation et en les exploitant... Le serpent qui se mange la queue.

3. Le vendredi 20 juin 2014, 19:15 par Colin l'Hermet

Je vais, comme souvent, bloquer et pondre un roman sur un micropoint de ce riche éventail.

Ma facilité à gloser sur un arbre quand on me présente une forêt.

[Toutefois, fort libéralement, je vais épargner le lecteur pressé, en délivrant ma conclusion définitive et ras de zinc : sans précautions, le big data mining comporte un risque d’abdication-disparition de l’intelligence, son emploi massif reviendrait à se condamner à tout vouloir garder au point de désapprendre à choisir. Donc perdre notre vision et notre discernement à force de jouer sur les focales.

Fin du résumé]

Début de ma glose

Si j’en crois cet adage que vous avez fait vôtre, comme quoi une idée n’est pas aboutie tant que non écrite, vous devriez suivre et comprendre le raisonnement, quand bien même vous ne serez pas d’accord avec sa finalité.

Car mon souci porte sur la persistance de la distinction entre information et intelligence.

Ainsi le big data ne ferait sortir du mega fatras de données qu’une nouvelle surcouche d’information, pas une analyse intelligente. Simplement des matrices de sens ou des schèmes de flux sémantique entre objets.

Or le mythe prométhéen actuellement en construction-émergence, cette fascination humaine pour sa propre œuvre, s’accompagne d’un mouvement économique (certains espérant un gisement de croissance et d’emplois au titre d’une nouvelle époque sinon au moins comme opportunité de sortie de la crise éco et financière). Or ce mouvement économique consiste comme toujours à concevoir et vendre des nouveaux besoins et les produits plus ou moins accoutumant qui les satisferont, bien évidemment toujours partiellement.

Ainsi nous fournira-ton de l’information et de nouvelles manières de l’agglomérer, pas de l’analyse et de l’intelligence.

En dépit du ridicule consommé de la chose, je me permets de vous renvoyer à une édifiante série de 7 documentaires de 1968 exhumés de l’INA par Les nuits de FranceCulture (diffusion cette semaine entre 1h et 2h GMT) sur l’émergence de la consommation d’information de masse.

Juste pour pointer que :

. la massification-démultiplication de la quantité d’informations est tout sauf nouvelle ;

. le vertige de l’Homme n’est pas nouveau quand il comparait ses capacités cognitives à l’afflux massif de ces informations ;

. que nous ne sommes ni foncièrement plus bêtes ni magistralement plus intelligent qu’en 1960 (on m’objectera que nous sommes =vraiment= plus intelligents, mais cela est normal, simple effet du raffinage générationnel, et ne débouche pas sur variation d’échelle notable).

Nous n’avons rien inventé de tout cela, le contexte présente de nouveau, "simplement" avec une nouvelle ampleur !

Et au contraire d’une opportunité de progrès, je redoute que cette révolution (en reconnaissant que ce pourrait effectivement en être une) ne nous soumette à la tentation de nous planter en beauté à une époque où il faudrait de la volonté et de la finesse, toutes choses démenties par les artefacts techniques et leurs servants ces dernières années.

Car deux points entremêlés sont à rappeler dans le glissement induit par le big data mining :

. le déport de responsabilité (une forme de l’aléa moral) ;

. et les évidentes différences d'échelle dans l’exploitation statistique ("des limites et (...) des réserves quand il s’agit d’une occurrence isolée").

I) Sur le second, admettons que l'émergence d'une matrice de causalités, non pas ex nihilo, mais du fatras de petadata est très imaginable, disons, pour le suivi des travaux du GIEC. On pense global et planétisation, les phénomènes régionaux concernant de grands nombres peuvent emprunter à cette forme de réflexion-exploitation.

Mais dans le cas de phénomènes sociaux, plus "glocaux", de placage =sémantique= (par les acteurs eux-mêmes ou par le spectateur-commentateur) d'un thème global sur une réalité hyperlocalisée, on ne cherche pas l'émergence de matrice nouvelles de causalités, on cherche la vérification d'hypothèses et des martingales de résolution ou d'exploitation.

Qu'on ne me fasse pas croire que le financement de datascreening et datamining vise à l'étude entomologistique de la connaissance du monde.

Nous investissons pour obtenir un retour sur cet investissement, et la "nouvelle société de la connaissance" est un joli conte au regard de l'équation "captage-data-analyse-décision-action" à laquelle est soumise toute activité humaine. Que l'on soit entité commerçante (et j'y intègrerais les dispensateurs d'information) ou Etat constitué, tout acteur est de taille pertinente dès lors qu'il se donne le monde comme terrain de jeu et qu’il développe ses moyens avec l'objectif de se maintenir à cette échelle.

II) Ce qui m'amène au premier point, l'aléa moral et le déport de responsabilité.

Nous avons, pour le dire vite, 3 familles de participants au big data :

. les datagivers ;

. les datascientists ;

. les preneurs de décision.

Les 2 dernières familles sont des sous-ensembles de la 1ere : car tout le monde fournit de la donnée, laisse plus ou moins consciemment une empreinte algorithmique.

En outre la structuration de l'économie fait que les décideurs ne seront pas les datascientists (techniciens d'exploitation, vendeurs de solutions intégrées, ou département ministériel concevant l'architecture et l'armant).

J'ajouterais même perfidement que les décideurs n'auront qu'une vision biaisée et volontairement limitée du système à leur disposition ("pas le temps de chercher comment vous y êtes parvenu, donnez-moi les conclusions et leur taux de certitude") ; c’est le lot de tout échelon décisionnel qui doit avoir renoncé à comprendre en silo pour se focaliser sur une appréhension plus transversale.

Comme nous le savons, nous ne sommes plus en face de résultats, mais de "résul-stats" : on pioche dans les grands nombres, c'est magique et c'est quasi certain (cette soi disant fin de la "tyrannie de l'exactitude" alors qu’en vérité l'on troque simplement un tyran pour un autre). En plus, le changement de focale a fait apparaître des schémas habituellement non discernables à l'oeil.

Bel et bien bon, que tout cela.

Mais, premièrement, nous savons que les datascientists concepteurs sont trop éloignés des analystes pour créer en émulation-synergie un produit valide. Mais que les VRP datascientists le vendent comme tel aux décideurs. Quant aux analystes, ils se sont souvent tenus trop éloignés des critères mathématiques et méthodologiques du datamining naissant pour que la greffe prenne aussi vite que veut le faire croire la fable communicante et commerciale d’une niche économique efficiente (voire optimale, pure et parfaite) de la connaissance.

Deuxièmement, c'est malheureusement faire trop vite fi du "ghost in the machine" et de la déresponsabilisation individuelle toujours croissante en proportion de l'abêtisation par le recours à des systèmes complexes dépositaires et vampires de notre savoir-faire originel (je sais c'est marxiste en diable ce discours sur les proles, mais c'est tellement lumineux qu'on ne peut en faire l'économie).

III) Le problème est que nos sociétés se sont fixées des défis qui ne sont que locaux, au mieux glocaux, et espèrent pouvoir recourir au datamining pour les aborder : espionnage, contreingérence et contreterrorisme, pour les volets politique, fiscal comme sécuritaire.

Le datamining peut se ramener à des mises en relations causales complexes : les couches de catégories de réseaux entre les individus et entités (de flux logistiques, de flux sémantiques, de flux de communication, de flux financiers) ainsi que leur propre mise en réseau selon les critères du temps (quantitatif) et de qualités diverses (qualitatif souvent ramené à des pondérations).

Or l'action finale demeure souvent localisée, par exemple lorsque vous devez établir la nomenclature ou la kill-list de telle ou telle organisation, où vous devez travailler à deux niveaux de focale :

. le datamining pour faire émerger les grandes lignes ou les hypothèses de travail ;

. mais surtout l'affinage de criblage pour s'assurer de la validité de l'hypothèse de départ.

Donc demain autant qu'aujourd'hui nous aurons besoin d'analystes et de traitants de terrain pour cette 2nde passe plus importante que la 1ere car d'échelle similaire à l'action conclusive, celle de l'échelon de référence, l'atomos "individu".

Mais je ne sais pas si nos décideurs, gardiens de temples et autres concepteurs d'architectures futures le savent vraiment bien.

IV) Car nous intuitons tous que l'échelon individuel demeure l'apha et l'oméga. A la fois cible de l'action conclusive (acheteur, homme à abattre, électeur à convaincre, client-administré à servir) et engrenage de la machine de traitement préalable (pupitreur, servant de datamining, analyste de contrôle, décideur), l'individu ne ressortit nullement de l'échelle statistique. Paradoxalement, l'individu participe bel et bien à l'agglomération des grands nombres sur lesquels le datamining est pertinent.

Aussi avons-nous souvent cédé à la tentation de l'élimination du facteur humain dans toutes nos approches systémiques : c'est ce qui découle de tous les "big something" US.

Les moyens en France ne permettent heureusement pas la mise en oeuvre réelle d'un datamining reposant sur l'hyperinflation informationnelle pour tout traiter. Aujourd'hui nous semblons à la croisée des chemins :

. les documentalistes obsessionnels (la reine mère des Archives) pourraient être remplacés par des datawarehouses ;

. les plans de classement par les hyperindexations dynamiques ;

. les exploitations laborieuses par des rhizomes d'arborescences causales 3D ;

. et les analystes par des pushbuttons plus ou moins idiots.

A cette heure, nous avons certains segments (le dernier est bien abouti, nierk), mais il nous manque les moyens pour tout faire en même temps. Tant mieux, cela nous laisserait, si l’on veut bien, le temps de réfléchir à ce qu'il convient de finaliser et à ce qu'il convient d'abandonner en chemin.

A l’opposé de JP.Immarigeon, que je salue, il me paraît de séparer le bon grain et l’ivraie. Nous ne devons pas refuser l’évolution du datamining parce que nous discernons vaguement que ses potentialités dépassent de loin notre échelle d’action et d’appréhension (13 à 20 objets conceptuels à la fois pour des génies, pensez donc !). Mais la première, et la moindre, des méthodologies consiste effectivement à faire jouer notre capacité de =discrimination= avant que de construire la machine qui devra mettre en oeuvre un algorithme qui la singera plus pou moins. Tout n’est pas bon à prendre.

Par ailleurs, les plus fatalistes nous diront qu’on ne pourra y échapper ; alors emboitons-leur le pas et réfléchissons aux travers de cette nouvelle échelle de pratique, afin de nous en garder au mieux.

La datamining devra être, et demeurer, un outil entre les mains d’homo faber. Pas un dieu pour les datagivers assujettis et le nouveau clergé qui croira cyniquement s’en servir alors qu’il sera prisonnier du système malavisé de rente ainsi établi.

En conclusion, en simplicité : paradoxalement, l’intelligence peut se comprendre comme la manière d’inter ligere, lier entre elles les choses, rendre intelligibles les relations entre composants de ce monde sensible.

Pourtant LE risque derrière l'agrégation intelligible du monde complexe, c'est de se condamner à TOUT vouloir garder, ne plus savoir renoncer, désapprendre à CHOISIR. Perdre notre vision et notre discernement à force de jouer sur les focales.

Pirouettons, et emboîtons le pas à P.Valery pour qui seul "un homme qui renonce au monde se met dans la condition de le comprendre" (in Variété, 1924).

On ne saurait être hors et dans.

Un peu comme le pointe Oodbae dans son raisonnement (plus de datamining pour moins de dataminig en somme ?), cela ne déboucherait que sur l’aporie du serpent qui se mord la queue.

Il serait illusoire de croire que la gestion de notre activité va pouvoir passer par la magie d’un bigdatamining, tout en faisant l’économie de la compréhension et du contexte et de la machinerie.

Et il serait dangereux de faire reposer la tentation d’administration du monde sur un fondement si erroné.

L'enjeu du datamining est là./.

Ajouter un commentaire

Le code HTML est affiché comme du texte et les adresses web sont automatiquement transformées.

La discussion continue ailleurs

URL de rétrolien : http://www.egeablog.net/index.php?trackback/1920

Fil des commentaires de ce billet