La promesse exagérée de ce que l'on appelle l'exploration de données impartiale


Le lauréat du prix Nobel Richard Feynman a un jour demandé à ses étudiants de Caltech de calculer la probabilité que, s’il sortait de la salle de classe, la première voiture du parking aurait une plaque d’immatriculation spécifique, par exemple 6ZNA74. En supposant que chaque chiffre et chaque lettre soient également probables et déterminés indépendamment, les étudiants ont estimé la probabilité d'être inférieure à 1 sur 17 millions. Lorsque les élèves ont terminé leurs calculs, Feynman a révélé que la probabilité correcte était de 1: Il avait vu cette plaque d'immatriculation alors qu'il se rendait en classe. Quelque chose d'extrêmement improbable n'est pas du tout improbable si cela s'est déjà produit.

Le piège Feynman, qui consiste à piller des données pour des motifs sans aucune idée préconçue de ce que l’on cherche, est le talon d’Achille des études fondées sur l’exploration de données. Trouver quelque chose d'inhabituel ou d'étonnant après que cela se soit déjà produit n'est ni inhabituel ni étonnant. On trouvera sûrement des modèles, et ils seront probablement trompeurs, absurdes ou pires.

Dans son livre best-seller de 2001 Bon à génial, Jim Collins a comparé 11 sociétés qui avaient surperformé le marché boursier global au cours des 40 dernières années à 11 autres sociétés. Il a identifié cinq traits distinctifs que les entreprises prospères avaient en commun. "Nous n'avons pas commencé ce projet avec une théorie à tester ou à prouver", se vante Collins. "Nous avons cherché à élaborer une théorie à partir de la base, directement issue des preuves."

Il entra dans le piège Feynman. Lorsque nous regardons dans le passé un groupe d’entreprises, qu’il s’agisse de la meilleure ou de la pire des sociétés, nous pouvons toujours trouver des caractéristiques communes, ce qui prouve qu’elles ne prouvent rien du tout. Suite à la publication de Bon à génial, la performance des 11 magnifiques actions de Collins a été nettement médiocre: cinq actions ont mieux performé que l’ensemble du marché boursier, tandis que six ont fait pire.

En 2011, Google a créé un programme d'intelligence artificielle appelé Google Flu, qui utilisait des requêtes de recherche pour prédire les épidémies de grippe. Le programme d’exploration de données de Google a examiné 50 millions de requêtes de recherche et a identifié les 45 plus corrélées à l’incidence de la grippe. C'est un autre exemple du piège de l'exploration de données: une étude valide spécifierait les mots-clés à l'avance. Après la publication de son rapport, Google Flu a surestimé le nombre de cas de grippe pour 100 des 108 prochaines semaines, en moyenne de près de 100%. Google Flu ne fait plus de prévisions concernant la grippe.

Un spécialiste du marketing Internet pensait pouvoir augmenter ses revenus en modifiant la couleur de sa page Web bleue traditionnelle en une couleur différente. Après plusieurs semaines d’essais, la société a obtenu un résultat statistiquement significatif: l’Angleterre adore apparemment la sarcelle. En examinant plusieurs couleurs de remplacement pour une centaine de pays, ils se sont assurés qu’ils trouveraient une augmentation des revenus pour certaines couleurs, mais ils ne savaient pas à l’avance si la sarcelle en bois se vendrait davantage en Angleterre. Il s’est avéré que lorsque les pages Web de l’Angleterre ont été changées en bleu sarcelle, les recettes ont chuté.

Une expérience neuroscientifique standard consiste à montrer à un volontaire dans une machine IRM diverses images et à poser des questions sur celles-ci. Les mesures sont bruyantes, captant les signaux magnétiques de l’environnement et des variations de la densité du tissu adipeux dans différentes parties du cerveau. Parfois, ils manquent d'activité cérébrale; parfois ils suggèrent une activité là où il n'y en a pas.

Un étudiant diplômé de Dartmouth a utilisé un appareil d’IRM pour étudier l’activité cérébrale d’un saumon lorsqu’on lui a montré des photographies et posé des questions. La chose la plus intéressante à propos de l’étude n’était pas que le saumon ait été étudié, mais que le saumon était mort. Oui, un saumon mort acheté sur un marché local a été placé dans un appareil d’IRM et certains modèles ont été découverts. Il y avait inévitablement des modèles – et ils étaient invariablement dénués de sens.

En 2018, un professeur d'économie de Yale et un étudiant diplômé ont calculé des corrélations entre les variations quotidiennes des prix du Bitcoin et des centaines d'autres variables financières. Ils ont constaté que les prix des bitcoins présentaient une corrélation positive avec les rendements des stocks dans les industries des biens de consommation et des soins de santé, et une corrélation négative avec les rendements des actions dans les industries des produits fabriqués et des mines de métaux. "Nous ne donnons pas d'explications", a déclaré le professeur, "nous documentons simplement ce comportement." En d'autres termes, ils auraient tout aussi bien pu examiner les corrélations des prix en Bitcoin avec des centaines de listes de numéros de téléphone et avoir signalé les corrélations les plus élevées.

Le directeur du Food and Brand Lab de l’Université Cornell a écrit (ou co-signé) plus de 200 articles évalués par des pairs et écrit deux livres populaires, qui ont été traduits dans plus de 25 langues.

Dans un article publié en 2016 sur le blog intitulé «L'étudiant diplômé qui n'a jamais dit non», il parlait d'un étudiant au doctorat à qui on avait fourni des données recueillies lors d'un buffet italien à volonté.

Une correspondance par courrier est apparue dans laquelle le professeur conseillait aux étudiants diplômés de séparer les convives en «hommes, femmes, déjeuners, dîners, personnes assises seules, personnes mangeant avec des groupes de 2, personnes mangeant en groupe de 2+, personnes commandant de l'alcool , les personnes qui commandent des boissons non alcoolisées, les personnes assises près du buffet, les personnes assises loin, etc. »Elle pourrait ensuite examiner les différences entre ces sous-groupes:« # morceaux de pizza, # voyages, niveau de remplissage d'assiette, ont-ils eu le dessert, ont-ils commandé un verre, et ainsi de suite… »

Il a conclu qu'elle devait «travailler dur et faire couler un peu de sang sur ce rocher». En ne disant jamais non, l'étudiant a fait publier quatre papiers (maintenant appelés «papiers à pizza») avec le professeur Cornell en tant que coauteur. Le journal le plus célèbre rapporte que les hommes consomment 93% de pizza en plus lorsqu'ils mangent avec des femmes. Cela ne s'est pas bien terminé. En septembre 2018, un comité du corps professoral de Cornell a conclu qu'il avait «commis une inconduite académique dans le cadre de ses recherches». Il a démissionné à compter du mois de juin suivant.

Une bonne recherche commence par une idée claire de ce que l’on cherche et s’attend à trouver. L'exploration de données ne fait que rechercher des modèles et en trouve inévitablement.

Le problème est devenu endémique de nos jours car les ordinateurs puissants sont très efficaces pour piller le Big Data. Les Data Miners ont découvert des corrélations entre les mots Twitter ou les requêtes de recherche Google et les activités criminelles, les crises cardiaques, les cours des actions, les résultats des élections, les prix en Bitcoin et les matchs de football. Vous pourriez penser que je fabrique ces exemples. Je ne suis pas.

Il existe des corrélations encore plus fortes avec les nombres purement aléatoires. C'est Big Data Hubris de penser que les corrélations basées sur des données doivent être significatives. Trouver un modèle inhabituel dans le Big Data n'est pas plus convaincant (ni utile) que de trouver une plaque d'immatriculation inhabituelle en dehors de la salle de classe de Feynman.

Opinion câblée publie des articles écrits par des contributeurs extérieurs et représente un large éventail de points de vue. Lire plus d'opinions ici. Soumettez un éditorial à opinion@wired.com


Plus de grandes histoires câblées