vendredi 11 mars 2016 - par Automates Intelligents (JP Baquiast)

La recherche assistée des causes, une nouvelle façon de penser le monde

Face aux faits de nature, fussent-ils observés par l'intermédiaire d'instruments qui procèdent à une première sélection, la science élabore de nombreuses hypothèses permettant de les expliquer.

A partir de ces hypothèses, elle propose des expériences dont certaines, en cas de succès, peuvent apporter certaines réponses vérifiables expérimentalement, mais qui à leur tout soulèveront de nouvelles difficultés. Le cycle est sans fin. Les hypothèses et les expériences reposent généralement sur la recherche de causes permettant soit d'expliquer ce qui est encore incompris, soit même d'envisager, avant même tout recours à l'expérience, de nouveaux domaines dans lesquels des hypothèses elles-mêmes nouvelles pourraient être formulées, puis soumises à l'expérimentation.

La recherche des causes constitue donc un processus essentiel. Les logiciens considèrent qu'elle fait appel à trois modes de raisonnement différents. Il s'agit de processus cognitifs aujourd'hui étudiés avec une nouvelle attention par les sciences du même nom. Le premier de ces modes est l'induction En simplifiant beaucoup, nous dirons que l'induction consiste à déduire des lois par généralisation des observations.

Ainsi si l'on observe régulièrement que le coq chante avant le lever du soleil, on en induit la loi (en espèce fausse) que le coq fait lever le soleil. La déduction part d'une affirmation générale pour en arriver à des conclusions particulières. Ainsi, s'il est observé que le coq fait se lever le soleil il est possible d'en déduire que d'autres oiseaux sont dotés de la même propriété. Il conviendra donc de les rechercher.

Le troisième mode est l'abduction (à ne pas confondre avec la prétendue absuction d'humains par des extraterrestres). Celle-ci, face à une observation, produit des idées et des concepts à expliquer. A partir de cette production il est possible de recourir à l'induction et à la déduction. Ainsi, dans l'exemple du coq, l'abduction pourra suggérer que si le soleil se lève tous les matins, c'est en application de règles (astronomiques) ne dépendant pas du chant du coq. Il faudra donc rechercher ces règles. Mais on voit facilement que l'abduction offre un champ quasi infini d'hypothèses possibles. On pourrait par exemple suggérer que le lever du soleil n'est qu'une illusion d'optique, dont il conviendrait de rechercher les causes.

Applications à l'épidémie à Zika.

Ces modes de raisonnement, quels qu'ils soient, n'ont d'intérêt pour la découverte scientifique que si existent auparavant un aussi grand nombre possible de faits nécessitant une explication. Aujourd'hui, la plupart de ces faits d'observations ne sont pas individuels, mais regroupés par catégories. C'est la statistique qui permet ce regroupement. Ce faisant, elle tend à suggérer des hypothèses et des lois.

Aujourd'hui par exemple les statistiques sur l'épidémie à Zika montrent une corrélation entre la présence du virus, lui même transmis par le moustique Tigre, et la microcéphalie du nouveau-né. Il est tentant d'en induire que le virus provoque la malformation. Il sera aussi tentant d'en déduire que le virus peut provoquer d'autres syndromes, dont celui de Guillain-Barré. Les observateurs chercheront donc à vérifier ces deux hypothèses, afin d'en obtenir un début de loi concernant le Zika.

Mais les chercheurs n'ont pas manqué de faire valoir qu'il faudrait pour approfondir la question envisager d'autres hypothèses permettant d'expliquer la corrélation statistique entre Zika, microcéphalie et Syndrome de Guillain Barré. Autrement dit, il faudrait recourir à des abductions. Le champ des hypothèses possibles devient alors, sinon infini, du moins très grand. Certaines hypothèses déjà présentées ont été considérées comme fantaisistes. L'on avait cru établir une corrélation statistique entre les troubles et l'épandage d'insecticides destinés à combattre le moustique. D'autres corrélations plus sérieuses existent peut-être. Mais il faudrait pour les découvrir disposer de statistiques plus nombreuses et plus diversifiées. Certaines corrélations ont été envisagées, mais ce n'est pas l'objet de cet article de les présenter.

Les Big data

Il se trouve qu'aujourd'hui, les faits d'observations et les statistiques de toute nature permettant de les analyser se sont avec les nouvelles technologies multipliées de façon quasi exponentielle. L'on parle depuis quelques années de « Big data ou données en masse » phénomène que nous avons souvent évoquées ici.

Ces données sont évidemment intéressantes, mais en contrepartie il est devenu très difficile de procéder à des abductions sérieuses les concernant. Tout au plus peut-on en induire ou en déduire des corrélations, sans avoir la possibilité, sauf moyens d'observations expérimentaux suffisants, d'en abduire des règles possibles et moins encore de vérifier la pertinence de celles-ci.

C'est ainsi que les statistiques fournies en masse chaque année par les producteurs de Big data concernant l'achat d'aspirine dans les pharmacies permettent de signaler l'établissement d'une épidémie de grippe, mais elles ne donnent pas d'indications sur le rôle effectif de l'aspirine dans le traitement de la grippe. De très nombreuses abductions resteront donc à faire pour suggérer des hypothèses sur la grippe et les différents traitements permettant d'y faire face.

Malheureusement, pour élaborer ces hypothèses, l'épidémiologue aura le plus grand mal à explorer toutes les données statistiques en masse qui permettraient ou ne permettraient pas de suggérer des hypothèses.

Inutile de préciser que dans des domaines plus difficiles, par exemple en cosmologie ou en physique fondamentale, il faudra de nombreuses équipes de chercheurs pour collecter (quand elles sont disponibles) des données d'observation et pour ensuite en tirer des hypothèses. Dans beaucoup de cas,les preuves expérimentales resteront hors de portée actuellement. C'est le cas par exemple en théorie des cordes. Mais l'accumulation de données en masse pouvant suggérer des lois sera néanmoins indispensable.

Les algorithmes pour la découverte des causes

C'est pour faire ce travail qu'interviennent désormais des algorithmes permettant de découvrir (ou tout au moins suggérer) des hypothèses causales. On les désigne en anglais par le terme de causal discovery algorithms.. Ils constituent ce que l'on nomme désormais le Thinking 2.0, compte tenu de la nécessité pour y faire appel de disposer de ressources informatiques et numériques considérables. Mais il faut aussi disposer de méthodes de raisonnement computationnels nouvelles. Sinon l'immersion dans les statistiques ne donnera aucun résultat.

Cest un professeur en informatique et philosophe à l'Université de Californie, Judea Pearl, qui a été à l'origine de cette nouvelle démarche. Sa page personnelle est référencée ci-dessous. Il a mis au point un langage mathématique qui permet de coder directement en ordinateur des algorithmes destinés à explorer les relations causales. Ils peuvent tester avec une certaine sécurité les relations possibles de cause à effet entre les variables. Pour cela, ils génèrent automatiquement un ensemble hypothétique de relations et vérifient leur adéquation avec les données. Ceci, en fonction du nombre des variables, constitue une tâche plus ou moins difficile, hors de la portée des chercheurs non équipés. Avec ces algorithmes, la possibilité de faire apparaître des causes pertinentes aux effets observés s'accroit considérablement.

Pour mettre ceci en application, Pearl et d'autres collègues ont fondé en 2014 le Center for Causal Discovery, Nous y renvoyons le lecteur. Selon eux, il est possible d'y établir à propos d'un même phénomène des millions de modèles, de les expérimenter virtuellement sur la base des Big data disponibles et de les modifier en cas d'échec. L'expérimentation in vivo, c'est-à-dire dans la nature, devient ensuite possible.

Il est inutile de préciser ici les innombrables conséquences, pratiques ou théoriques, qui découleront de l'utilisation et du perfectionnement de ces algorithmes. Nous y reviendrons

Tous les scientifiques devraient en bénéficier. Mais dans un premier temps, les Google, Facebook et, dans le domaine du renseignement, la NSA et la DIA américaines, seront plus que jamais incités à générer des flots démesurés de Big data. Beaucoup de celles-ci n'iront pas dormir dans les serveurs.

Références

* Judea Pearl http://bayes.cs.ucla.edu/jp_home.html

* Center for causal discovery http://www.ccd.pitt.edu/

Jean-Paul Baquiast,10/03/2016



6 réactions


  • Christian Labrune Christian Labrune 11 mars 2016 09:25

    Encore un article fort intéressant, tout comme le précédent à propos d’une « révolution » dans la physique des particules. On hésite quelquefois à laisser un commentaire : quand on n’est pas spécialiste de ces questions, le risque d’être ridicule n’est jamais bien loin, mais on ne laisse pas, tout de même, d’en faire ses choux gras : ça déniaise quelque peu.
    Merci, donc, pour ces informations, toujours précises et bien documentées.


    • baquiast (---.---.50.247) 11 mars 2016 18:57

      @Christian Labrune

      Merci de votre intérêt, n’hésites pas à poser des questions, j’y répondrai si je peux


  • Donbar 11 mars 2016 09:50

    Le titre est peut-être un peu trop prometteur (« penser le monde »), mais l’article est effectivement intéressant.


  • escoe 11 mars 2016 11:05

    Jamais entendu parler du Box & Hunter « Statistics for experimenters » ?


  • Ruut Ruut 11 mars 2016 14:06

    Votre histoire du Coq et du soleil me fait penser a la conclusion lumière et temps.


  • lsga lsga 12 mars 2016 12:02

    Les sceptiques à la David Hume considéraient que la relation de cause à effet n’était que psychologique, et que l’induction ne reposait sur rien. Cette approche est bien entendu totalement puérile.

    Le Big Data va peut-être apporter la preuve que les relations analogiques ne sont pas non plus psychologiques, et que l’étude des ressemblances est tout aussi scientifique que l’étude des causalités. 

Réagir