Académie d’Alsace des Sciences, Lettres et Arts

Ingérence de l'intelligence artificielle dans la recherche scientifique

Par Daniel Guinier
Expert de justice honoraire, ancien expert devant la Cour pénale Internationale de La Haye, chargé d'enseignement universitaire et conférencier

Soutenues par la convergence technologique, les avancées spectaculaires en intelligence artificielle (IA) semblent offrir des opportunités pour la recherche et la connaissance scientifiques, notamment avec les grands modèles de langage génératifs, qui constituent une des approches les plus prometteuses. Les futurs systèmes d'IA pourraient accompagner les chercheurs dans leurs activités, vu la croissance non contenue de la littérature scientifique, avec actuellement plusieurs millions d'items publiés annuellement. Il s'agit avant tout de pallier les limitations de la faculté à retrouver, analyser et comprendre ces informations, et combler l'écart grandissant entre la croissance considérable du nombre d'articles scientifiques publiés et la constance de la capacité cognitive humaine. Le processus scientifique serait décomposé en tâches remarquables pour récupérer et synthétiser des connaissances externes, en tenant compte des objectifs, des préférences et connaissances propres aux chercheurs. A terme, ces derniers n'auraient qu'à exploiter des systèmes d'IA pour surmonter les limites de leurs capacités cognitives, détecter les sources et les articles pertinents, mais aussi pour générer des hypothèses, suggérer des orientations, etc.

Un tel changement de paradigme, pouvant être considéré comme une ingérence dans la science, capable de bouleverser la recherche scientifique et d'en influencer la trajectoire, invite à une réflexion de fond. Il s'agit de s'interroger sur la capacité de l'IA de conduire à un enrichissement ou, au contraire, à une réduction de la pensée scientifique humaine, et son impact sur la découverte scientifique. La question ultime sera de savoir qui rédigera à terme les articles scientifiques : un chercheur humain ou une IA générative …

Introduction

Des modèles d'IA apparaissent maintenant capables d'apprendre à partir d'informations non structurées, au point de suggérer de bousculer les processus de la recherche scientifique dont les bases fondamentales sont restés inchangées pendant plusieurs siècles. Toutefois, des défis fondamentaux demeurent dans la représentation et la synthèse des connaissances scientifiques, autant que dans la modélisation face à la diversité des tâches, des contextes et des processus cognitifs impliqués dans la production des connaissances scientifiques et les découvertes.

Actuellement les domaines explorés sont limités par des biais cognitifs qui relèvent de la rationalité limitée de la pensée, quand certaines décisions individuelles comportent une part d'irrationalité et des biais, notamment lorsqu'il s'agit de traiter de grands flux d’informations, de compenser les limites de la mémoire humaine, et de décider rapidement.

Les biais cognitifs et le manque d'outils pour guider et élargir l'attention des chercheurs, constituant ainsi des lacunes en termes de connaissances, un écosystème scientifique élargi par l'IA, serait en mesure d'améliorer les performances des chercheurs sur des tâches essentielles et d'ouvrir un espace à explorer plus étendu dans davantage de directions. La découverte de perspectives inédites portant leur attention vers des sujets opportuns dépend de modèles d'apprentissage automatique et de prédiction capables de récupérer et synthétiser les connaissances par de nouvelles approches informatiques computationnelles. Il est beaucoup attendu des grands modèles de langage génératifs (LLM) et de leurs progrès dans la capacité à raisonner sur des tâches complexes.

La recherche des connaissances scientifiques

Le monde scientifique, constitué en communautés, génère des connaissances formelles de diverses façons : publications, actes de conférences, dépôts en ligne, etc., mais aussi des traces numériques de la pensée et du comportement. Ceux-ci sont associés à des signes d'intérêt : citations, téléchargements, et à des échanges et critiques lors de discussions au travers divers canaux de communications publics (ex. médias sociaux) et privés (ex. courriels, messages en ligne). La façon dont les chercheurs utilisent ces informations pour générer des idées relève d'un ensemble de processus cognitifs complexes, associés à leurs propres connaissances et préférences, et à des biais partiellement compris.

Essentiellement toutes les connaissances scientifiques ont migré dans l'espace numérique. Le volume d'informations qui en résulte, confronté à une capacité cognitive insuffisante pour l'assimiler, aboutit à une surcharge d'informations qui contribue à consumer l'attention des chercheurs. Cette tendance peut les entraîner dans des choix de domaines plus restreints ou dans des perspectives spécifiques sans envisager d'alternatives ou d'exploration de sujets nouveaux. Par ailleurs, les décisions reposent sur une évaluation subjective de la faisabilité des objectifs de recherche et sur des intérêts et des facteurs psychologiques personnels. Ceci montre la complexité d'atténuer les biais et les limitations de renforcer les mécanismes créatifs.

Aussi des outils de récupération de connaissances scientifiques sont envisagés, guidés par des tâches et des activités scientifiques remarquables. T. Hope et al. (2023) ont montré les possibilités de certains dans des tâches d'identification et de hiérarchisation des problèmes, de formulation de directions, de recherches dans la littérature scientifique, d'assimilation de nouveaux concepts, d'expérimentation et d'analyse (ex. modélisation, prédiction, etc.), de production (ex. techniques, théories), et de communication de résultats de recherche (ex. articles, communications, etc.). Ils ont indiqué les limites des outils existants et les défis restants, tout en soulignant que "de petits progrès débloqueront d'immenses opportunités pour réaliser des avancées aux frontières de la science".

A ce jour, on est encore loin de systèmes disposant d'une intelligence artificielle générale (IAG) complète, bien qu'aucune définition d'IAG ne soit encore exempte de controverses.

Concernant la recherche dans la littérature scientifique, des systèmes d'IA sont à développer en utilisant les techniques de compréhension du langage naturel pour aider les chercheurs à obtenir des éléments pertinents et à accélérer le processus de revue systématique. Les modèles neuronaux de traitement du langage construits à partir d'un apprentissage fondé sur de grands corpus de publications ont déjà permis d'améliorer les performances, et même d'ajouter de nouvelles fonctionnalités aux systèmes documentaires les plus avancés. Ils ont également été formés pour faire correspondre les aspects abstraits de paires d'articles et de récupérer automatiquement des éléments similaires. Des résultats remarquables ont ainsi été obtenus avec une représentation alignée sur la pensée scientifique dans plusieurs domaines (ex. biologie, informatique).

Dans le futur, ces systèmes devraient pouvoir automatiquement identifier, filtrer et classer les informations pertinentes pour les chercheurs. Ils devraient aussi faciliter la collaboration et le partage des données, des résultats et des idées, et faciliter la communication scientifique, notamment en générant automatiquement des résumés, et au-delà des présentations et des articles à partir des résultats de la recherche.

L'état et les défis de l'IA générative à l'exemple de GPT-4

Étant donné les défis auxquels nous sommes confrontés, nous aurons besoin de la diversité des recherches en IA pour des avancées scientifiques suffisantes. L'IA générative est un type de système d'IA parmi d'autres, capable de créer du texte et d'autres codes, des images ou d'autres médias, en réponse à des demandes encore humaines pour l'instant. Un modèle génératif est bâti à partir d'une grande quantité de données d'un domaine donné pour être capable de générer des données similaires.

C'est notamment le cas du modèle récent GPT-4 (Generative Pre-trained Transformer-4), qui montre des possibilités impressionnantes dans divers domaines : mathématiques, informatique, médecine, etc. Il fait suite au modèle précédent GPT-3 qui a conduit à ChatGPT, constitué de l’association d'un modèle de langage servant à générer du texte ou du code à partir d'un apprentissage fondé sur des calculs appliqués à des quantités de données en masse, et d'un espace de dialogue instantané permettant aux utilisateurs de formuler leurs questions. D'un usage intuitif il est en mesure de réagir à des questions multiformes. C'est quatre mois après son lancement qu'une nouvelle étape cruciale a été franchie avec la sortie de GPT-4, qui est en mesure de résoudre des tâches plus difficiles, sans directives particulières, dépassant de loin ChatGPT.

GPT-4 est présenté par OpenAI (2023) comme un modèle multimodal à grande échelle "qui affiche des performances de niveau humain sur diverses références professionnelles et académiques", et paradoxalement "moins performant que les êtres humains dans de nombreuses situations". S. Bubeck et al. (2023), considèrent qu'il pourrait être vu comme une version préliminaire incomplète et limitée d'un système d'intelligence artificielle générale (IAG). Des défis importants restent à relever pour être en mesure de progresser dans ce sens, y compris en envisageant un nouveau bon technique bien au-delà de la simple prédiction du mot suivant, pour pallier les absences de plaification et les défauts inhérents au principe de prédiction qui sous-tend son architecture. Aussi, une compréhension de la nature et des mécanismes sous-jacents à "l'intelligence" est attendue au travers de l'évaluation des capacités cognitives de ces modèles, plus proches de celles des humains que les premiers modèles d'IA.

La difficulté majeure pour rendre une IA intelligible réside dans l'explication de son processus computationnel complexe à un être humain, selon Weld et Bansal (2019). C'est un défi pour la confiance et le contrôle par les êtres humains. Il invite à une collaboration entre chercheurs de différentes disciplines. En outre, l'intelligibilité est en mesure de favoriser la détection d'erreurs et l'établissement des responsabilités attachées à l'IA. En Europe, elle se justifie en respect du règlement général sur la protection des données (RGPD).

L'éthique et la sécurité

Il faut d'abord rappeler que la nature de la science et de la connaissance s'inscrit dans un processus dynamique évolutif. Dans leur démarche scientifique rigoureuse, les chercheurs avancent en remettant en question leurs propres idées, avec humilité en reconnaissent leur capacité de se tromper tout en s'efforçant de minimiser ces erreurs, avec méthode pour éviter certains biais cognitifs et écarts de raisonnement, et avec prudence et vigilance dans la quête de connaissance et la collecte d'informations scientifiques. Cela s'inscrit parfaitement dans la phrase de R. Nuzzo et al. (2015) : "la science est une course permanente entre notre capacité à nous tromper et notre capacité à éviter de nous tromper". Il reste à savoir quelle seront la place et la perspective de l'IA dans tout cela. Le monde de la recherche doit profondément s'interroger sur l'avenir de la science, avant que les technologies d'IA ne soient profondément ancrées dans les activités scientifiques, avec des conséquences encore difficiles à cerner.

Une éthique globale sera utile pour apprécier les propriétés de neutralité et les motivations autour de la pertinence du recours à des systèmes complexes où convergent diverses techniques associées à des algorithmes et systèmes artificiels dits "intelligents", lesquels pourraient évoluer en toute indépendance. L'éthique se doit d'anticiper les risques en s'appuyant sur des préceptes moraux et sociaux. Concernant l'éthique morale, il s'agira de considérer la compétition et la concurrence, et les relations d'intérêt réciproques, tout en s'intéressant à l'existence d'éventuels risques masqués. La transparence et l'équité d'origine s'imposent concernant les algorithmes d'IA et les sources des données d'apprentissage, ce qui n'est pas encore le cas de ChatGPT. Concernant d'éthique sociale, il s'agira de considérer la formation et l'information des chercheurs et autres acteurs, associées à la vigilance pour éviter les erreurs, ainsi que la loyauté de l'ensemble des parties.

Aussi, les systèmes d'IA utilisés dans la recherche scientifique devront respecter l'éthique et ne pas biaiser, ni influencer les résultats de recherche. Ils devront respecter la vie privée et la confidentialité des chercheurs et des sujets de recherche, et éviter les biais discriminatoires dans la collecte et l'analyse des connaissances. Les chercheurs devront également avertir de l'utilisation de l'IA dans leurs travaux et de la façon dont elle a influencé leur processus de recherche et leurs résultats.

D'une façon générale, la sécurité des systèmes, des données et de leur environnement est délicate, compte tenu de la complexité. Elle est indispensable vu les enjeux et la nécessité du respect des lois et règlements. Il paraîtrait donc souhaitable d'établir une certification adaptée aux systèmes d'IA dans le cadre de leur cycle, de la conception à l'utilisation, et des nouvelles menaces à l'encontre de la cybersécurité pouvant engendrer des sorties erronées ou capturer des résultats de recherches avancées, de façon illégale.

Conclusion

Après des décennies d'errance et plusieurs vagues successives, l'IA semble vouloir s'imposer dans presque tous les secteurs d'activité. C'est également le cas des sciences, dont le champ s'élargit, avec des difficultés pour les chercheurs de suivre tous les développements et tirer avantage de l'ensemble des corpus scientifiques. Il est vrai que l'abondance de la production de littérature scientifique entrave leur attention. La recherche de connaissances guidée par les tâches est une ambition où l'IA pourrait offrir des opportunités pour accélérer le processus de recherche, extraire des idées et formuler des solutions, vu les avancées dans les modèles de traitement du langage, les systèmes de recherche d'information, les systèmes génératifs, etc.

Ainsi, les systèmes fondés sur l'IA se substitueront probablement aux méthodes informatiques existantes, en faisant notamment appel à un corpus croissant de mots-clés, pour aider à la découverte de la connaissance scientifique et aborder la complexité des processus cognitifs orientés vers des objectifs scientifiques dans divers contextes. Si ces nouveaux outils visent ici à étendre les capacités humaines dans les sciences et à guider les chercheurs, il faudra veiller à ce que ces derniers ne se voient pas privés moindrement de pensée scientifique, ou soumis à une orientation algorithmique ou un choix de données dirigé. Dans l'immédiat, de nombreux défis sont à relever pour concrétiser cette vision qui nécessite une collaboration entre les chercheurs et les développeurs des ces technologies.

Enfin, le risque avec l'IA de résultats ternes et d'orientations communes peu surprenantes ne s'accorderait guère avec une science usant d'intelligence collective, de travail en équipe, et de discussions enthousiastes informelles dans les laboratoires et dans des lieux privilégiés pour les rencontres en marge des congrès scientifiques. N'est-il pas vrai aussi que les grandes découvertes ont parfois découlé de hasard, voire d'erreurs, d'accidents, etc. ? Cette aptitude, dénommée "sérendipité", apparaît comme une manière irrationnelle de faire des découvertes, qui dépend néanmoins de l'ouverture d'esprit des chercheurs, sans oublier la part de "génie". Ceci implique pour l'IA de posséder un certain degré de liberté, et d'autonomie, en particulier pour réaliser des améliorations lors de cycles d'apprentissage, avec des précautions, en particulier en termes d'éthique et de sécurité.

Nul doute que l'humilité de l'industrie de l'IA est essentielle à l'alignement de l'IA sur les valeurs de la science. Dans un proche futur, c'est au prix d'un partage entre des humains plus confiants et une IA avancée et maîtrisée que nous pourrons constater des améliorations dans l'approche de la science, en gardant à l'esprit que l'ingéniosité humaine s'impose à la découverte.

Références

Bubeck S et al. 2023. Sparks of artificial general intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

Gil Y. 2022. Will AI write scientific papers in the future?, AI Magazine, 42(4), 3-15.

Guinier D. 1984. Bibliométrie - Analyse statistique des structures, du contenu et de l'évolution d'un fichier bibliographique d'un laboratoire de recherche en biologie. Documentaliste,21(3), 101-105.

Guinier D. 2022. L'odyssée de l'intelligence artificielle - Anticiper le futur en évitant les écueils appris du passé, Expertises, 475, 32-37.

Hope T et al. 2023. computational inflection for scientific discovery, Communications of the ACM, 66(8), 62-73.

Kahneman D. 2011. Thinking fast and slow, Allen Lane, 542 p.

Nuzzo R et al. 2015. How scientists fool themselves - and how they can stop. Nature, 526(7572), 182–185.

OpenAI. 2023. GPT-4 technical report. arXiv preprint arXiv:2303.08774.

Weld DS et Bansal G. 2019. The challenge of crafting intelligible intelligence. Communications of the ACM, 62(6), 70–79.

L'Edito

Traduire, c'est relier

Le Prix Maurice-Betz 2023 de traduction a été remis samedi 7 octobre à Colmar à Antonin Bechler, professeur de langue et littérature japonaises à l’Université de Strasbourg, traducteur du grand écrivain Kenzaburô Ôé, Prix Nobel de littérature en 1994.

Le Maire de Colmar, parrain et partenaire de la cérémonie, et le Consul général du Japon étaient présents. La manifestation prenait place dans le cadre du festival régional de traduction «D’une langue vers l’autre ».

En ces temps géopolitiquement troublés, il est important de valoriser la traduction. Car la traduction ouvre les horizons géographiques et culturels, elle relie les humains aux ancrages si différents, elle honore des figures universelles de la pensée et de la littérature. La traduction enrichit la polyphonie du monde.

Le Colmarien Maurice Betz (1898-1946, photo ci-dessus), écrivain et traducteur (de Rainer Maria Rilke, Thomas Mann, Friedrich Nietzsche), passeur entre les langues française et allemande en des périodes pourtant conflictuelles, est un symbole précieux pour notre région. Alors que le Goethe Institut a décidé de fermer son antenne strasbourgeoise, nous avons à veiller à l’ouverture rhénane et européenne de l’Alsace.

Le Prix Maurice-Betz de l’Académie d’Alsace existe depuis 1957 et a distingué des dizaines d’écrivains, poètes, traducteurs. Au-delà des remises de diplômes et des moments de convivialité qui les accompagnent, c’est un travail en profondeur qui s’accomplit, dans le meilleur des traditions humanistes d’ouverture et de rayonnement.

Bernard Reumaux
Président de l’Académie d’Alsace

Invitation à l’Agora du 19 novembre 2019

Affichage Web Affichage Mobile

Déconnexion Modifier