ChatGPT dans la rédaction scientifique l Blog Excelia

Pédagogie

Jean MOUSSAVOU, Professeur le 09 janvier 2024

L'adaptation aux progrès technologiques n'est pas une spécificité des sociétés modernes : elle fait partie de l'histoire humaine depuis nos premiers écrits - même dans les intrigues des mythes et légendes antiques. Alors que ChatGPT menace de bouleverser notre façon d’écrire et les activités liées à l'écriture, les Mésopotamiens, qui vivaient il y a 4 000 ans au centre de l'Irak moderne, ont traversé ce type de changement avant nous.

On attribue l'invention de l'écriture à leur civilisation [25]. A certains égards, la représentation des progrès technologiques dans l’invention de l’écriture fait écho aux préoccupations actuelles concernant ChatGPT (Chatbot Generative Pre-trained Transformer), une application d'intelligence artificielle conçue pour générer des réponses textuelles à la demande des utilisateurs.

ChatGPT se présente comme un outil permettant la production automatisée de textes écrits inédits, tels que des essais et autres manuscrits littéraires, journalistiques et même scientifiques [20]. Nous sommes inondés de débats et de déclarations d’experts sur les implications possibles de cet outil dans différents domaines. Des acteurs de tous bords semblent enthousiastes à expérimenter cette technologie dans leurs domaines respectifs. Cependant, le sujet est nouveau et controversé. Des inquiétudes émergent de toute part depuis le début de sa spectaculaire médiatisation en 2022 (bien que sa conception et son ouverture au public datent de 2020). Dans le paysage de l’enseignement supérieur, l’une des plus grandes inquiétudes porte sur l’appropriation par les étudiants, voire par les enseignants-chercheurs, de la paternité d’un texte généré par ChatGPT [22] . Des revues prestigieuses se sont d’ailleurs très vite préoccupées des implications de ChatGPT dans la littérature scientifique [20, 6], y compris la prise en compte de ChatGPT comme co-auteur [15, 4].

Dans cette contribution, fruit d’un recensement de la littérature universitaire, nous discutons de l'état actuel des connaissances sur l’utilisation de ChatGPT dans la recherche scientifique, en soulignant les tendances et les développements récents dans ce domaine. Nous discutons également des implications possibles en faveur de ChatGPT, mais aussi des limites potentielles. L'article s'ajoute au débat public en cours sur les impacts de ChaptGPT dans notre société. En comprenant le potentiel et les limites de cet outil, nous pouvons prendre des décisions éclairées sur la façon de l’utiliser de manière vertueuse et responsable.

Le champ des possibles, pour un gain de temps au profit du chercheur

Bien que ChatGPT ne puisse remplacer la pensée critique du chercheur, ni sa capacité à interpréter les résultats d’une recherche, à discuter de ses conclusions sur la base des meilleures preuves scientifiques disponibles, ChatGPT est néanmoins décrit comme un outil prometteur à la fois dans la rédaction scientifique et dans le processus de recherche lui-même.

Dans la rédaction scientifique

ChatGPT peut fournir une aide au chercheur dans l’identification d’une littérature pertinente [2, 12, 24], en générant des résumés d'articles, ou en recommandant une liste d'articles pertinents, en fonction de la requête du chercheur. Un champ d'application possible est celui des revues systématiques ou les méta-analyses, pour lesquelles ChatGPT peut fournir une aide dans l’identification rapide des contributions pertinentes à inclure dans l’analyse. ChatGPT peut aider également à fournir une réponse rapide à des questions spécifiques à un domaine particulier, permettant au chercheur une compréhension rapide de l'état actuel des connaissances dans le domaine, et d’identifier, le cas échéant, les lacunes potentielles à combler. Enfin, ChatGPT peut aider à établir une première ébauche de la rédaction scientifique, et même suggérer des titres selon les requêtes du chercheur [5, 12]. Cependant, une telle facilité doit constituer un simple point de départ avant une prise en main de l’intelligence humaine.

En effet, le texte généré automatiquement est loin de se substituer à la créativité et à la pensée réflexive du chercheur. En outre, en déléguant un tel processus à ChatGPT, nous prenons le risque d’éloigner l’apprentissage de la rédaction académique en général et des objectifs didactiques visés dans certains travaux. C’est notamment le cas des mémoires de recherche et autres thèses professionnelles, qui visent à développer les capacités d’analyse et de synthèse des apprenants.

Pendant le processus de recherche

ChatGPT peut fournir une aide à la collecte de données de masse sur Internet (exemples, les conversations sur les réseaux sociaux, les articles de presse, etc) [5, 12]. Dans la phase d’analyse de données, ChatGPT peut fournir une aide dans presque tous les cas d'analyse et de classification des données qualitatives. Ainsi, dans le cadre des données textuelles, ChatGPT peut aider à l’identification de modèles ou de thèmes non perceptibles immédiatement par le chercheur. ChatGPT peut également aider à l’analyse des images dans la reconnaissance de formes, à identifier les sentiments, les émotions. Dans l’analyse de données quantitatives, ChatGPT peut aider à l’identification des tendances dans les données [5].

De fait, une potentialité évidente de ChatGPT est de permettre au chercheur de gagner du temps dans certaines étapes de la recherche, en l’occurrence, celles ne nécessitant pas davantage l’activité ou l'intelligence humaine. Bien sûr, l’énumération des potentialités de ChatGPT développées ici ne prétend pas à l’exhaustivité. A l'avenir, de nombreuses fonctionnalités pourront encore émerger et soutenir la communauté de chercheurs. ChatGPT soulève également de nombreuses limites qui doivent être prises en compte pour s'assurer de sa bonne utilisation.

Des points de vigilance…pour une utilisation éthique et responsable

L'utilisation de ChatGPT dans la rédaction scientifique doit être abordée à la lumière de différentes limites à même de compromettre la qualité des productions scientifiques.

Tout d’abord, ChatGPT a cette propension à générer des contenus biaisés ou erronés [19, 21 , 23]. En effet, ChatGPT, à l’image de l’ensemble des modèles conversationnels basés sur l'intelligence artificielle (IA), est généralement décrit comme un "perroquet stochastique" [3] rassemblant et régurgitant des séquences linguistiques observées dans de gigantesques bases de connaissances, sans intelligence réelle ni conscience.

De plus, le manque de transparence dans le processus de génération de textes justifie de qualifier ChatGPT de "boîte noire" [21 , 23, 22, 7].

Ainsi, en l'absence d'un esprit humain expert et critique, ChatGPT présente le risque d'amplifier les biais ou les inexactitudes éventuels existants dans les données. Or, fournir des résultats scientifiques à partir de données biaisées ou erronées conduit naturellement à entraver l’intégrité scientifique. Cet inconvénient peut s’avérer particulièrement préjudiciable aux acteurs (académiques, praticiens et autres décideurs politiques ou privés, etc.) susceptibles de se servir des données ainsi publiées pour prendre des décisions.

Une autre lacune de ChatGPT porte sur la base des connaissances mobilisées sur Internet, qui peut potentiellement être limitée. En effet, certains documents récents peuvent ne pas être accessibles à ChatGPT, notamment lorsque ceux-ci sont hébergés sur les bases de données payantes des éditeurs. Ce qui est le cas pour un certain nombre de revues scientifiques. De plus, les éditeurs en libre accès envisagent de supprimer l’accès de ChatGPT à leurs ressources, dans le but d'atténuer les préoccupations éthiques [19]. Or, pour certains domaines portés par les progrès récents pour stimuler les connaissances nouvelles ou l’innovation, un tel déficit d'information peut constituer une limite majeure, d’autant plus que ChatGPT ne génère aucune connaissance nouvelle, si ce n’est celles basées sur des contenus existants. Cette situation pourrait potentiellement exacerber le manque d'innovation et de créativité dans certains domaines.

L'attribution de la paternité des contenus générés par ChatGPT constitue un autre enjeu, plus spécifiquement en termes de droits d'auteur [10, 21 , 18]. En effet, lorsqu’un utilisateur fournit des données d'entrée à ChatGPT et que ChatGPT génère un contenu basé sur cette entrée, cela pourrait faire valoir que le chercheur détient les droits d'auteur sur le contenu généré. Cependant, si ChatGPT génère du contenu indépendamment de l'entrée du chercheur, c’est notamment le cas si l'entrée fournie reste très limitée (par exemple, "rédiger un essai sur tel ou tel sujet"), il peut s’avérer plus difficile de déterminer la propriété. Dans un tel cas, il apparaitrait nécessaire d'inclure ChatGPT, au minimum, en tant que co-auteur du contenu généré [9]. Cependant, l’option consistant à répertorier ChatGPT comme auteur (ou co-auteur) ne semble pas acceptable sur la base des directives du COPE (Committee on Publication Ethics : https://publicationethics.org/) pour déterminer la paternité. Ceci est lié à l’idée que la paternité d’une œuvre intellectuelle implique des obligations légales qui ne sont pas remplies par ChatGPT [13]. Cependant, certains chercheurs suggèrent tout de même la possibilité d'inclure ChatGPT en tant qu'auteur dans certains cas précis [18]. Ainsi, plusieurs cas de pré-publications ou d’articles effectivement publiés ont pu attribuer une paternité officielle à ChatGPT (Stokel-Walker). Néanmoins, la désapprobation d'inclure ChatGPT ou tout autre outil d’IA dans la listes des auteurs a été clairement expliquée dans les politiques éditoriales de certaines revues prestigieuses. Par exemple, les revues Science, Nature et The Lancet, qui qualifient une telle pratique d'inconduite scientifique. Ce point de vue est d’ailleurs repris par de nombreux scientifiques [24, 22]. De plus, l’incroyable développement des outils d'IA tel que ChatGPT peut entraîner une prolifération de "productions intellectuelles" générées par l'IA, susceptible de menacer l'intégrité scientifique en introduisant des biais ou des erreurs potentiellement difficiles à identifier [13].

L’absence de citations ou de référencement à des sources [05] éditoriales constitue une autre lacune dans les développements actuels de ChatGPT [17, 8, 10]. Bien que les versions futures de ChatGPT puissent potentiellement fournir une telle fonctionnalité, il est important de considérer les conséquences potentielles de s'appuyer uniquement sur un outil automatisé comme ChatGPT sans fournir les sources. En effet, l'intégrité scientifique étant l'un des piliers fondamentaux du monde académique, s’inspirer de textes à partir de sources sans les citer reste inconcevable. Les pratiques de citation dans l’univers de la recherche académique sont un aspect essentiel du travail scientifique, car servant à plusieurs fins.

stop-plagiat Notamment, elles permettent de démontrer que le chercheur a pris connaissance des travaux existants sur un sujet particulier. Citer des sources est également un moyen d’asseoir le travail du chercheur sur celui de ses pairs afin de lui donner une crédibilité scientifique. Enfin, lorsque les lecteurs ou les éditeurs ont des doutes sur la validité d'une affirmation ou d'un argument, ils peuvent se référer aux citations fournies pour vérifier et évaluer la crédibilité du travail. Les problèmes de plagiat [7, 17], qui découlent de problèmes de droit d'auteur, sont également à prendre en considération dans l’utilisation de ChatGPT.

Ceux-ci ne se limitent pas au seul Copier Coller d’un texte, mais comprend également les paraphrases de textes, d'idées ou de toute reproduction d’une œuvre appartenant à autrui. Néanmoins, un travail de recherche scientifique étant le plus souvent cumulatif, il est naturel pour le chercheur de rapporter les découvertes, les déclarations ou les travaux produits par ses pairs. Par conséquent, si les auteurs originels sont crédités dans le texte, le plagiat ne pourrait être impliqué [17]. Selon les arguments ci-dessus, les contenus générés par ChatGPT peuvent donc être assimilés à du plagiat, puisque ChatGPT fait abstraction de toute citation dans la génération des textes. Cependant, ChatGPT peut également être programmé pour éviter de reformuler les textes de manière similaire aux sources ou auteurs d’origines. Une telle utilisation ChatGPT ne peut être acceptable. En effet, il s’agit là d’une violation de l'intégrité scientifique.

La capacité limitée de ChatGPT à intégrer/comprendre le contexte pose également problème. Les contenus générés par ChatGPT sont en effet basés sur de grandes quantités de données, qui impliquent que ChatGPT n'aura pas le même niveau de compréhension du contexte que l’humain. Par exemple, si un utilisateur pose une question ambiguë ou peu claire (par exemple, "j’ai mangé un avocat avec mon avocat dans un restaurant "), ChatGPT ne saura être en mesure de comprendre pleinement le contexte et de fournir une argumentation cohérente. De même, si un chercheur utilise des sarcasmes dans sa requête, ChatGPT ne saura être en mesure de détecter le ton et fournir une réponse appropriée. Cette lacune peut donc avoir un impact sur la précision et l'utilité de ChatGPT dans certains cas.

Enfin, l'effet Matthieu" (Matthew Effect), qui fait référence à la tendance des chercheurs avec un nombre de citations élevé à continuer à être cités fréquemment, tandis que les chercheurs moins cités auront toujours du mal à accroitre la fréquence des citations et obtenir la reconnaissance [14], peut perpétuer les inégalités existantes dans le milieu universitaire [09]. Par exemple, Google Scholar utilise un système de classement basé sur les citations, et l'effet Matthieu est particulièrement perceptible, les articles les plus cités apparaissant en premier dans les résultats des requêtes. De manière similaire, une application comme ChatGPT, qui utilise la récurrence des contenus comme facteur pour déterminer quels textes retenir, peut exacerber cet effet. Par conséquent, il semble crucial que les chercheurs continuent à s'engager dans un examen minutieux et approfondi de la littérature, même lorsqu'ils utilisent ChatGPT. Cela pourrait contribuer à prévenir la perpétuation des inégalités entre chercheurs dans la visibilité de leur travaux [11].

Un futur prometteur, mais un appel à la prudence

ChatGPT présente un potentiel dans l’aide à la rédaction scientifique. Il peut jouer un rôle d'accompagnement dans divers cas d'utilisation. Cependant, certaines limites subsistent avec des implications potentielles sur l’intégrité académique et la qualité des productions scientifiques. Le potentiel de ChatGPT est certainement loin d’être pleinement exploré et de nombreuses opportunités existent. Au fur et à mesure de ses développements, il sera crucial de calibrer les attentes concernant ses capacités, et de reconnaître qu'il ne pourra jamais assumer toutes les activités du chercheur. La rédaction scientifique exige des connaissances spécialisées, des idées ou des opinions innovantes nécessitant toujours une touche humaine ne pouvant être remplacée par l'IA.

Références: [1] Aczel, B.; Wagenmakers, E. (2023). Transparency Guidance for ChatGPT Usage in Scientific Writing. PsyArXiv, Preprint. [Google Scholar] [2] Aydın, O.; Karaarslan, E.(2022). OpenAI ChatGPT generated literature review: Digital twin in healthcare. SSRN, 2022; Preprint. [Google Scholar] [3] Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Proceedings of the ACM Conference on Fairness, Accountability, and Transparency, 2021, 610–623. https://doi.org/10.1145/3442188.3445922 [4] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J. D., Dhariwal, P., ... & Amodei, D. (2020). Language models are few-shot learners. Advances in neural information processing systems, 33, 1877-1901. [Google Scholar] 11 LETTRE DE PROSPECTIVE 12 [5] Burger, B., Kanbach, D.K., Kraus, S., Breier, M. & Corvello, V. (2023). On the use of AI-based tools like ChatGPT to support management research, European Journal of Innovation Management, 26(7), 233-241. https://doi.org/10.1108/EJIM-02-2023-0156 [6] Domingos, P. (2018). The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World, 1st ed.; Basic Books, A Member of the Perseus Books Group: New York, NY, USA, p. 329. [Google Scholar] [7] Gao, C.A.; Howard, F.M.; Markov, N.S.; Dyer, E.C.; Ramesh, S.; Luo, Y.; Pearson, A.T. (2022). Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers. bioRxiv. [Google Scholar] [8] Ha, T. (2022). An explainable artificial-intelligence-based approach to investigating factors that influence the citation of papers. Technological Forecasting and Social Change, 184, article 121974. https://doi.org/10.1016/j.techfore.2022.121974 [9] Hugenholtz, P. B., & Quintais, J. P. (2021). Copyright and artificial creation: Does EU copyright law protect AI-assisted output? International Review of Intellectual Property and Competition Law, 52, 1190- 1216. https://doi.org/10.1007/s40319-021-01115-0 [10] Hyland, K. (1999). Academic attribution: Citation and the construction of disciplinary knowledge. Applied Linguistics, 20(3), 341-367. https://doi.org/10.1093/applin/20.3.341 [11] Lund, B. D. (2022). Is academic research and publishing still leaving developing countries behind? Accountability in Research, 29(4), 224-231. https://doi.org/10.1080/08989621.2021.1913124 [12] Lund, B. D., & Wang, T. (2023). Chatting about ChatGPT: how may AI and GPT impact academia and libraries?. Library Hi Tech News, ahead-of-print. [Google Scholar] [13] Müller, V. C. (2021). Ethics of Artificial Intelligence and Robotics. E. N. Zalta, The Stanford Encyclopedia of Philosophy (Summer 2021). Metaphysics Research Lab, Stanford University. https://plato.stanford.edu/archives/sum2021/entries/ethics-ai/ [14] Merton, R. K. (1968). The Matthew Effect in Science: The reward and communication systems of science are considered, Science, 159(3810), 56-63. https://doi.org/10.1126/science.159.3810.56 [15] OpenAI. OpenAI: Models GPT-4. Available online: https://beta.openai.com/docs/models (accessed on 14 April 2023). [16] Perc, M. (2014). The Matthew effect in empirical data. Journal of the Royal Society Interface, 11(98). https://doi.org/10.1098/rsif.2014.0378 [17] Pertile, S., Moreira, V. P., & Rosso, P. (2015). Comparing and combing content- and citation- based approaches for plagiarism detection, Journal of the Association for Information Science and Technology, 67(10), 2511-2526. https://doi.org/10.1002/asi.23593 [18] Polonsky, M. J., & Rotman, J. D. (2023). Should Artificial Intelligent Agents be Your Co-author? Arguments in Favour, Informed by ChatGPT. Australasian Marketing Journal, 14413582231167882.. [Google Scholar] [19] Quinio, B., & Bidan, M. (Jan 2023). ChatGPT : Un robot conversationnel peut-il enseigner ? Management et Datascience, 7(1). https://doi.org/10.36863/mds.a.22060. [20] Sarker, I. H. (2022). Ai-based modeling: Techniques, applications and research issues towards automation, intelligent and smart systems. SN Computer Science, 3(2), 158. [Google Scholar] [21] Stokel-Walker, C.; Van Noorden, R. (2023). What ChatGPT and generative AI mean for science.Nature, 614, 214–216. [Google Scholar] [22] Stokel-Walker C. (2023). ChatGPT listed as author on research papers: many scientists disapprove, Nature, 613(7945), 620-621. https://doi.org/10.1038/d41586-023-00107-z [23] The Lancet Digital Health (2023). ChatGPT: Friend or foe? Lancet Digit. Health, 5, e112–e114. [Google Scholar] [24] Thorp, H. (2023). ChatGPT is fun, but not an author. Science, 379(6630), 313. https://doi.org/10.1126/science.adg7879 [25] The J. Paul Getty Museum (2021). Mesopotamia : Civilization Begins. https://www.getty.edu/art/exhibitions/mesopotamia/explore.htm