Reproductibilité en recherche – Assurer la transparence et la crédibilité de votre travail

Lars Vilhuber
Marie Connolly

Invalid Date

Suivez en direct

larsvilhuber.github.io/ecole-d-ete-ciqss-2026/presentation/presentation.html (PDF)

Qui sommes-nous ?

Vos instructeurs

Marie Connolly, UQAM

Lars Vilhuber, Cornell University

Marie Connolly

Professeure titulaire, Sciences économiques, École des sciences de la gestion (ESG), UQAM. Sa recherche porte sur divers sujets en économie du travail, tels que la mobilité intergénérationnelle des revenus, la formation du capital humain, l’écart entre les sexes et la famille, la participation des femmes au marché du travail et l’évaluation des politiques publiques. Elle est la “Data Editor” de la Revue canadienne d’économique.

Lars Vilhuber

Revues

Directeur exécutif du Labor Dynamics Institute et chercheur associé principal au Département d’économie de Cornell University, et Data Editor de l’American Economic Association.

Éditeur de données de l’AEA

2791 manuscrits et 4470 rapports, environ 5000 auteurs contactés.

DCAP

Quelques points pratiques

Langues

  • Toutes les diapositives sont en français
  • La langue principale est le français
  • All questions can be in English
  • All answers will be in the language asked, or in French

Code de conduite

Nous nous engageons à offrir un environnement accueillant et de soutien pour toutes les personnes, indépendamment de leur origine ou de leur identité. En participant à cette équipe, les participants acceptent de respecter le Code de conduite du LDI ReplicationLab et d’accepter les procédures de résolution de tout incident lié au Code de conduite. Toute forme de comportement visant à exclure, intimider ou causer de l’inconfort constitue une violation du Code de conduite. Afin de favoriser un environnement d’apprentissage positif et professionnel, nous encourageons les types de comportements suivants sur toutes les plateformes et lors de tous les événements :

Code de conduite

  • Utiliser un langage accueillant et inclusif
  • Être respectueux des différents points de vue et expériences
  • Accepter gracieusement les critiques constructives
  • Faire preuve de courtoisie et de respect envers les autres membres de la communauté

Si vous pensez que quelqu’un viole le Code de conduite, nous vous demandons de le signaler à nous, au CIQSS (commanditaire) ou à l’ACÉ (hôte).

Walkthrough of the agenda

Today

Tomorrow

  • 13h00 🔒Quand le nettoyage de données est 🔒critique
  • 13h30 Sujet B (voir le sondage)
  • 14h15 Pause
  • 14h30 Pratique : Améliorer le paquet de réplication (très imparfait -> beaucoup mieux)
  • 15h00 Pratique : Tout tester
  • 15h15 Conclusion
  • 16h00 Fin.

Meilleures pratiques

D’abord : pourquoi ?

Pourquoi la reproductibilité ?

  • Crédibilité
  • Transparence (ouverture)
  • Efficacité du discours scientifique ?

Pourquoi la reproductibilité ?

  • Les premières publications (20e siècle) contenaient des tableaux de données, et les mathématiques étaient simples (peut-être)
  • Les données sont devenues électroniques, n’étaient plus incluses ou citées
  • Les mathématiques ont été transcrites en code, et n’étaient plus incluses

AER 1911

Consensus général croissant dans le milieu académique

  • Principes FAIR
  • Principes de citation de données
  • Reproductibilité computationnelle
  • Findable (trouvable)
  • Accessible
  • Interoperable (interopérable)
  • Reusable (réutilisable)

Principes de citation de données

  • Principes FAIR
  • Principes de citation de données
  • Reproductibilité computationnelle
  • Pour les rendre trouvables, citations,
  • Donner attribution et crédit pour les données.

1

Reproductibilité computationnelle

  • Principes FAIR
  • Principes de citation de données
  • Reproductibilité computationnelle
  • Sujet principal d’aujourd’hui

Reproductibilité signifie obtenir des résultats computationnels cohérents en utilisant les mêmes données d’entrée, étapes computationnelles, méthodes, code et conditions d’analyse.2

Qu’est-ce que…

Qu’est-ce qu’un paquet de réplication ?

Un paquet de réplication comprend

  • Code
  • Données
  • Matériaux (pour les sondages, expériences, …)
  • Instructions sur la façon d’obtenir les données non incluses
  • Instructions sur la façon de tout combiner
  • Problèmes connus documentés

Conforme à…

Est stocké dans…

Meilleures pratiques ?

En résumé

  • Pourquoi
    • Crédibilité
    • Transparence (ouverture)
    • Efficacité du discours scientifique ([exemple])
  • Comment
    • Principes FAIR
    • Principes de citation de données
    • Reproductibilité computationnelle
  • Sous forme de paquets de réplication
    • Code
    • Données
    • Matériaux (pour les sondages, expériences, …)
    • Instructions sur la façon d’obtenir les données non incluses
    • Instructions sur la façon de tout combiner
    • Problèmes connus documentés

Qui ?

Qui ?

  • 🐇 Auteurs à l’acceptation conditionnelle
  • 🐢 Auteurs à la soumission
  • 🐁 Auteurs au début du projet
  • 👴🏻👵🏽 Chercheurs expérimentés
  • 👶🏽👶🏻 Chercheurs juniors
  • 👨‍🎓👩‍🎓 Doctorants
  • 🧒👦 Étudiants de premier cycle

Qui ?

Vous.

Vous

👶🏻 Maintenant :

  • développement plus efficace
  • collaboration plus efficace
  • plus d’assurance que “tout fonctionne”

👵🏽 Bientôt

  • développement plus efficace entre les projets
  • réponse plus efficace aux éditeurs et réviseurs
  • … pendant que vous êtes dans une nouvelle institution, sur un nouvel ordinateur, avec trois cours à préparer, et (luxe !) un assistant de recherche à qui vous pouvez déléguer…

Vous

Comment ?

Comment créer une recherche reproductible ?

Habitudes

  • Reproductibilité dès le jour 1
  • Adopter des habitudes reproductibles
  • Prendre des notes pendant que vous faites les choses, pas après
  • Utiliser le contrôle de version

Stratégie

Empathie computationnelle : pensez à la prochaine personne qui exécutera ceci - Cela pourrait être vous dans 5 ans !

Hands-on: A very imperfect example

Presentation of the example

Day 1 reproducibility

Day 1: How to not to organize your work

A tale of ineffective technical collaboration

Day 1: Setting yourself up for reproducibility

An approach to be reproducible from Day 1

End of Day 1

Appendix

Où aller ?

Choix

Resources

README

Lars Vilhuber, Connolly, M., Koren, M., Llull, J., & Morrow, P. (2022). A template README for social science replication packages (v1.1). Social Science Data Editors. https://doi.org/10.5281/zenodo.7293838

You can download the Word, LaTeX, or Markdown version of the README with lots of examples.

Other guidance

Extra info

Sources

Détails sur la transparence, etc.

Transparence

  • Provenance des données
  • Traitement des données, des données brutes aux résultats (code)

Prior to acceptance, authors of papers […] must provide the data, code, and other details of the computations sufficient to permit replication. These materials must be made available and retained in an openly accessible trusted data repository, such as the AEA Data and Code Repository.

Transparence

  • Provenance des données
  • Traitement des données, des données brutes aux résultats (code)

The Canadian Journal of Economics endorses DCAS, the Data and Code Availability Standard [v1.0], and its data and code availability policy is compatible with DCAS.

Exhaustivité

  • Toutes les données doivent être identifiées et l’accès décrit
  • Tout le code doit être décrit et fourni
  • Tous les matériaux doivent être fournis (formulaires de sondage, etc.)

Les auteurs … doivent fournir, avant l’acceptation, les données, programmes et autres détails des calculs suffisants pour permettre la réplication

Préservation

  • Toutes les données doivent être préservées pour les futurs réplicateurs
    • Idéalement, dans le paquet de réplication, sous réserve des conditions d’utilisation, pour plus de commodité
    • Sinon, dans un dépôt de confiance

Préservation

  • Le code doit être dans un dépôt de confiance
    • Habituellement, dans le paquet de réplication
    • Les sites Web, Github, ne sont pas acceptables

Historiquement

AER 1911 merci à Stefano Dellavigna

Préservation moderne

Données confidentielles?

  • Lorsque les données n’appartiennent pas au chercheur, celui-ci n’a aucun contrôle sur la préservation, l’accès !
  • Parfois, les conditions d’utilisation empêchent le chercheur de révéler les métadonnées (nom de l’entreprise, emplacement)

Transparence encore

  • Cependant :
    • Pas d’exception pour le besoin de décrire l’accès (propre et autre)
    • Pas d’exception pour le besoin de décrire pleinement le traitement (éventuellement avec du code caviardé)

Reproductibilité en économie et au-delà

Éditeurs de données

Politiques communes

https://social-science-data-editors.github.io/

Ailleurs : Science politique

APSR

AJPS

Ailleurs : Sociologie

Sociological Science

Avantages

S’appuyer sur le travail des autres

Notes : “J’exclus 43 articles pour lesquels les données pour reproduire le graphique principal de l’étude d’événement n’étaient pas disponibles.

Roth 2022

S’appuyer sur le travail des autres

Notes : “J’exclus 43 articles pour lesquels les données pour reproduire le graphique principal de l’étude d’événement n’étaient pas disponibles.

Roth 2022

S’appuyer sur le travail des autres : dCdH 2020

de Chaisemartin, Clément, and Xavier D’Haultfœuille. 2020. “Two-Way Fixed Effects Estimators with Heterogeneous Treatment Effects.” American Economic Review 110 (9): 2964–96. DOI: 10.1257/aer.20181169

dCdH 2020

S’appuyer sur le travail des autres : dCdH 2020

Les résultats de divers autres articles sont recalculés pour démontrer empiriquement la pertinence des méthodes proposées.

dCdH 2020

Transparence ailleurs

Transparence externalisée

Transparence externalisée

  • Un tiers effectue la reproductibilité, pas vous, pas moi.
  • Besoin d’une compréhension commune, de protocoles, etc.
  • Protocole de l’AEA
  • Nous faisons cela environ une douzaine de fois par an

Transparence externalisée

Pourquoi devrais-je croire le tiers ?

  • Confiance
  • Transparence
  • Méthodes communes

Transparence certifiée

trace

Transparence certifiée

  • Fournir des informations sur les plateformes informatiques elles-mêmes, y compris des détails spécifiques sur la façon dont la transparence computationnelle est prise en charge.
  • Empaqueter et signer les artefacts résultants ainsi que les enregistrements de leur exécution en utilisant un format standard.

Applications

  • Limor, R-squared, cascad, Banque mondiale !
  • FSRDC ? IRS ?
  • Métadonnées ?

Footnotes

  1. Data Citation Synthesis Group: Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11; 2014 https://www.force11.org/group/joint-declaration-data-citation-principles-final

  2. National Academies of Sciences, Engineering, and Medicine. 2019. Reproducibility and Replicability in Science. Washington, DC: The National Academies Press. https://doi.org/10.17226/25303.