Le dilemme de l’accessibilité des données sensibles

Le partage de données ne peut pas être appliqué de manière rigide dans le cas de recherches sur les êtres humains. Entre bénéfices d’ouverture et besoins de protection, des chercheur·es esquissent des solutions.

TEXTE | Geneviève Ruiz

Rendre les données de recherches accessibles de façon permanente et gratuite : c’est l’objectif de l’open research data (ORD). Cette démarche permet non seulement une réutilisation des données par d’autres équipes, mais elle favorise aussi leur vérification. Depuis quelques années, la plupart des bailleurs de fonds demandent que les données produites durant les travaux de recherche soient archivées sur des serveurs en libre accès sur la base d’une série de principes appelés « FAIR » : les données doivent être trouvables (Findable), Accessibles, Interopérables et Réutilisables.

Voilà pour la théorie. Côté pratique, si de nombreuses données peuvent être publiées selon ces principes, d’autres ne le peuvent pas ou seulement de façon limitée. C’est le cas des données portant sur les êtres humains, dites « sensibles ». « Il s’agit de toutes les données qui font de l’être humain une personne ayant des caractéristiques essentielles, explique Maria-Grazia Bedin, professeure à l’Institut et Haute École de la Santé La Source – HES-SO et membre de la Commission vaudoise d’éthique de la recherche sur l’être humain (CER-VD). Cela ne comprend pas uniquement les données sur sa santé physique ou mentale, mais aussi ses habitudes de vie, ses origines, ses opinions politiques, ses croyances, etc. ». Lors de la récolte, du traitement et du stockage de ce genre d’informations, l’intérêt de la personne passe avant l’intérêt scientifique. Sa participation à une recherche ne devrait jamais lui porter préjudice.

Or les données sensibles peuvent faire du tort aux personnes si elles sont divulguées ou récupérées à des fins malveillantes. « C’est pourquoi elles doivent faire l’objet d’un traitement particulier, réglé par certains principes juridiques et éthiques, ajoute Maria-Grazia Bedin. Toute recherche sur des données humaines doit notamment obtenir l’aval préalable d’une commission d’éthique. » On l’aura compris : dans le cas des données sensibles, l’ORD provoque des tensions évidentes entre ouverture et protection. Comment les équipes de recherche parviennent-elles à concilier ces exigences opposées ?

Des données impossibles à partager faute de consentement

Entre 2018 et 2020, Patricia Perrenoud, professeure à la Haute École de Santé Vaud (HESAV) – HES-SO, a mené une recherche pour comprendre comment les femmes immigrantes utilisaient les nouvelles technologies durant leur grossesse et les premières semaines de vie de leur enfant. Dans ce cadre, elle a mené des observations ethnographiques, des entretiens avec des femmes immigrantes, ainsi qu’avec des professionnel·les de la santé et des interprètes qui accompagnent les personnes allophones durant les consultations. « Les données qualitatives que nous avons récoltées sont extrêmement sensibles, observe l’anthropologue. Les professionnel·les nous ont fait part de dysfonctionnements ou de désaccords avec les services de l’administration, qui ne répondent pas toujours aux besoins des femmes, dont une partie était en situation de précarité. Certaines avaient des doutes sur leur avenir en Suisse, notamment pour celles en requérance d’asile. Pour finir, il s’agit d’un milieu plutôt petit, où tout le monde se connaît. »

En ce qui concerne le partage de ces données, l’une des premières difficultés rencontrées concernait les formulaires de consentement, au nombre de deux : le premier pour donner son accord à la participation à la recherche et le second en lien avec le partage des données. « Le groupe de femmes immigrantes que nous avons constitué était volontairement diversifié, souligne la chercheure. Certaines d’entre elles avaient à peine terminé leur scolarité obligatoire, pendant que d’autres avaient un niveau universitaire. Pour les premières, éloignées de l’univers de la recherche, il n’était pas si simple de comprendre nos objectifs et le langage technique des documents de consentement. Le partage des données représentait une étape administrative supplémentaire qu’une proportion d’entre elles pouvait difficilement saisir et accepter sans crainte. C’est pourquoi nous avons décidé de ne pas partager ces données-là. » En accord avec le bailleur de fonds, le Fonds national suisse, Patricia Perrenoud n’a partagé que les entretiens réalisés avec les professionnel·les de la santé et les interprètes. « Il n’était pas possible de partager uniquement les données des femmes qui auraient signé leur consentement. Ces dernières étant celles qui avaient le plus haut niveau d’étude, cela aurait tronqué les résultats. »

Une fois cette décision prise, il a fallu retravailler 600 pages d’entretiens afin de supprimer les identifiants indirects (lieux, âge, genre, pathologies, etc., qui permettent d’identifier par recoupement). Les identifiants directs (noms des personnes physiques et morales) avaient été enlevés dès la retranscription. « Cela a représenté un immense travail et des heures supplémentaires, précise Patricia Perrenoud. À chaque suppression ou changement de formulation, il fallait veiller à conserver le sens des données. » Au final, Patricia Perrenoud et son équipe ont publié les données retravaillées sur la plateforme d’archivage numérique spécialisée SWISSUbase, où elles sont désormais accessibles aux équipes de recherche qui en feraient la demande. « Ce point est important pour nous. Le partage de données qualitatives ne peut pas se faire de la même manière que pour des données quantitatives. En effet, nos données ont été produites dans un cadre théorique précis. Nous devons nous assurer que les chercheur·es qui les réutiliseront travaillent dans un cadre compatible avec le nôtre. Par exemple, nous avons recours à une perspective de « justice reproductive », attentive aux conditions de vie des femmes immigrantes et aux injustices dont certaines font l’objet. Notre approche est aussi systémique et réflexive. Nous souhaitons éviter que nos données soient détournées ou mal interprétées, ce qui pourrait nuire aux femmes immigrantes. »

Le codage fastidieux des identifiants

De son côté, Jonathan Jubin, psychologue et chargé de recherche à La Source, a participé à une recherche sur l’état de santé mentale et ses facteurs protecteurs menée sur le corps estudiantin de la HES-SO. Au moyen d’un questionnaire en ligne, l’étude a récolté les premières données juste avant l’arrivée du Covid-19, en février 2020. Elle a été prolongée par deux autres récoltes en 2021, puis en 2022, qui ont permis d’analyser la situation durant et après la pandémie. » Bien que l’ORD n’ait pas été prévue dès le départ, les formulaires de consentement ont directement inclus le partage des données. Cette étape n’a donc pas posé de difficultés à l’équipe. Les résultats des questionnaires ont par contre dû être retravaillés pour correspondre aux principes FAIR. « Nous avons dû recoder les identifiants indirects, ce qui a représenté beaucoup de travail (par exemple remplacer les âges exacts par des fourchettes d’âge, ndlr). Il a fallu être particulièrement attentifs aux valeurs extrêmes. Prenons l’exemple fictif d’une étudiante en design de 62 ans : ces deux variables permettent potentiellement de l’identifier. Pour y remédier, nous avons créé une catégorie d’âge ‹35 ans et plus›. » Alors que les données de cette étude sont sur le point d’être publiées, Jonathan Jubin souligne qu’elles ne seront accessibles à d’autres équipes de recherche que si elles reçoivent l’aval préalable d’une commission d’éthique.

Le chercheur travaille actuellement sur le projet Scohpica, portant sur les trajectoires de vie et professionnelles des actrices et acteurs de la santé et des proche aidant·es en Suisse. « Nous allons faire des pointages annuels pour récolter différents paramètres durant cinq, voire dix ans, explique le psychologue. Comme nous avons su dès le départ que les données allaient être partagées, nous avons pu mieux nous organiser. Dès la clôture des questionnaires, nous transférons les réponses dans deux fichiers : celui de l’équipe de recherche et celui destiné à être partagé ultérieurement. Ce processus est plus efficace. » Alors que les premières données de l’étude devraient être archivées numériquement d’ici quelques mois, l’équipe de recherche a décidé de partager ses résultats intermédiaires pour atteindre un plus large public au moyen de graphiques colorés et facilement compréhensibles. « Nous allons les publier prochainement sur notre site. À notre sens, cette démarche fait partie d’une stratégie globale d’ORD. Elle a également exigé un travail important sur la présentation des données pour gommer les identifiants indirects potentiels. De plus, en dessous d’une certaine masse critique, les résultats pour certaines variables n’apparaissent pas. »

Pour le chercheur, l’ORD a globalement des effets positifs : « Tout d’abord, cela participe à la visibilité de notre travail. Ensuite, cela nous force à être le plus intègres et précis possible dans nos méthodologies, car nous savons qu’elles pourraient potentiellement être vérifiées par des pair·es. Personnellement, je trouve plutôt motivant de penser que nos données pourraient servir à d’autres équipes, qui les analyseraient sous des angles que nous n’avons pas eu le temps ou l’envie de développer. » Cette perspective est partagée par Maria-Grazia Bedin, selon qui, « d’un point de vue éthique, il existe un intérêt pour le patient·e que les données soient davantage utilisées. Cela évite des doublons et maximise des progrès scientifiques qui peuvent bénéficier à l’ensemble de la société. » Avec sa collègue Shota Dzemaili, maître d’enseignement à La Source et également membre de la CER-VD, elles disent cependant comprendre les préoccupations des chercheur·es quant à la surcharge de travail liée au partage des données sensibles.

La protection des données sensibles : une problématique ancienne

Shota Dzemaili fait également valoir que la problématique de la sécurisation des données sensibles existe depuis longtemps. Les documents papier comportaient déjà leurs lots de risques. Ces derniers ont certes été modifiés à l’ère numérique : les algorithmes et l’intelligence artificielle sont désormais capables d’identifier une personne sur la base de deux ou trois éléments indirects, pendant que des organisations réussissent à accéder à des documents protégés et à identifier les codes utilisés. « Mais les principes de base de la protection des données sensibles restent les mêmes, avec des protocoles de récolte, de stockage et de codage qui doivent maximiser la sécurité des participant·es. » Quant à la réutilisation ultérieure des données sensibles par d’autres chercheur·es, il s’agit d’une pratique qui existait déjà avant l’ORD. « Ses conditions ont toujours été réglementées, soutient Shota Dzemaili. L’exigence de partage des données a certes apporté de nouvelles contraintes. Car les données sensibles restent une catégorie à part. Elles ne peuvent pas être rendues accessibles de manière uniforme, ni sans restriction. »

Trois questions à Davide Fornari

Pour le responsable de la recherche de l’ECAL/École cantonale d’art de Lausanne – HES-SO, les chercheur·es en art doivent davantage maîtriser les droits de tiers afin d’appliquer les principes de l’open access.

La mise en œuvre des principes de l’open access est-elle aisée pour les recherches en art, design ou musique ?

DF Il existe un certain nombre d’obstacles liés aux spécificités de la recherche en art, design ou musique (ADM). Ses productions ne sont pas forcément des articles scientifiques, mais incluent des visuels, des performances ou des œuvres musicales. Les citations n’ont pas seulement la forme d’un texte. Le principal enjeu de la mise à disposition de ces travaux en open access (OA) réside dans la gestion des droits d’auteur et de tiers. Une photographie peut avoir un droit de tiers, par exemple lorsqu’une collection publique la conserve sans l’avoir produite elle-même. Cela s’avère vite complexe car plusieurs niveaux se superposent : ceux de l’auteur·e, ceux de l’entité qui possède la photo et ceux de la personne, voire de l’objet ou du paysage figurant sur l’œuvre. Les images de certains bâtiments, comme ceux de l’architecte Le Corbusier (1887-1965), sont protégées. Le problème prend encore une ampleur différente lorsque l’auteur·e est décédé.

Il vous faut donc des aménagements spécifiques pour appliquer l’OA ?

Je dirais que c’est indispensable. L’OA est essentielle pour nous. Les articles en libre accès sur internet sont les plus lus, ils sont davantage cités et ont plus d’impact. Ils participent à la diffusion des connaissances et cela représente une grande valeur. Les aménagements dont nous avons besoin sont principalement liés aux droits de tiers. Cela peut comprendre un budget pour les acquérir ou de la flexibilité lorsque cette acquisition est impossible. Les œuvres de certains artistes comme Andy Warhol (1928-1987) sont ultra-protégées du point de vue commercial. Mais dans de nombreux cas, une négociation est possible. Cela implique beaucoup de travail et une nouvelle manière de se connecter aux œuvres pour le chercheur·e. Car pour obtenir les droits, il doit sortir de son bureau et dialoguer avec les différents protagonistes, leur présenter son projet. La démarche peut s’avérer enrichissante. Les résultats sont parfois inespérés, avec des stars qui cèdent leurs droits pour une somme symbolique, voire gratuitement. Un autre aménagement essentiel réside dans la publication des recherches par des maisons d’édition. Dans le domaine artistique, elles n’ont pas toutes des buts commerciaux. Certaines d’entre elles sont des actrices qui comptent dans le paysage culturel. Il ne faudrait pas arrêter ces collaborations, mais les faire évoluer en négociant par exemple qu’un fichier pdf soit en libre accès sur leur site.

Les chercheur·es en ADM adhèrent-ils aux principes de l’OA ?

Oui, mais leur maîtrise des droits de tiers reste trop souvent lacunaire. Certains pensent que lorsqu’une œuvre est fréquemment utilisée sur internet, c’est qu’elle est libre de droit. C’est naïf et faux. La connaissance des droits de tiers a la même importance pour nos chercheur·es que de savoir marcher dans la rue. Les avocats sont partout ! Et l’enjeu n’est pas seulement légal : il y va du respect des œuvres des artistes. Pour pallier ces lacunes, la SUPSI – Haute école spécialisée de la Suisse italienne a lancé le projet Open Science for Arts, Design and Music en 2021, auquel participent l’ECAL, la HES-SO Valais-Wallis – École de design et haute école d’art – EDHEA et la Haute école d’art et de design – Genève – HEAD, ainsi qu’un réseau de hautes écoles d’art et de design suisses. Son objectif consiste à publier des lignes directrices qui expliquent notamment les droits de tiers aux chercheur·es en ADM. Des webinaires sur différentes thématiques liées ont également été conçus. Dans une prochaine étape, nous intégrerons des éditeurs francophones, germanophones et italophones aux discussions, afin de comprendre leur point de vue et de concevoir avec eux des principes de collaboration intégrant l’OA.

« Il faudrait encore réduire la dépendance envers les grands éditeurs »

Pour Isabelle Lucas, réduire la dépendance du monde scientifique aux grands éditeurs représente l’un des plus grands défis de l’open access car les chercheur·es ont encore besoin des revues prestigieuses pour faire avancer leur carrière. | © François Wavre, lundi13

Les stratégies open access adoptées par les institutions académiques suisses sont encourageantes, mais se heurtent à de nouveaux écueils. Explications avec Isabelle Lucas, chargée de projet open science à la HES-SO.

En 2017, swissuniversities adoptait un plan d’action Open Access dont l’un des objectifs était que toutes les publications académiques soient en libre accès dès 2024. A-t-il été atteint ?

Il y a eu des progrès notables, car on partait de loin. Pour 2022, le pourcentage de publications scientifiques en open access (OA) se situe aux alentours de 72% au niveau national et de 78% pour la HES-SO. Cette évolution encourageante a été possible en partie grâce à la conclusion d’accords dits « Read & Publish » avec les principaux éditeurs scientifiques internationaux, soit la souscription d’une licence unique à la fois pour lire et publier des articles. Mais cela a un prix élevé. Au cœur du problème, il y a l’immense pouvoir des éditeurs. Au fil du temps, en effet, un oligopole s’est imposé internationalement. Le néerlandais Elsevier, l’allemand Springer, le britannique Taylor & Francis, ainsi que les américains Sage et John Wiley, contrôlent plus de la moitié de toutes les revues scientifiques qui comptent. Ils en ont profité pour augmenter continuellement et massivement les frais d’abonnement depuis le début des années 2000, en dégageant des profits avoisinant les 30%.

Pourquoi ne pourrait-on pas les contourner ?

Réduire la dépendance du monde scientifique à ces éditeurs représente un grand défi pour l’OA. Mais cela ne peut pas se faire du jour au lendemain. Pour des raisons historiques, ces éditeurs jouent un rôle important dans l’évaluation des travaux et des carrières de chercheur·es. Notamment en raison de l’impact factor (IF), qui calcule le nombre moyen de citations des articles d’une revue donnée sur les deux années précédentes. Autrement dit, c’est un indicateur du prestige d’une revue. Et l’IF sert de référence pour évaluer le parcours d’un·e chercheur·e.

On assiste actuellement à un mouvement cherchant à faire évoluer les critères d’évaluation de la recherche et à ne plus utiliser l’IF. C’est un des moyens permettant de s’émanciper de la dépendance aux grands éditeurs. Il y a déjà dix ans, la Déclaration de San Francisco sur l’évaluation de la recherche (DORA ¹), signée par de nombreuses institutions scientifiques, dont la HES-SO, remettait en cause la fiabilité de l’IF. Plus récemment, en 2022, la Coalition pour l’avancement de l’évaluation de la recherche (CoARA) a encore davantage précisé les nouvelles bonnes pratiques en matière d’évaluation des scientifiques, notamment en se focalisant sur les dimensions qualitatives plutôt que quantitatives. Dans cette ligne, par exemple, le Fonds national suisse (FNS) a élaboré un nouveau modèle de CV narratif. Il s’agit également de considérer les expériences non académiques, la qualité de l’enseignement ou encore l’impact sociétal des recherches.

On peut supposer que ces changements de culture prendront du temps…

Oui, mais cela représente désormais une tendance importante. Les principaux bailleurs de fonds helvétiques, comme le FNS, y adhèrent. Au final, ce sont eux qui donnent le ton. Les négociations menées avec les grands éditeurs au plus haut niveau académique sont cependant très dures. S’adaptant aux exigences de l’OA, ces entreprises puissantes ont changé leur modèle d’affaires. Alors qu’il fallait payer pour lire les articles, il faut aujourd’hui payer pour publier : les articles sont disponibles gratuitement, mais le chercheur·e ou son institution doivent payer leur publication. Ces nouveaux frais peuvent s’élever à plusieurs milliers de francs, ce qui accentue notamment les inégalités entre les pays du Nord et du Sud. Le pire modèle est sans doute celui des revues « hybrides » : il faut payer pour publier et les articles ne sont ensuite pas accessibles gratuitement ! Tant que les chercheur·es auront besoin des revues prestigieuses pour faire avancer leur carrière – leur réputation se forgeant en étant lus et cités –, les éditeurs pourront faire valoir des desiderata qui ne correspondent pas forcément à l’intérêt public et scientifique.

En 2018, la Suisse a adopté la voie du « green » OA, moins ambitieuse que la voie « gold » de l’Union européenne. Quelle est la différence ?

La voie « gold » préconise que 100% des publications doivent être accessibles immédiatement. Quant à la voie « green », elle admet un délai d’accessibilité de six mois pour les articles et d’un an pour les livres. Le principal problème de ces deux voies, c’est qu’elles n’empêchent, ni l’une ni l’autre, le fameux « payer pour publier ». L’alternative préconisée actuellement est celle du « diamond » OA, qui évite les frais de lecture et de publication en privilégiant, par exemple, les revues savantes ou les presses universitaires. La publication d’un article dans un tel support coûte environ 430 francs. Le grand enjeu réside dans l’actuel manque de prestige, ainsi que de capacité de production et de diffusion de ces revues. Il y a encore beaucoup à faire pour améliorer leur durabilité, leur qualité et leur reconnaissance.

Dans un autre registre, est-ce que l’OA favorise concrètement l’accessibilité à la science, dans le sens où le·a citoyen·ne lambda se mettra à lire des articles scientifiques ?

L’OA est basé sur des principes de démocratisation de l’accès à la science et sur l’idée que les résultats de la recherche devraient profiter à celles et ceux qui la financent via l’impôt. Le partage de connaissance bénéficie évidemment à la communauté scientifique, ainsi qu’aux professionnel·les de l’information. Il a le potentiel de faire progresser la science. Mais on imagine en effet difficilement que tout un chacun se mettra à lire des articles scientifiques. Ils sont souvent peu compréhensibles par des non-spécialistes. C’est pourquoi l’OA va de pair avec la science participative et le dialogue avec la société. Ces aspects font désormais partie intégrante des stratégies et portent en eux beaucoup d’espoir quant à des évolutions positives du fonctionnement des institutions académiques.