FLASH INFORMATIQUE FI



Données de recherche et cahier de laboratoire


Le cahier de laboratoire est un outil clef du travail de recherche. Il permet le suivi des expériences et l’organisation des résultats. Cet article a pour but de présenter son évolution vers l’ère de l’informatique et d’introduire le projet d’amélioration de la gestion des données de recherche actuellement en cours à l’EPFL.



The laboratory notebook is an essential tool in research. It allows experimental follow-up and data organization. This article aims to present its evolution towards the electronic era and to introduce the EPFL campus-wide project focusing on improving the research data management.


Gaël ANEX


Contexte du projet à l’EPFL

Dans cet article, nous nous concentrerons sur un projet initié par le Doyen à la Recherche, Prof. Benoît Deveaud-Plédran en collaboration avec le Doyen de la Faculté des Sciences de la Vie, Prof. Didier Trono. L’objectif vise à améliorer la gestion des données de recherche dans l’environnement académique.
Le problème de base s’articule autour de la forte augmentation des volumes de données générées par la recherche et de leur organisation. Le besoin est particulièrement fort dans les sciences de la vie, principalement dû aux limites pratiques du cahier de laboratoire traditionnel, cet outil indispensable aux scientifiques-chercheurs-explorateurs pour mémoriser leur savoir. Le CSIN, Coordination des Systèmes d’INformation, est en charge de mener à bien ce projet en proposant des solutions informatiques de type ELN (Electronic Lab Notebook) et LIMS (Laboratory Information Mangement System).
Ce projet exploratoire permettra d’acquérir de l’expérience afin de réitérer la démarche dans d’autres facultés.
En mars 2012, le CSIN a procédé à une première phase d’analyse auprès de 27 laboratoires des SV. Cette première étape a permis de distinguer plus précisément les problèmes actuels et leurs conséquences. Les prochaines étapes consisteront à identifier et évaluer une sélection de logiciels répondant aux besoins des chercheurs en Sciences de la Vie. Dès le mois d’octobre 2012 et avec le soutien technique du DIT, cinq laboratoires pilotes pourront tester un logiciel de leur choix en conditions réelles.

L’analyse sur le terrain

La Faculté SV fait face à une explosion des volumes de données informatiques. Les nouveaux équipements de recherche, de plus en plus performants, génèrent de grandes quantités de données. L’avènement de la génomique et des séquenceurs ADN à haut débit révolutionne la recherche sur le vivant et les perspectives de découvertes. D’autres domaines sont également d’importants générateurs de données. Par exemple l’imagerie avec les nouveaux équipements de microscopie et d’imagerie médicale où la protéomique avec les spectromètres de masse sont également d’importants générateurs de données. L’évolution de ces équipements n’est pas sans conséquence. Les besoins en terme de calculs et traitements s’amplifient. Les supercalculateurs (HPC) et les compétences des bio-informaticiens sont indispensables aujourd’hui pour interpréter les données produites. Parallèlement aux traitements, les ressources en terme de stockage deviennent très importantes. Le SV-IT, service informatique de proximité, propose des espaces de stockage de qualité professionnelle pour la conservation ainsi que le backup des données. Le volume officiellement utilisé pour tous les laboratoires SV est d’environ 65 To. De plus, des données de recherche sont également gérées dans l’environnement Vital-IT du Swiss Institute Bioinformatics.
Or, l’analyse au sein des laboratoires visités (27) a mis à la lumière plus de 500 To dispersés sur des supports de stockage tels que CD, DVD, disques durs internes et externes, NAS locaux et autres fournisseurs d’espaces de stockage indépendants de l’EPFL.
Devant les importants volumes de données à conserver et la charge financière que cela représenterait, les laboratoires se sont tournés vers des systèmes de stockage grand public, car meilleur marché. Malheureusement, les performances sont limitées ou inadaptées aux besoins et les taux de panne sont élevés, générant des catastrophes humaines et des scènes de désolation devant des disques durs inertes ou autres DVD illisibles contenant les années de travail de l’utilisateur.
En plus des besoins en ressources informatiques performantes liées au traitement et au stockage, les laboratoires SV font également face à des problèmes d’organisation logique ou scientifique des données informatiques.

L’organisation des données

Le cahier de laboratoire est l’outil principal pour organiser les informations de recherches. Aujourd’hui au format papier, il est (ou devrait être) utilisé par tous les chercheurs pour dire ce qu’il fait, faire ce qu’il dit et prouver ce qu’il a fait. C’est un élément d’excellence sur le plan des pratiques de la recherche qui peut être perçu sous différents angles :

Scientifique

C’est un élément de mémoire et de transfert de connaissances en interne, preuve du savoir-faire du laboratoire et permettant d’établir sa compétence.

Traçabilité

C’est un élément indispensable à une démarche qualité, preuve du professionnalisme du chercheur au sein de la communauté scientifique, permettant de répondre à des exigences règlementaires et de garantir la traçabilité des résultats.

Juridique

C’est un élément de protection de la propriété intellectuelle, preuve du savoir-faire du laboratoire à une date précise permettant la signature de contrat, le dépôt de brevets ou la résolution de litige.
Pour simplifier, le cahier de laboratoire permet de lier les informations de recherche, les conditions d’expérimentation et les résultats obtenus dans un ou plusieurs documents.

Les limites du cahier papier traditionnel

Si le cahier de laboratoire traduit une volonté de partage et de mémorisation de l’information au sein du laboratoire et de la communauté scientifique, il présente un certain nombre de limites difficilement surmontables et dont les évolutions technologies des équipements amplifient les effets.
Le chercheur devant le plus souvent traiter des résultats obtenus de divers appareillages via des outils informatiques, le cahier papier n’est donc plus utilisable directement. Il n’y a plus de continuité entre les données extraites de l’équipement (données primaires), les données traitées (données secondaires) et les résultats finaux (données concluantes), d’où un problème d’organisation des données de traçabilité des informations.
Une autre limitation se situe au niveau de la retranscription, parfois fastidieuse, des résultats issus des appareils de mesure. L’efficacité et la qualité de la rédaction sont limitées, car le cahier papier demande de convertir toutes les données dans un format papier. Si aujourd’hui un tableau Excel imprimé peut encore être collé sur une page de cahier, il n’est pas possible d’imprimer et de coller avec un tube de colle des images hautes résolutions, des séquences ADN, des vidéos, des sons, ou autres analyses spectrométriques.
De plus, les cahiers papier sont dégradables et leur sécurité tient à des bonnes pratiques de laboratoires (GLP – Good Laboratory Practice), d’utilisation et de conservation. D’un poinr de vue réglementaire, l’authentification de chaque passage du cahier peut se révéler très contraignante avec un flux de signatures/validations rarement accompli selon les règles de l’art.
La rédaction d’articles est souvent un pénible travail de recherche documentaire dans de nombreux cahiers papier, parfois difficilement interprétable. Et quand vient le moment de retrouver des données informatiques relatives à un passage du cahier de labo prouvant un résultat important, il faut s’armer de patience et fouiller dans les données dispersées sur une multitude de supports informatiques, processus pouvant être long et décourageant.
À noter que le partage et la réutilisation des données sont quasiment impossibles, car liés au raisonnement, au style rédactionnel, à l’écriture de chacun et à l’éventuelle accessibilité des cahiers archivés par les précédents chercheurs.
Il en résulte un manque d’homogénéité général et une réelle difficulté à effectuer des recherches dans les nombreux travaux archivés, d’où une capitalisation et une valorisation limitées du savoir.
Les conséquences sont multiples, par exemple :

  • la perte des données primaires et secondaires,
  • l’incapacité à reproduire une expérience,
  • la perte des connaissances acquises durant les travaux de recherche,
  • le gaspillage de ressources financières et matérielles pour régénérer les données perdues,
  • la difficulté à rassembler les données pour la rédaction d’articles, en cas de conflits (preuves) ou pour le dépôt de brevets.

Ces conséquences influencent la qualité de la recherche. Aux États-Unis par exemple, les agences de fonds l’ont bien compris et deviennent de plus en plus pointilleuses par rapport à ces notions de gestion des données. Depuis le 18 janvier 2011, le NSF (National Science Foundation) exige des candidats de prévoir une description et une planification des méthodes de gestion des données informatiques qui seraient générées grâce à l’éventuelle obtention du fonds.

Voici un exemple d’évolution d’un équipement de recherche :


un microscope en 1743 et en 2012


et voici comment à évoluer le cahier de laboratoire :


en 1743 et en 2012

Les solutions électroniques

Les laboratoires industriels sont les premiers à développer des solutions pour répondre à ces problèmes de gestion. Dès les années 1990, des prototypes de cahiers de laboratoires électroniques sont apparus. Ils n’ont pas obtenu le succès escompté du fait de la lourdeur de leur implémentation et de la complexité de leur fonctionnement.
En 1995, à l’initiative d’une dizaine de sociétés pharmaceutiques, des standards ont été définis et le développement des ELN (Electronic Laboratory Notebook) a été initié. Le développement des technologies informatiques, notamment sur le Web, a permis de commercialiser une seconde génération d’ELN plus souples et efficaces.
Parallèlement, la publication de la première version du 21CFR Part 11 par la FDA (Food and Drug Administration aux USA) traitant de la gestion des enregistrements et de la signature électronique, a fortement incité l’industrie pharmaceutique à adopter un environnement informatique de travail moderne et sécurisé.
Au début des années 2000 apparaissent les premières solutions clefs en main commercialisées principalement pour les secteurs de la chimie médicinale et les sites de développement des grandes entreprises pharma. Les ELN étaient alors très spécialisés sur un métier et inadaptés au large secteur de la R&D.
Avec l’éclatement de la bulle Internet et la crise de l’informatique des années 2001 – 2003, les projets de développement d’ELN ont été considérablement ralentis. Mais, dès 2004, avec l’accroissement des budgets liés à la gestion des données issues de la R&D, un fort développement de l’activité du marché des solutions informatiques pour le marché des sciences de la vie et de la chimie a permis de faire évoluer les ELN vers des solutions plus performantes.
Le marché des ELN se développe depuis 2005 de 30% à 40% par année. La chimie médicinale n’est plus le seul domaine abordé par les ELN et d’autres domaines comme la biotechnologie peuvent aujourd’hui trouver des solutions à leurs besoins. Le marché de l’ELN représentait en 2011 environ 50 millions de dollars, mais reste en deçà des 450 millions de dollars de ventes annuelles d’autres solutions informatiques comme les LIMS (Laboratory Information Management System), sujet que nous aborderons un peu plus loin dans cet article.

Les avantages du cahier de laboratoire électronique

Quel que soit le domaine de recherche, le cahier de laboratoire électronique est un outil qui permet à l’utilisateur d’enregistrer au quotidien tous ses travaux, d’assurer la traçabilité de l’expérimentation scientifique, de l’idée à la conclusion.
L’ELN facilite la création, la formalisation, l’organisation, l’accès et le partage des données de recherche électroniques en se conformant aux normes légales, réglementaires et scientifiques.
Il s’appuie sur une infrastructure de stockage informatique centralisée et évolutive dont l’utilisateur n’a plus à ce soucier. Fini les crises de nerfs dues aux disques durs externes récalcitrants, aux commandes Shell barbares ou aux fastidieux transferts de données manuels d’un ordinateur à l’autre.

Les avantages :

  • enregistrer électroniquement les travaux effectués pour un projet de recherche ;
  • offrir un accès centralisé à toutes les données liées à une expérience ;
  • être consulté à distance (via le Web) ;
  • fluidifier les flux d’informations (collecte, organisation et restitution) ;
  • accéder rapidement à l’information (indexation et outils de recherche) ;
  • faciliter la rédaction de comptes rendus, de synthèses et de rapports scientifiques ;
  • standardiser les descriptions des expériences et la saisie des informations ;
  • assurer la traçabilité des données informatiques ;
  • réduire les risques associés au support papier ;
  • assurer une organisation pérenne des données.

L’utilisation de logiciels de type ELN permettrait d’améliorer l’organisation des données, la gestion des connaissances et de garantir la pérennité du savoir-faire au sein des laboratoires.

Le LIMS, complément indispensable en Sciences de la Vie

L’informatisation à grande échelle dans la R&D et en particulier dans les Sciences du Vivant a permis le développement de logiciels LIMS (Laboratory Information Management System). Les premiers LIMS apparaissent en 1980 avec comme objectif d’assurer le suivi des échantillons de laboratoire. Rapidement adoptés par l’industrie, ils assurent la traçabilité et une grande reproductibilité par l’utilisation de processus normalisés.
Le LIMS devient alors indispensable pour un suivi efficace des produits ou échantillons sur l’ensemble des phases d’élaboration dans un labo.
En perpétuelle évolution, les solutions LIMS intègrent aujourd’hui des fonctionnalités comme :

  • la gestion des échantillons ;
  • la gestion des protocoles de laboratoire ;
  • des outils d’analyses de résultats ;
  • des outils de reporting ;
  • des possibilités de connexion avec d’autres systèmes d’informations scientifiques (ELN ou logiciels d’analyse de données) ;
  • l’intégration des flux de données des équipements ;
  • des bases de données centralisées (plasmids, oligos, chimiques, protéines, etc.) ;
  • la gestion de l’inventaire du laboratoire ;
  • la gestion des achats de consommables.
  • la gestion des stocks.

Les évolutions des LIMS tendent à créer des chevauchements avec certaines fonctionnalités des ELN. Cette conversion fonctionnelle assez récente permet d’envisager, à court terme, une fusion de ces deux systèmes.
Le plus important à retenir est que le LIMS reste principalement centré sur les échantillons et leur analyse, alors que l’ELN, plus global, est dédié aux expériences et permet d’en tracer la conception, le suivi, la méthodologie d’analyse et l’interprétation des résultats. L’ELN assure également la structuration des informations et des données informatiques, il garantit ainsi une réutilisabilité des informations aux chercheurs.

Les principales difficultés à surmonter

Malgré les bénéfices envisageables de l’utilisation d’outils informatiques de gestion (ELN ou LIMS) et de la nécessité d’évoluer vers des systèmes informatisés, un long chemin reste à parcourir et des obstacles restent à surmonter avant de généraliser leur utilisation au sein de notre environnement académique. Par exemple :

  • la grande variété de domaines que devraient couvrir les solutions informatiques ;
  • la standardisation des processus de recherche (sans nuire à la créativité) ;
  • l’opinion de l’utilisateur globalement satisfait du papier ;
  • la méconnaissance des améliorations qu’ameneraient des outils informatiques ;
  • les aspects humains, réticences aux changements, effets Big Brother ;
  • le manque de recul et la peur de l’inconnu.

La transition du système papier, colle et stylo vers des systèmes électroniques demandera du temps et d’importantes collaborations entre communauté scientifique et les services informatiques.

La suite du projet

L’analyse sur le terrain a mis en exergue la complexité du sujet, mêlant règlements sur les processus de recherche, respects des principes organisationnels, normalisation de l’information scientifique, outils informatiques et... facteurs humains.
Différentes mesures sont en cours d’élaboration, notamment la création d’un règlement sur la gestion des données de recherche au niveau de l’EPFL définissant par exemple la période minimale de conservation des données, les conditions cadres et les moyens à disposition.
Le DIT et le CSIN travaillent à l’identification d’une solution de stockage informatique centralisée, mutualisée et évolutive répondant aux nouveaux besoins de stockage.
En octobre 2012, afin de mieux cerner les améliorations qu’offrent les ELN et les LIMS, nous procéderons à une phase pilote auprès de cinq laboratoires de la Faculté des Sciences de la Vie. Impliqués dès l’étape de sélection du logiciel, les membres des laboratoires pourront utiliser une solution en conditions réelles durant une période de 4 à 5 mois.
Les conclusions de cette évaluation seront rendues pour la fin février 2013.
L’expérience acquise durant cette phase à caractère exploratoire sera très utile pour l’implémentation ultérieure d’outils informatiques au sein d’autres facultés intéressées par cette démarche d’amélioration de la gestion des données de recherche.
Si le sujet a piqué votre curiosité, nous nous tenons à votre disposition pour plus d’informations ou pour procéder à une analyse approfondie de la situation dans votre laboratoire. Vos expériences, conseils et remarques seront les bienvenus.



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.