Article technique

Comment conduire un projet de métagénomique

18/06/2024

La métagénomique, la science de l’analyse génétique des communautés microbiennes, c’est-à-dire tous les microorganismes (bactéries, virus, champignons, levures, plancton, etc.) présents dans un environnement spécifique (peau, organes, environnements maritimes, sol, air, etc.), est devenue un outil indispensable pour comprendre la complexité et la dynamique des écosystèmes microbiens. Les projets de métagénomique qui visent à étudier l’impact des microorganismes sur leur environnement ou à analyser les conséquences des perturbations sur ces communautés, sont complexes et nécessitent une stratégie expérimentale rigoureuse et une planification soigneuse. Cet article offre un aperçu méthodologique simplifié, conçu pour guider les chercheurs à travers les différentes étapes d’un projet de métagénomique, depuis la conception du design expérimental jusqu’à l’analyse approfondie des résultats obtenus.

1) Mise en place d’un design expérimental

Définir les objectifs et les questions de recherche à aborder dès le début d’un projet est essentiel pour assurer la pertinence des résultats finaux de l’étude. En effet, les objectifs conditionneront de nombreux aspects de l’expérience : le choix de l’approche (ciblée ou shotgun), l’estimation de la taille de l’échantillon, ainsi que les différentes métadonnées à collecter pour chaque échantillon (par exemple, pour un microbiote intestinal, les données des patients telles que l’âge ou le sexe, la présence d’une condition médicale particulière et le traitement, ou le type de régime alimentaire, etc.). L’estimation du nombre d’échantillons est importante pour garantir que les résultats de l’étude seront statistiquement significatifs et pertinents, et doit être anticipée. Plusieurs approches peuvent être utilisées, en fonction des analyses et des tests statistiques ultérieurs, tels que l’estimation de l’effet de taille ou le d de Cohen.

Quelle que soit l’approche choisie, une attention particulière doit être portée aux conditions d’acquisition des échantillons, au processus d’extraction de l’ADN et au stockage des échantillons. Dans le cas d’une approche de métagénomique ciblée, il est important de choisir soigneusement la région marqueur en fonction des espèces à dépister et des bases de données disponibles.

2) Séquençage des échantillons

Une fois le design expérimental déterminé et les échantillons d’ADN générés, il est important de choisir une technologie de séquençage appropriée. La question de recherche et les spécificités du projet peuvent orienter le choix de la technologie de séquençage vers des lectures courtes de deuxième génération telles que celles d’Illumina, ou vers des lectures longues de technologies de deuxième génération telles que PacBio ou Nanopore. Bien que la deuxième option permette généralement un meilleur assemblage des métagénomes, elle présente un taux d’erreur élevé qui peut compromettre la résolution de la classification taxonomique. Les lectures courtes ont l’avantage de disposer d’un large panel d’outils et de méthodes pour réaliser les différentes étapes de l’analyse, mais rencontrent des difficultés à assembler des métagénomes complexes avec une grande diversité.

La profondeur de séquençage est un critère important à considérer : une augmentation de la profondeur permet d’améliorer la détection des espèces et des souches de faible abondance. Il est néanmoins préférable d’augmenter le nombre d’échantillons plutôt que la profondeur de séquençage pour obtenir une meilleure précision et signification statistiques.

Le séquençage est une étape cruciale pour obtenir des données de bonne qualité, et une attention particulière doit être portée au choix de la plateforme de séquençage.

3) Traitement des données

Une fois le séquençage terminé, l’étape suivante consiste à traiter les données, ce qui comprend à la fois les données brutes du séquenceur ou les fichiers de lectures démultiplexés au format fastq. Tous les contrôles de qualité nécessaires sont alors effectués, et les données sont traitées en utilisant les méthodes les mieux adaptées aux données spécifiques. Cela inclut les contrôles de qualité et le prétraitement des données pour garantir l’élimination des séquences de mauvaise qualité et/ou des lectures provenant de l’hôte (c’est-à-dire des cellules humaines dans un microbiome intestinal), ainsi que le profilage taxonomique qui permet de décrire la population microbienne présente dans les échantillons. Ce profilage peut être précis en fonction de la technologie utilisée et peut être effectué jusqu’au niveau de la souche dans le cas de la métagénomique shotgun, tandis que le séquençage ciblé est généralement limité au genre.

Les génomes des organismes présents dans l’échantillon peuvent également être assemblés de manière optionnelle, et des analyses statistiques peuvent être réalisées pour associer le profil des différents échantillons aux métadonnées disponibles ou pour décrire l’impact des conditions étudiées. Le profilage fonctionnel, c’est-à-dire une description du potentiel métabolique ou des propriétés biologiques des échantillons, peut également être réalisé mais implique généralement la description de l’ensemble des gènes disponibles dans l’échantillon. Cela ne peut être obtenu qu’avec l’approche shotgun. Un aperçu des différentes étapes de l’analyse métagénomique est présenté dans le diagramme ci-dessous.

Figure 1: Vue d’ensemble des principales étapes d’une analyse métagénomique. Les étapes en italique ne sont généralement accessibles qu’aux approches de métagénomique shotgun.

Les résultats du traitement des données décrivent l’affectation taxonomique des lectures, l’abondance des différents taxons au sein des échantillons, l’abondance des réactions métaboliques (c’est-à-dire la somme des abondances des gènes constituant chaque réaction) et les séquences des métagénomes assemblés (selon les besoins de l’étude).

Figure 2 : Composition microbienne (au rang phylum) d’échantillons d’eau prélevés dans 5 stations d’épuration le long d’un fleuve (WP1-5) en été (S18) ou en hiver (W18).

4) Analyse des résultats

L’analyse bioinformatique des données métagénomiques est complexe et nécessite des compétences spécialisées. Elle comprend la classification taxonomique des séquences, l’analyse de la diversité microbienne, la prédiction des fonctions métaboliques et la comparaison avec d’autres ensembles de données. Les résultats doivent être interprétés avec prudence, en tenant compte des biais potentiels et des limitations des méthodes utilisées. Diverses analyses supplémentaires peuvent être effectuées à partir des résultats :

  • Comparaison des compositions des différents échantillons (analyse de l’abondance différentielle, analyse multivariée PERMANOVA).
  • Annotation fonctionnelle et comparaison des séquences pour les génomes assemblés non identifiés.
  • Apprentissage supervisé appliqué à la prédiction des métadonnées des échantillons en fonction de leur microbiote.
  • Analyse de la diversité alpha (ou richesse spécifique, estimation de la biodiversité intra-échantillon) et de la diversité bêta (mesure de la diversité des espèces entre les échantillons) et étude de l’impact d’une variable (traitement, caractéristiques des échantillons, etc.).

Figure 3 (à gauche) : Distribution des mesures de diversité alpha (Shannon) pour des échantillons d’eau en sortie de station d’épuration et prélevés en été (S18) ou en hiver (W18). On observe une plus grande richesse des échantillons en hiver.

Figure 4 (à droite) : Distance (diversité beta) entre les échantillons. L’ordination a été réalisée suivant la méthode NMDS (non-metric multi-dimensional scaling) en utilisant les distances de Bray-Curtis et soulignent la différence de composition des échantillons en fonction de la saison.  
  • Etude de la phylogénie des espèces présentes dans les échantillons étudiés
Figure 5 : Arbre phylogénique des espèces retrouvées dans les différentes stations d’épuration. Le gradient de vert à bleu indique le nombre d’échantillons prélevé en hiver contenant des OTUs appartenant à un taxon donné. La largeur d’un nœud représente le nombre d’OTUs total retrouvé pour un taxon donné.

5) Validation et études complémentaires

Pour confirmer les découvertes métagénomiques, des études complémentaires peuvent être nécessaires. Celles-ci pourraient inclure des expériences de culture pour isoler et caractériser des micro-organismes spécifiques, des essais fonctionnels pour valider les prédictions métagénomiques, ou des analyses transcriptomiques et protéomiques pour examiner l’expression des gènes et des protéines.

CONCLUSION :

La métagénomique est une spécialité complexe qui permet d’extraire des informations riches et variées sur un microbiote, telles que son impact sur son environnement (hôte, propriétés physico-chimiques, localisation, etc.) ou inversement, les effets externes qui peuvent perturber ce microbiote particulier (effet d’un traitement, températures, etc.). Les implications des découvertes métagénomiques peuvent être considérables, influençant notre compréhension des écosystèmes, le développement de nouvelles thérapies médicales et la création de biotechnologies innovantes.

Les avancées dans le domaine de la métagénomique continuent d’élargir notre connaissance du monde microbien et de son impact sur la santé humaine, l’environnement et l’industrie. Cependant, les projets de métagénomique sont des processus complexes qui nécessitent une expertise spécifique en matière de conception d’étude, de séquençage, de techniques bioinformatiques et d’interprétation des données.

Pourquoi devriez-vous choisir Efor pour vous soutenir dans vos analyses métagénomiques ?

Nos experts en métagénomique peuvent vous offrir un soutien à toutes les étapes d’un projet de métagénomique et vous fournir une analyse complète et personnalisée pour atteindre vos objectifs :

  • Support et conception de projet : choix de l’approche (ciblée ou shotgun), estimation de la taille des échantillons, relation avec les plateformes de séquençage, etc.
  • Analyse des données : traitement des données brutes, profilage taxonomique, profilage fonctionnel, etc.
  • Analyse statistique et interprétation : analyse différentielle, comparaison avec des bases de données ou d’autres ensembles de données, interprétation biologique, etc.

Pour plus d’informations, contactez notre Centre de Compétence Technique des Données à : cetdata@efor-group.fr