Article technique

Le Machine Learning appliqué aux données OMICS

24/07/2023

Le Machine Learning est très utilisé en data science, mais saviez-vous qu’il peut aussi s’appliquer aux données OMICS ?

Le Machine Learning est un champ d’étude de l’intelligence artificielle qui implique le développement d’algorithmes et de modèles statistiques pour donner à un ordinateur la possibilité d’améliorer ses performances à travers l’expérience. On entend aussi souvent parler de Deep Learning, qui est une sous partie du Machine Learning, c’est-à-dire un type d’apprentissage particulier.

On distingue deux grandes catégories dans le Machine Learning : l’apprentissage non-supervisé, aussi appelé clustering et l’apprentissage supervisé.

L’apprentissage non-supervisé 

Il s’agit de trouver une structure « cachée » dans des données, sans assigner d’étiquette à des individus, c’est-à-dire sans caractériser les individus par une caractéristique que l’on connait d’eux. On va au contraire laisser un algorithme essayer de caractériser ces données, et voir ce qui en ressort.

Il existe plusieurs types d’algorithmes pour l’apprentissage non supervisé, les plus connus sont k-means, l’ACP (analyse en composantes principales), le clustering hiérarchique …

Exemple d’utilisation : le clustering basé sur des données OMICs (e.g., profils de mutation ou de SNPs obtenus par DNAseq, profils d’expression obtenus par RNAseq…) peut permettre d’imputer des données manquantes à partir d’individus similaires.

Par exemple, lors d’études cliniques, il peut arriver que des variables cliniques soient manquantes pour certains patients, sans pour autant que l’on souhaite supprimer les patients de l’étude, ni même retirer la variable en question. Une pratique courante consiste à remplacer la donnée manquante par la médiane des valeurs de la variable pour tous les individus mais la valeur est alors la même pour tous les individus, et donc sûrement très éloignée de la réalité.

L’apprentissage non supervisé peut permettre de rassembler les patients sans a priori, uniquement à partir de leurs données OMICS, et ainsi imputer la valeur manquante par la moyenne de celle des individus du même groupe. On aura ainsi une valeur imputée plus proche de la réalité.

Sur la figure ci-dessous, 3 groupes de patients similaires ont été formés à partir d’une méthode de classification non supervisée. Le patient du cluster 3 avec une variable de valeur inconnue va recevoir la valeur de la moyenne de cette variable des trois autres individus de son cluster, au lieu de recevoir la moyenne des valeurs des individus de tous les clusters, probablement assez différents de lui.

L’apprentissage supervisé 

Il s’agit cette fois d’apprendre des données d’entrainement étiquetées (on connait la grandeur que l’on veut apprendre à déterminer) afin de pouvoir produire des prédictions sur des données non étiquetées par la suite. Il existe deux grandes catégories d’apprentissage supervisé, et leur utilisation dépend de la nature de la grandeur à prédire :

  • La classification : la grandeur à prédire est divisées en classes, en catégories.
  • La régression : la grandeur à prédire est continue.
L’utilisation du Machine Learning dans un projet prévoit deux grandes phases 

Phase 1 :  apprentissage des informations à partir des individus à disposition. Idéalement, il faut avoir suffisamment d’individus pour être représentatif de la diversité des individus au sein de la population étudiée. En pratique, le nombre d’individus à disposition est souvent assez limité et il faut donc s’en accommoder.

A l’issue de cette phase d’entrainement, les performances du modèle créé doivent être évaluées et comparées aux objectifs fixés en début d’étude.

Phase 2 : utilisation du modèle sur des données non étiquetées. Un fois le modèle entrainé, il va pouvoir être utilisé sur des individus nouveaux afin de prédire leur classe, en fonction de ce qu’il a pu apprendre sur les individus étiquetés.

Exemples d’utilisation :

  • Sur des données cliniques :

Durant les dernières décennies, la médecine personnalisée s’est imposée comme la solution la plus adaptée pour parvenir à traiter des pathologies complexes. Il s’agit d’adapter le traitement d’un patient à ses caractéristiques et à sa maladie. Le Machine Learning, appliqué à des données RNAseq, peut permettre de stratifier les patients selon différentes variables (différents niveaux de réponse à un traitement, statut clinique à long terme …) en se basant sur son transcriptome, c’est-à-dire l’abondance de ses gènes exprimés à un instant T. A terme, cela pourrait permettre de se substituer à certaines mesures de routine effectuées à l’hôpital pour aider à la décision, souvent peu reproductibles d’un hôpital à l’autre et chronophages, et d’ainsi proposer des traitements adaptés à différents groupes de patients.

  • Sur des données industrielles :

Le Machine Learning appliqué aux données industrielles peut permettre de remplacer certaines mesures réalisées à un instant T du processus de production, en prédisant ces grandeurs grâce à un unique prélèvement d’ARN à cet instant. Cela peut se substituer à de nombreuses mesures parfois chronophages et coûteuses.

  • Sur des données cosmétiques :

Sur des données liées à la cosmétique, le Machine Learning peut par exemple permettre de faire de la prédiction des produits cosmétiques les plus adaptés en fonction du microbiote cutané d’un patient, couplé à une étude de métagénomique.

En conclusion :

Le Machine Learning appliqué aux données OMICS offre un éventail de possibilités d’analyses varié, allant de l’imputation de données manquantes à la prédiction de variables, et ce dans tous les domaines d’étude.

Pourquoi vous faire accompagner par Efor?

Nos experts en Machine Learning sauront trouver les modèles d’apprentissage les plus adaptés à vos données, tout en maîtrisant les problématiques biologiques inhérentes aux données OMICS.

Contactez-les directement sur onedt@efor-group.com