La première étape dans le choix du traitement approprié pour un patient atteint de cancer consiste à identifier leur type spécifique de cancery compris la détermination du site primaire – l’organe ou la partie du corps où le cancer commence.
Dans de rares cas, l’origine d’un cancer ne peut être déterminée, même avec des tests approfondis. Bien que ces cancers primitifs inconnus aient tendance à être agressifs, les oncologues doivent les traiter avec des thérapies non ciblées, qui ont souvent des toxicités sévères et entraînent de faibles taux de survie.
Une nouvelle approche d’apprentissage en profondeur développée par des chercheurs du Koch Institute for Integrative Cancer Research du MIT et du Massachusetts General Hospital (MGH) pourrait aider à classer les cancers primitifs inconnus en examinant de plus près les programmes d’expression génique liés au développement et à la différenciation précoces des cellules.
« Parfois, vous pouvez appliquer tous les outils que les pathologistes ont à offrir, et vous êtes toujours sans réponse », explique Salil Garg, chercheur clinique de Charles W. (1955) et Jennifer C. Johnson à l’Institut Koch et pathologiste à MGH. « Des outils d’apprentissage automatique comme celui-ci pourraient permettre aux oncologues de choisir des traitements plus efficaces et de mieux guider leurs patients. »
Garg est l’auteur principal d’une nouvelle étude, Publié dans Découverte du cancer. L’outil d’intelligence artificielle peut identifier les types de cancer avec un degré élevé de sensibilité et de précision. Garg est l’auteur principal de l’étude et le post-doctorant du MIT Enrico Moiso en est l’auteur principal.
Apprentissage automatique dans le développement
L’analyse des différences d’expression génique entre différents types de tumeurs de primitif inconnu est un problème idéal à résoudre pour l’apprentissage automatique. Les cellules cancéreuses ont une apparence et un comportement très différents des cellules normales en raison de modifications importantes de la façon dont leurs gènes sont exprimés. Grâce aux progrès du profilage des cellules individuelles et aux efforts pour cataloguer différents modèles d’expression cellulaire dans les atlas cellulaires, il existe de nombreuses données – si, aux yeux de l’homme, écrasantes – qui contiennent des indices sur la façon dont et d’où différents cancers sont originaires.
Cependant, la construction d’un modèle d’apprentissage automatique qui exploite les différences entre les cellules saines et normales, et entre les différents types de cancer, dans un outil de diagnostic est un acte d’équilibre. Si un modèle est trop complexe et représente trop de caractéristiques de l’expression des gènes du cancer, le modèle peut sembler apprendre parfaitement les données d’entraînement, mais faiblir lorsqu’il rencontre de nouvelles données. Cependant, en simplifiant le modèle en réduisant le nombre de caractéristiques, le modèle peut manquer les informations qui conduiraient à une classification précise des types de cancer.
Afin de trouver un équilibre entre la réduction du nombre de caractéristiques tout en extrayant les informations les plus pertinentes, l’équipe a concentré le modèle sur les signes de voies de développement altérées dans les cellules cancéreuses. Au fur et à mesure qu’un embryon se développe et que des cellules indifférenciées se spécialisent dans divers organes, une multitude de voies déterminent la façon dont les cellules se divisent, se développent, changent de forme et migrent. Au fur et à mesure que la tumeur se développe, les cellules cancéreuses perdent bon nombre des caractéristiques spécialisées d’une cellule mature. En même temps, ils commencent à ressembler à des cellules embryonnaires à certains égards, car ils acquièrent la capacité de proliférer, de se transformer et de métastaser dans de nouveaux tissus. De nombreux programmes d’expression génique qui pilotent l’embryogenèse sont connus pour être réactivés ou dérégulés dans les cellules cancéreuses.
Les chercheurs ont comparé deux grands atlas cellulaires, identifiant les corrélations entre les cellules tumorales et embryonnaires : le Cancer Genome Atlas (TCGA), qui contient des données d’expression génique pour 33 types de tumeurs, et le Mouse Organogenesis Cell Atlas (MOCA), qui dresse le profil de 56 trajectoires distinctes de cellules embryonnaires au fur et à mesure qu’elles se développent et se différencient.
« Les outils de résolution unicellulaire ont radicalement changé la façon dont nous étudions la biologie du cancer, mais comment nous rendons cette révolution percutante pour les patients est une autre question », explique Moiso. « Avec l’émergence d’atlas cellulaires développementaux, en particulier ceux qui se concentrent sur les premières phases de l’organogenèse telles que MOCA, nous pouvons étendre nos outils au-delà des informations histologiques et génomiques et ouvrir des portes à de nouvelles façons de profiler et d’identifier les tumeurs et de développer de nouveaux traitements. »
La carte résultante des corrélations entre les modèles d’expression génique du développement dans les cellules tumorales et embryonnaires a ensuite été transformée en un modèle d’apprentissage automatique. Les chercheurs ont décomposé l’expression génique d’échantillons de tumeurs du TCGA en composants individuels qui correspondent à un moment précis dans une trajectoire de développement, et ont attribué à chacun de ces composants une valeur mathématique. Les chercheurs ont ensuite construit un modèle d’apprentissage automatique, appelé Developmental Multilayer Perceptron (D-MLP), qui évalue une tumeur pour ses composants de développement, puis prédit son origine.
Classification des tumeurs
Après la formation, le D-MLP a été appliqué à 52 nouveaux échantillons de cancers particulièrement difficiles de primitif inconnu qui ne pouvaient pas être diagnostiqués à l’aide des outils disponibles. Ces cas représentaient les cas les plus difficiles observés à l’HGM sur une période de quatre ans commençant en 2017. Fait intéressant, le modèle a classé les tumeurs en quatre catégories et a fourni des prédictions et d’autres informations qui pourraient guider le diagnostic et le traitement de ces patients.
Par exemple, un échantillon provenait d’une patiente ayant des antécédents de cancer du sein qui présentait des signes de cancer agressif dans les espaces liquidiens autour de l’abdomen. Les oncologues ne pouvaient initialement pas trouver une masse tumorale et ne pouvaient pas classer les cellules cancéreuses à l’aide des outils dont ils disposaient à l’époque. Cependant, le D-MLP a fortement prédit le cancer de l’ovaire. Six mois après la première présentation de la patiente, une masse a finalement été découverte dans l’ovaire qui s’est avérée être à l’origine de la tumeur.
De plus, les comparaisons systématiques de l’étude entre les cellules tumorales et embryonnaires ont révélé des informations prometteuses, et parfois surprenantes, sur les profils d’expression génique de types de tumeurs spécifiques. Par exemple, aux premiers stades du développement embryonnaire, un tube intestinal rudimentaire se forme, les poumons et d’autres organes voisins provenant de l’intestin antérieur, et une grande partie du tube digestif se formant à partir de l’intestin moyen et postérieur. L’étude a montré que les cellules tumorales dérivées du poumon présentaient de fortes similitudes non seulement avec l’intestin antérieur, comme on pouvait s’y attendre, mais aussi avec les trajectoires de développement dérivées de l’intestin moyen et postérieur. Des découvertes comme celles-ci suggèrent que les différences dans les programmes de développement pourraient un jour être exploitées de la même manière que les mutations génétiques sont couramment utilisées pour concevoir des traitements anticancéreux personnalisés ou ciblés.
Bien que l’étude présente une approche puissante pour classer les tumeurs, elle présente certaines limites. Dans des travaux futurs, les chercheurs prévoient d’augmenter le pouvoir prédictif de leur modèle en incorporant d’autres types de données, notamment des informations issues de la radiologie, de la microscopie et d’autres types d’imagerie tumorale.
« L’expression des gènes du développement ne représente qu’une petite tranche de tous les facteurs qui pourraient être utilisés pour diagnostiquer et traiter les cancers », explique Garg. « L’intégration des informations de radiologie, de pathologie et d’expression génique est la véritable prochaine étape de la médecine personnalisée pour les patients atteints de cancer. »
Écrit par Bendta Schroeder
La source: Massachusetts Institute of Technology