Figure 1. Corius introduit le sujet de l’ADN dans sa présentation parce que la patte de moa dans une caverne était tellement bien préservée, qu'il a été possible d’en extraire de l’ADN et de le séquencer. Incroyable pour une espèce éteinte et une chance unique d’en apprendre plus au sujet de ces oiseaux disparus. (Crédit : Paquin & Roy-Savard).

PCR (Polymerase Chain Reaction; amplification en chaîne)

Pour mieux comprendre le séquençage génétique, il faut d’abord démystifier un élément clé utilisé dans plusieurs méthodes séquençage : le recours à l’amplification génétique qui se nomme PCR et qui permet d’augmenter la quantité d’ADN d’intérêt, facilitant ensuite son séquençage.

La technique de PCR dont nous avons beaucoup entendu parler durant la pandémie de COVID-19, existe en fait depuis la fin des années 1980. Elle est possible grâce à la découverte d’une enzyme qui résiste très bien à la chaleur et qui a été isolée d’une bactérie extrêmophile, Thermus aquaticus Brock & Freeze 1969, elle-même découverte et isolée d’une source thermale dans le parc de Yellowstone aux USA en 1969 par Thomas Brock et Hudson Freeze de l’université de l’Indiana. Cette enzyme appelée Taq Polymérase, est une ADN polymérase, similaire à celle que nous avons dans chacune de nos cellules et qui permet de répliquer notre ADN (voir le blogue sur l’ADN) lorsque nos cellules se divisent par mitose (cellules somatiques; par exemple les cellules de la peau) ou par méïose (cellules reproductrices aussi appelées gamètes : spermatozoïdes et ovules).

La réaction de PCR est basée sur deux observations : 1) l’ADN est bicaténaire (double hélice; voir texte sur l’ADN) et on peut facilement séparer les deux brins de l’hélice en le chauffant à température élevée. 2) La Taq Polymérase est capable de répliquer l’ADN à une température élevée, contrairement aux autres enzymes semblables. L’élévation de la température sépare les deux brins mais ne les détruit pas et la Taq Polymérase résiste à la chaleur élevée. Lorsqu’on diminue la température, les brins d’ADN se rassemblent pour reformer la double hélice. En dirigeant la réaction de PCR dans la région d’ADN qui nous intéresse, on fait une suite de cycle d’amplification; qui est une suite de chauffage et de baisse de température qui permet d’amplifier des millions de fois la quantité d’une portion d’intérêt dans l’ADN.

Figure 2. La quantité d’ADN d’intérêt double à chaque cycle et suit la fonction 2n, où « n » est le nombre de cycle d’amplification. Donc si on fait 10 cycles et qu’on a au départ une molécule d’ADN à amplifier, on aura 210 molécules de cet ADN, soit 1024 copies de la molécule qui nous intéresse une fois la réaction terminée. En général, dans une réaction de PCR standard, on fait plutôt entre 30 et 40 cycles d’amplification. En appliquant la même logique, on obtient donc théoriquement entre 230 et 240 molécules; soit entre 1 073 741 824 et 1 099 511 627 776 molécules. Le fait d’avoir autant de copies de cet ADN d’intérêt en facilite son étude, en particulier pour le séquencer. Cette approche par PCR a été utilisée comme étape préliminaire pour augmenter la quantité d’ADN disponible afin de faciliter le séquençage du génome des mammouths et est très utilisée dans plusieurs techniques modernes de séquençage.  voit 1 : température ambiante avant le début de la réaction; 2 : étape de dénaturation (séparation des deux brins), (habituellement 95oC); 3 : étape d’hybridation des amorces servant de repère pour diriger où l’enzyme va s’associer à l’ADN (température variable habituellement entre 50 et 60 C); 4 : étape de synthèse (réplication) de l’ADN d’intérêt (habituellement entre 60 C et 72 C).

Mais le séquençage, qu'est-ce que c'est au juste?

En fait, avant de répondre à cette question, demandons-nous plutôt qu’est-ce qu’une séquence? De façon générale, dans n’importe quelle situation de la vie, une séquence est tout simplement une suite d’opérations ou d’éléments qui a un sens, qui veut dire quelque chose. Ça peut par exemple être une suite de mots qui permet de donner un sens à une explication, comme dans la phrase que vous êtes en train de lire. En biologie, le séquençage est donc une méthode qui permet d’établir la séquence (l’ordre) dans lequel se suivent les nucléotides (A, C, G, T) dans l’ADN pour que l’information ait un sens.

Les objectifs du séquençage sont donc :

1. De déterminer l’ordre dans lequel les 4 nucléotides (A, C, G, T) s’agencent pour former l’ADN.
2. De déterminer cet ordre dans chaque chromosome chez l’humain ou n’importe quel organisme, puisque tous les êtres vivants utilisent le même code génétique, qui est universel (sur la terre en tous cas!).

La première méthode de séquençage de l’ADN a été inventée par Allan Maxam et Walter Gilbert en 1973 à l’Université de Cambridge en Angleterre. Cette méthode était basée sur une série de réactions chimiques et de réactifs potentiellement toxiques et permettait de séquencer de courtes portions d’ADN (quelques centaines de nucléotides) à la fois sur une période d’au moins une semaine.

Fred Sanger, un autre biochimiste britannique de la même université, a, quelques années plus tard, inventé une technique de séquençage basée, comme la réaction de PCR, sur l’utilisation d’ADN polymérases, ces enzymes naturellement présentes dans nos cellules pour répliquer notre ADN au moment opportun. Cette invention a permis à Fred Sanger d’obtenir un prix Nobel de chimie en 1980 (partagé avec Walter Gilbert). Imaginez, c’était son 2e, il en avait déjà reçu un 1er en 1958 pour ces recherches sur l’insuline. Y’a de ces gens qui voient ce que les autres ne voient pas… Quoi qu’il en soit, cette méthode de séquençage inventée par Sanger, est dite de 1ère génération et a, pendant plus de 35 ans (entre 1980 et 2015 environ), été la méthode de choix, et a permis de réaliser un des plus grands projets des temps modernes en biologie moléculaire. 

Figure 3. Représentation de la méthode de séquençage de type Sanger (séquençage de première génération)  (A) Grâce à l’enzyme ADN polymérase (cercle bleu), dont la fonction est de répliquer l’ADN, il est possible de déterminer l’ordre dans lequel se suivent tous les nucléotides (A, C, G, T) dans une molécule d’ADN d’intérêt. En utilisant un petit fragment d’ADN (amorce) correspondant au début de la région d’ADN à séquencer, la polymérase va se déplacer (flèche bleue) et utiliser les nucléotides présents dans le milieu afin de faire la réplication du brin d’ADN complémentaire à la région « à séquencer ».
Figure 3. Représentation de la méthode de séquençage de type Sanger (séquençage de première génération). (B) Une partie des nucléotides présents dans le milieu sont modifiés chimiquement afin d’émettre de la fluorescence. Dans l’exemple illustré ici, « G » porte une molécule fluorescente bleue, « C » une molécule fluorescente verte, « T » une molécule fluorescente jaune et « A » une molécule fluorescente rouge. Les 4 flacons de couleur contiennent un mélange des 4 nucléotides normaux et un nucléotide fluorescent. Ainsi, la polymérase pourra synthétiser un nouveau brin d’ADN (répliquer l’ADN) en utilisant les nucléotides normaux, mais à chaque fois qu’un de ces nucléotides fluorescents sera utilisé par la polymérase, la réplication d’ADN va stopper.
Figure 3. Représentation de la méthode de séquençage de type Sanger (séquençage de première génération. (C) Plusieurs molécules de différentes longueurs seront synthétisées et pourront être détectées dans une machine spéciale (un séquenceur) grâce au nucléotide fluorescent qu’elles portent à leur extrémité. Ainsi, l’ordre des couleurs fluorescentes qui seront détectées durant le processus permettra de déduire l’ordre des nucléotides dans la molécule d’ADN qui nous intéresse. Pour simplifier, dans l'exemple présenté en (C), la molécule à séquencer est longue de 10 nucléotides. Il y aura donc des molécules de toutes les longueurs entre 1 et 10 nucléotides. Le fragment le plus long (10 nucléotides; en bleu sur le fond noir) possède donc un “G” qui sera détecté par le séquenceur. Le fragment suivant (9 nucléotides; en rouge sur le fond noir) possède un “A” qui sera détecté par le séquenceur. Le principe est le même pour tous les fragments d’ADN synthétisés jusqu’au plus petit qui ne comporte qu’un nucléotide fluorescent (“T” en jaune dans l’exemple).   

En 1985, l’idée de séquencer le génome humain en entier est lancée et suite à la mise en place d’infrastructures nouvelles associées à une planification impliquant plusieurs scientifiques dans plusieurs laboratoires à travers le monde mais principalement en Europe et aux USA, l’aventure débute en 1989. À l’aide d’un budget de 3 milliards de dollars américains, les prévisions sont que le tout devrait être complété en 15 ans, soit en 2004. À l’époque des discussions intenses ont eu lieu en lien avec la pertinence d’accorder autant d’argent à un tel projet. Certains avançaient que ce projet, bien que prometteur, détournait de l’argent qui aurait pu aller ailleurs. De plus, certains scientifiques ont tenté de commercialiser le processus en engageant des fonds privés en échange de brevets éventuels sur des gènes humains. Des lois ont été mises en place pour protéger le projet d’une telle dérive (Accord des Bermudes en 1995) et le génome humain est maintenant considéré comme patrimoine de l’humanité et toute séquence du génome doit être publiée sur Internet.

Lors de la réalisation du Projet Génome Humain, entre 1988 et 2000, la méthode de Sanger s’est beaucoup raffinée et les chercheurs ont inventé des moyens techniques très élaborés pour augmenter la vitesse de séquençage, en introduisant entre autres l’apport de robots qui pouvaient travailler 24 heures/jour. Les premières ébauches de séquences du génome humain ont finalement été publiées dans la revue scientifique Nature en février 2001 et une version complète a par la suite été publiée en 2004.

Parmi les choses les plus fascinantes découvertes à l’aide de cette première séquence complète du génome humain, le nombre de gènes total a probablement été le plus surprenant. En effet, dans les années 1960, les scientifiques pensaient que le génome humain devait contenir plus de 6 millions de gènes. Au début de Projet Génome Humain, l’évaluation était plutôt de 100 000, un nombre beaucoup plus grand que chez d’autres organismes vivants beaucoup plus simples. Or, on évalue maintenant le nombre de gènes présents dans le génome humain entre 20 000 et 23 000, soit un peu plus que le petit ver nématode Caenorhabditis elegans (Maupas 1900), qui en compte un peu plus de 18 000 et moins que la souris domestique (30 000), le riz (37 000) ou même la paramécie, un organisme unicellulaire simple qui en compterait près de 40 000. Comme quoi la nature nous réserve des surprises et souligne à grands traits que les humains gagneraient à parfois demeurer un peu plus humbles même face à des êtres en apparence moins importants.

Aujourd’hui, la méthode de séquençage de Sanger est encore utilisée pour certaines applications et elle demeure utile même si elle est de plus en plus supplantée par les méthodes dites de de 2e et 3e génération, appelées « séquençage à haut débit », mieux connue sous le nom de next generation sequencing (NGS). Ces méthodes permettent de séquencer de très grandes molécules d’acide nucléique en quelques jours à peine en utilisant, la plupart du temps, des ADN polymérases. Il existe aujourd’hui deux classes de ces nouvelles méthodes de séquençage. La première classe, dite de 2e génération (par rapport à la méthode de Sanger qui est la 1ere génération), est appelée short read NGS et permet de séquencer plusieurs petits fragments d’ADN (100-200 nucléotides) très efficacement. La technologie la plus répandue associée à cette méthode de séquençage a été popularisée par la compagnie Illumina, qui demeure encore aujourd’hui le chef de file en la matière. Une analyse bio-informatique permet ensuite d’analyser des millions de fragments d’ADN afin de les assembler virtuellement pour reconstituer un génome d’intérêt, un peu comme on le ferait pour un casse-tête. Cette seconde partie d’analyse bio-informatique nécessite des ordinateurs puissants de même que des logiciels très spécialisés. La seconde classe de séquençage moderne est dite de 3e génération et est nommée long read sequencing. Deux approches ont été développées afin de séquencer de longs fragments d’ADN et ainsi réduire la difficulté et le temps de l’analyse bio-informatique associée au short read NGS. La première approche, développée par la compagnie Pacific Biosciences (PacBio) utilise une ADN polymérase alors que la seconde, développée par Oxford Nanopore Technologies, ne nécessite pas ce type d’enzyme et utilise une petite machine qui fait à peu près la taille d’un téléphone cellulaire. Ces méthodes n’étaient pas encore inventées lors de la réalisation du Projet Génome Humain. En fait, l’enthousiasme suscité par ce projet a plutôt servi de motivation à plusieurs scientifiques qui ont réussi à faire des pas de géants et de nouvelles techniques  ont complètement révolutionné le monde du séquençage. Ces nouvelles méthodes modernes permettent de plus en plus d’avancées dans différents domaines aujourd’hui. Par exemple, le génome du SRAS-CoV-2 (le coronavirus responsable de la COVID) a été séquencé en moins d’une semaine à l’aide de ce type de séquençage au début de la pandémie à la fin 2019. De plus, les fameux variants qu’on a commencé à voir apparaître vers la fin de 2020, ont été découverts parce qu’on faisait un suivi (par séquençage) sur l’évolution du coronavirus dans le temps, en sachant très bien que les variants allaient prendre la place du virus d’origine.

Les avancées technologiques de la dernière décennie ont permis d’élaborer des projets très ambitieux ayant mené à d’autres réalisations impressionnantes. Alors que le premier séquençage du génome humain a pris une douzaine d’années pour arriver à  terme, plusieurs projets en cours visent à séquencer des milliers d’exemplaires de ce même génome humain. On sait aujourd’hui que même si on peut établir une « séquence consensus » du génome humain, (comme l’a fait le Projet Génome), il y a des différences entre les génomes, comme il y a des différences entre les êtres humains. En séquençant plusieurs milliers de génomes à travers le monde, ces nouveaux projets devraient permettre d’établir un meilleur portrait réel de ce qu’est le génome humain et à coût moindre. En effet, alors que 3 milliards de dollars américains ont été nécessaires pour établir le premier génome humain, il en coûte aujourd’hui environ 1000 dollars pour faire la même chose en environ 1000 fois moins de temps.Le diagnostic moléculaire est devenu une réalité bien concrète dans les laboratoires médicaux. Grâce aux capacités du PCR et du séquençage, de plus en plus de maladies génétiques et de cancers peuvent être diagnostiqués en quelques jours. La biologie judiciaire, où l’on étudie l’ADN afin d’identifier des profils génétiques de suspects ayant commis divers types de crimes, profite également de plus en plus des techniques de séquençage modernes. Finalement, en 2010, Svante Pääbo, le père de la paléogénétique, et son équipe (les découvertes scientifiques se font rarement seul), ont réussi à séquencer le génome d’un homme de Néandertal à partir d’ADN extraits de fragments d’os. Suite à cet accomplissement et à plusieurs autres en lien avec l’étude de matériel génétique ancien depuis le milieu des années 1980, Svante Pääbo s’est vu décerné le prix Nobel de physiologie et médecine en 2022.

Auteur : Marc Desforges

Vers le blogue Fractalis suivant
Vers le blogue Fractalis précédent

Vers le répertoire de blogues Fractalis

Vous avez aimé cet article? Vous avez des questions ou des commentaires pour l'auteur? Écrivez-nous dans la partie commentaires un peu plus bas. Nous vous répondrons avec plaisir!

Publié 
11/9/2023
 dans la catégorie 
Fractalis