Formations CIB - Analyse de séquences - Travaux Pratiques

Ce TP a pu être réalisé grâce aux ressources disponibles sur Internet. Citons principalement http://bioweb.ncsa.uiuc.edu/~workshop/, http://www.hgmp.mrc.ac.uk/Registered/Help/emboss/ et http://www.lifl.fr/~touzet.

Prise en main

Les logiciels que nous allons utiliser sont majoritairement issus de la suite EMBOSS (EMBOSS homepage). Ils sont installés sur le serveur de la génopole (accessible à partir de http://www.genopole-lille.fr puis en cliquant sur 'Bioinformatique', puis sur 'Logiciels' (menu orange).

Ces logiciels possèdent tous la même interfaçe, pour chacun d'entre-eux vous devez saisir:

En cliquant sur le nom du programme (en haut à gauche) vous aurez des informations sur ce qu'il fait et sur les paramètres.

Pour chacun des logiciels, il existe deux interfaçes, l'une simple, l'autre dite avancée. Dans la version simple, seuls quelques paramètres peuvent être modifiés, les autres étant choisis par défaut. Nous utiliserons systématiquement la version avancée.

Vous devrez stocker des séquences et des résultats dans des fichiers. Pour ce faire, vous aurez simplement à enregistrer ces fichiers grâce aux menus de Netscape.


Recherches avec le dotplot et les outils d'alignement

    Premiers tests

    Nous allons utiliser deux logiciels pour effectuer les dotplot.
  1. Aller chercher les séquences nucléiques xl23808 et xlrhodop dans votre banque de données préférée (moi, je préfère SRS à infobiogen : http://www.infobiogen.fr/srs/). Les sauvegarder au format FASTA.
  2. Essayer le logiciel dotpath avec la taille de fenêtre par défaut et en sélectionnant l'option 'Display the overlapping matches'. Essayer avec d'autres tailles de fenêtre.
  3. En déselectionnant l'option 'Display the overlapping matches', vous demandez au logiciel de ne conserver que les fenêtres non chevauchantes. Observez le résultat avec 4 comme taille de fenêtre.
  4. Essayer le logiciel dotmatcher avec les paramètres par défaut. Faites varier le paramètre de seuil jusqu'à retrouver le résulat obtenu avec dotpath.
  5. Jouez sur le paramètre de la matrice de score et observez le résultat.

    Le logiciel stretcher fournit un alignement global entre deux séquences.

  6. Testez ce logiciel avec les deux séquences précédentes en fixant comme pénalité d'ouverture de gap 10.0 et comme pénalité d'extension de gap 0.5. Que retrouvez-vous ?

    Le logiciel matcher fournit un alignement local entre deux séquences.

  7. Testez ce logiciel avec les deux séquences et les mêmes paramètres que précédemment.
  8. En regardant d'un peu plus près les descriptions des deux séquences dans les banques, pouvait-on s'attendre à ces résultats ?

    Séquence nucléique / séquence protéique

    Il est maintenant temps d'aborder un exemple réel : les séquences nucléiques et protéiques des gènes pl6 chez l'homme et la souris.

  9. Recupérez les quatres séquences pl6_human.adn, pl6_mouse.adn, pl6_human.seq et pl6_mouse.seq.
  10. Construisez le dotplot des séquences ADN puis le dotplot des séquences protéiques avec dotmatcher. Sur quel type de séquence la similarité est-elle la plus visible ?
  11. Comparez maintenant les séquences avec l'algorithme d'alignement global stretcher.

    Introns / exons

  12. Construisez un dotplot avec dotmatcher sur les deux séquences nucléiques contenues dans les fichiers xlactcag.seq et xlacacr.seq. Que constatez-vous ?

    En fait, la première séquence est l'ADN d'un gène de l'actine chez Xenopus laevis et la seconde l'ADNc de ce même gène.

  13. Combien le gène compte-t-il d'exons ?
  14. Pour repérer exactement les sites d'épissage, faites un alignement global de ces deux séquences avec stretcher. A quelles positions se trouvent les introns et les exons ? Cela est-il cohérent avec les données contenues dans EMBL ?

    Conservation de domaine

    Vous allez maintenant comparer deux autres séquences: ce sont deux facteurs de transcription krox 24 et sp1, contenus dans les fichiers krox24.seq et sp1.seq.

  15. Construisez un dotplot avec dotmatcher de ces deux séquences.

    Vous devez observer une similitude locale : c'est un motif doigt de zinc, impliqué dans la liaison à l'ADN.

  16. Comparez ensuite les deux séquences avec un alignement local en utilisant matcher. Retrouver le résultat précédent.

    Analyse d'une séquence

    Le dotplot peut également être utilisé pour étudier les régularités structurelles d'une séquence. Vous allez tester cette approche sur les deux exemples suivants.

  17. Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier ben2.seqn (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
  18. Faible complexité : c'est la séquence contenue dans le fichier falciparum.seq. Vous devez observer quatre tâches en utilsant dotmatcher. A quoi chacune correspond-elle ?

    Programmation dynamique live

    http://www-igm.univ-mlv.fr/~lecroq/seqcomp/node6.html#SECTION006

Significativité des scores

    Le logiciel prss permet de tester la significativité entre deux séquences protéiques. Il crée une séquence aléatoire de même composition que la seconde séquence fournie et effectue un algorithme d'alignement. Il répète cela plusieurs fois.

  1. Allez chercher dans une banque deux séquences protéiques de longueurs similaires et qui n'ont a priori rien à voir. Testez prss avec ces deux séquences. Le résultat est-il celui attendu.
  2. Refaites le même test mais avec deux séquences proches.

Enzymes TPP (Thiamine Phosphate dependent enzymes)

  1. Rechercher les séquences des deux protéines ILV1_TOBAC et ILVB_ARATH.
  2. Afin d'avoir une idée de la ressemblance entre ces séquences, effectuez un dotplot avec dotpath.

    Pénalités associées aux gaps

  3. Effectuez un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 2, pénalité d'extension de gap = 2, matrice de scores = pam60. Enregistrez le fichier résultat et retennez la valeur du score et du % d'identité. Observez le scénario évolutif qui serait nécessaire pour que cet alignement soit le bon.

    L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap linéaire.

  4. Effectuez maintenant un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 12, pénalité d'extension de gap = 2, matrice de scores = pam60. Comparez le résultat avec l'alignement précédent.
  5. Quelles différences remarquez-vous ? Quelle est celui des deux alignements qui vous paraît le plus pertinent ?

    Nous voyons ici l'effet des fonctions de gaps. D'autre part, cela met en évidence qu'un alignement de meilleur score n'est pas forcément le meilleur alignement entre deux séquences.

    Matrices de score

  6. Rechercher la protéine DCP1_MAIZE.

    Les séquences précédentes (ILV1_TOB et ILVB_ARATH) sont de la famille des enzymes Thiamine Pyrophosphate (TPP). DCP1 est également de cette famille mais plus éloignée.

  7. Effectuez un alignement global entre ILVB_ARATH et DCP1_MAIZE avec stretcher avec comme paramètres : matrice=blosum62, ouverture de gap=12, extension de gap=2. Remarquez combien le score de cet alignement et le pourcentage d'identité sont faibles. Pensez-vous que ce soit un bon alignement ?
  8. Pensez-vous que la matrice BLOSUM62 soit adéquat dans ce cadre. Quelle matrice pourrait être mailleure ? Pourquoi ? Refaites cet alignement avec une matrice que vous pensez être meilleure. Qu'en pensez-vous ?

    Essayons avec les matrices PAM.

  9. Construisez les alignements avec PAM30 et PAM350. Quel est le meilleur alignement ? Etait-ce prévisible ?

    En confrontant les résultats de l'alignement avec les structures secondaires, on dispose d'un critère de décision supplémentaire pour juger de la validité d'un alignement

    Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'on les deux séquences étudiées, les meilleurs résultats étant obtenus lorsque on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.

    Alignement local

    Les alignements locaux sont souvent plus utiles que les alignements globaux. Les séquences proches partagent le plus souvent des régions similaires et non leur totalité.

    Nous allons tenter d'identifier si un fragment inconnu de protéine est relatif aux deux protéines précédentes ILVB_ARATH et DPC1_MAIZE.

  10. Récupérer la séquence inconnue suivante: fragment_inconnu.
  11. Effectuez un alignement global avec stretcher entre ce peptide et ILV1_TOBAC avec comme paramètres la matrice de score BLOSUM45 et le jeu de pénalités de gaps 12/2. Que pensez-vous de cet alignement ? Comment expliquez-vous ce résultat ?
  12. Faites maintenant un alignement local avec matcher avec les mêmes paramètres. Choisissez de voir les 10 meilleurs alignements locaux.

    Afin de vérifier si ces alignements locaux sont pertinents, nous allons utiliser la base de données BLOCKS (http://blocks.fhcrc.org). Cette base contient des fragments similaires à certaines protéines. C'est à partir de ceux-ci que les matrices BLOSUM sont construites.

  13. Surfez un peu sur le site de BLOCKS.
  14. Recherchez si il y a un bloc correspondant aux séquences que nous traitons.

    Normalement vous devez trouver le bloc référencé IPB000399

  15. Recherchez si il y a des fragments correspondants aux alignements locaux trouvés plus haut.

    Alignement local avec des protéines de taille similaire

  16. Faites un alignement local avec matcher entre ILV1_TOBAC et ILVB_ARATH (matrice BLOSUM62 gaps 12/2). Que dire du premier alignement ?

    Les autres alignements permettent de mettre en avant quelques conclusions trop hatives qui pourraient être faites quant au résultat fournit par un alignement local.

  17. Observez les alignements numéro 6 et 8. Comparez leurs scores, leurs pourcentages d'identité et leurs longueurs. Quelle conclusions peut-on en tirer ?
  18. Regardez les positions des segemnts identifiés homolgues dans l'alignement local numéro 6. Est-ce biologiquement pertinent ? Avez-vous une explication ?
  19. Réalisez un dotplot avec dotmatcher pour ces deux séquences. Cela confirme-t-il votre intuition ?

Alignement multiple

  1. Recherchez l'ensemble des séquences protéiques pour le gène opsin rh2. Conservez l'ensemble des séquences dans un seul fichier au format FASTA.
  2. Construisez un alignement multiple avec le logiciel emma. Regardez les fichiers résultats et sauvez l'alignement multiple obtenu.

    Un travail intéressant à partir d'un alignement multiple consiste à recherche des consensus, soit pour la séquence complète, soit pour des régions.

    Une approche très intéressante a été proposée par Gribskov et al (1987) et consiste à définir un profil pour un ensemble de protéines à partir d'un alignement multiple. De cet alignement multiple est déduit une table d'occurences des acides aminés à des positions spécifiques de la séquence. Il permet d'en déduire un consensus. A partir de cette matrice et d'une version modifiée de l'algorithme de Smith et Waterman, on peut mesurer la similarité entre une nouvelle séquence et ce profil.

  3. prophecy permet de créer un profil à partir d'un alignement multiple. utilisez-le avec votre alignement avec comme type de profil 'Gribskov'.
  4. Sauvegarder le profil dans un fichier.
  5. Récupérez la séquence consensus et sauvegardez-la dans un fichier.

    Nous allons maintenant utiliser le logiciel prophet qui permet de comparer une séquence à un profil.

  6. Rechechez la séquence protéique correspondant à la séquence nucléique xlrhodop que nous avons utilisée au début du TP.
  7. Utilisez prophet avec cette séquence et le profil trouvé avant. Quelle conclusion en tirer ?

    Et avec un alignement local ...

  8. Faites un alignement local avec matcher entre la séquence consensus et le peptide xlrhodop. Retrouver-vous des résultats similaires ?

    Vérifions notre intuition

  9. A partir du site de BLOCKS, choisissez l'item 'Multiple Alignment Processor' qui va vous permettre de rechercher des blocs au sein d'un alignement multiple. Essayez sur votre alignement.
  10. Regardez les fichiers résultats obtenus, en particulier le fichier Logo (au format gif).
  11. Utilisez le lien LAMA pour identifier si ces blocks sont déjà connus.
  12. Trouvez-vous une confirmation à la conclusion faite après l'alignement local entre la séquence consensus et xlrhodop ?

Comparaison des méthodes d'alignement multiple

Vous pouvez essayer de faire la série d'exercices qui se trouve à cette page : http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/mulali.html (section 3.2).
Jean-Stephane.Varre