Formations CIB - Analyse de séquences - Travaux Pratiques
Ce TP a pu être réalisé grâce aux ressources disponibles sur Internet. Citons principalement http://bioweb.ncsa.uiuc.edu/~workshop/, http://www.hgmp.mrc.ac.uk/Registered/Help/emboss/ et http://www.lifl.fr/~touzet.
Les logiciels que nous allons utiliser sont majoritairement issus
de la suite EMBOSS (EMBOSS
homepage). Ils sont installés sur le serveur de la génopole
(accessible à partir de http://www.genopole-lille.fr puis
en cliquant sur 'Bioinformatique', puis sur 'Logiciels' (menu
orange).
Ces logiciels possèdent tous la même interfaçe, pour chacun
d'entre-eux vous devez saisir:
- votre email (ici on se contentera de mettre 'a')
- vos
données (le plus souvent au format FASTA)
- les paramètres du programme
En cliquant sur le nom du programme (en haut à gauche) vous aurez
des informations sur ce qu'il fait et sur les paramètres.
Pour chacun des logiciels, il existe deux interfaçes, l'une
simple, l'autre dite avancée. Dans la version simple, seuls
quelques paramètres peuvent être modifiés, les autres étant
choisis par défaut. Nous utiliserons systématiquement la version
avancée.
Vous devrez stocker des séquences et des résultats dans des
fichiers. Pour ce faire, vous aurez simplement à enregistrer ces
fichiers grâce aux menus de Netscape.
Premiers tests
Nous allons utiliser deux logiciels pour effectuer les dotplot.
- dotpath permet de dessiner un dotplot avec une taille de mot fixée.
- dotmatcher permet de filtrer les fenêtres avec un seuil.
- Aller chercher les séquences nucléiques xl23808 et
xlrhodop dans votre banque de données préférée (moi, je
préfère SRS à infobiogen : http://www.infobiogen.fr/srs/). Les
sauvegarder au format FASTA.
- Essayer le logiciel dotpath avec la taille de
fenêtre par défaut et en sélectionnant l'option 'Display the
overlapping matches'. Essayer avec d'autres tailles de fenêtre.
- En déselectionnant l'option 'Display the overlapping
matches', vous demandez au logiciel de ne conserver que les
fenêtres non chevauchantes. Observez le résultat avec 4 comme
taille de fenêtre.
- Essayer le logiciel dotmatcher avec les
paramètres par défaut. Faites varier le paramètre de seuil
jusqu'à retrouver le résulat obtenu avec dotpath.
- Jouez sur le paramètre de la matrice de score et observez le résultat.
Le logiciel stretcher fournit un alignement global entre deux séquences.
- Testez ce logiciel avec les deux séquences précédentes en
fixant comme pénalité d'ouverture de gap 10.0 et comme pénalité
d'extension de gap 0.5. Que retrouvez-vous ?
Le logiciel matcher fournit un alignement local entre deux séquences.
- Testez ce logiciel avec les deux séquences et les mêmes
paramètres que précédemment.
- En regardant d'un peu plus près les descriptions des deux
séquences dans les banques, pouvait-on s'attendre à ces
résultats ?
Séquence nucléique / séquence protéique
Il est maintenant temps d'aborder un exemple réel : les séquences nucléiques et protéiques des gènes pl6 chez l'homme et la souris.
- Recupérez les quatres séquences pl6_human.adn,
pl6_mouse.adn, pl6_human.seq et
pl6_mouse.seq.
- Construisez le dotplot des séquences ADN puis le dotplot des
séquences protéiques avec dotmatcher. Sur quel type de
séquence la similarité est-elle la plus visible ?
- Comparez maintenant les séquences avec l'algorithme d'alignement
global stretcher.
Introns / exons
- Construisez un dotplot avec dotmatcher sur les deux
séquences nucléiques contenues dans les fichiers
xlactcag.seq et xlacacr.seq. Que
constatez-vous ?
En fait, la première séquence est l'ADN d'un gène de l'actine
chez Xenopus laevis et la seconde l'ADNc de ce même
gène.
- Combien le gène compte-t-il d'exons ?
- Pour repérer exactement les sites d'épissage, faites un alignement
global de ces deux séquences avec stretcher. A quelles positions se
trouvent les introns et les exons ? Cela est-il cohérent avec les
données contenues dans EMBL ?
Conservation de domaine
Vous allez maintenant comparer deux autres séquences: ce sont deux
facteurs de transcription krox 24 et sp1, contenus dans
les fichiers krox24.seq et sp1.seq.
- Construisez un dotplot avec dotmatcher de ces deux séquences.
Vous devez observer une similitude locale : c'est un motif doigt
de zinc, impliqué dans la liaison à l'ADN.
- Comparez ensuite les deux séquences avec un alignement local en
utilisant matcher. Retrouver le résultat précédent.
Analyse d'une séquence
Le dotplot peut également être utilisé pour étudier les
régularités structurelles d'une séquence. Vous allez tester cette
approche sur les deux exemples suivants.
- Localisation de répétitions : analysez avec dotpath la séquence de rétrotransposon de tabac contenue dans le fichier ben2.seqn (cochez la case 'Display the overlapping matches'). En jouant sur le paramètre de taille de fénêtre, identifiez le nombre de répétitions significatives ?
- Faible complexité : c'est la séquence contenue dans le fichier
falciparum.seq. Vous devez observer quatre tâches en
utilsant dotmatcher. A quoi chacune correspond-elle ?
Programmation dynamique live
http://www-igm.univ-mlv.fr/~lecroq/seqcomp/node6.html#SECTION006
Le logiciel prss permet de tester la significativité entre deux séquences protéiques. Il crée une séquence aléatoire de même composition que la seconde séquence fournie et effectue un algorithme d'alignement. Il répète cela plusieurs fois.
- Allez chercher dans une banque deux séquences protéiques de longueurs similaires et qui n'ont a priori rien à voir. Testez prss avec ces deux séquences. Le résultat est-il celui attendu.
- Refaites le même test mais avec deux séquences proches.
- Rechercher les séquences des deux protéines ILV1_TOBAC et ILVB_ARATH.
- Afin d'avoir une idée de la ressemblance entre ces séquences, effectuez un dotplot avec dotpath.
Pénalités associées aux gaps
- Effectuez un alignement global avec le logiciel
stretcher en prenant comme paramètres : pénalité
d'ouverture de gap = 2, pénalité d'extension de gap = 2, matrice de
scores = pam60. Enregistrez le fichier résultat et retennez la valeur
du score et du % d'identité. Observez le scénario évolutif qui serait
nécessaire pour que cet alignement soit le bon.
L'alignement obtenu est spécifique aux valeurs de paramètres, en particulier au fait que nous sommes dans le cadre d'une fonction de gap linéaire.
- Effectuez maintenant un alignement global avec le logiciel stretcher en prenant comme paramètres : pénalité d'ouverture de gap = 12, pénalité d'extension de gap = 2, matrice de scores = pam60. Comparez le résultat avec l'alignement précédent.
- Quelles différences remarquez-vous ? Quelle est celui des deux alignements qui vous paraît le plus pertinent ?
Nous voyons ici l'effet des fonctions de gaps. D'autre part, cela met en évidence qu'un alignement de meilleur score n'est pas forcément le meilleur alignement entre deux séquences.
Matrices de score
- Rechercher la protéine DCP1_MAIZE.
Les séquences précédentes (ILV1_TOB et ILVB_ARATH) sont de la famille des enzymes Thiamine Pyrophosphate (TPP). DCP1 est également de cette famille mais plus éloignée.
- Effectuez un alignement global entre ILVB_ARATH et DCP1_MAIZE avec
stretcher avec comme paramètres : matrice=blosum62,
ouverture de gap=12, extension de gap=2. Remarquez combien le score
de cet alignement et le pourcentage d'identité sont
faibles. Pensez-vous que ce soit un bon alignement ?
-
Pensez-vous que la matrice BLOSUM62 soit adéquat dans ce cadre. Quelle matrice pourrait être mailleure ? Pourquoi ? Refaites cet alignement avec une matrice que vous pensez être meilleure. Qu'en pensez-vous ?
Essayons avec les matrices PAM.
- Construisez les alignements avec PAM30 et PAM350. Quel est le meilleur alignement ? Etait-ce prévisible ?
En confrontant les résultats de l'alignement avec les structures secondaires, on dispose d'un critère de décision supplémentaire pour juger de la validité d'un alignement
Il faut retenir que les matrices de scores affectent les résultats d'un alignement et qu'il est difficile de juger de la qualité d'un alignement de deux séquences. Le choix de la matrice dépend de la divergence qu'on les deux séquences étudiées, les meilleurs résultats étant obtenus lorsque on utilise la matrice la plus sensible par rapport au niveau de divergence réel des séquences.
Alignement local
Les alignements locaux sont souvent plus utiles que les alignements
globaux. Les séquences proches partagent le plus souvent des régions
similaires et non leur totalité.
Nous allons tenter d'identifier si un fragment inconnu de
protéine est relatif aux deux protéines précédentes ILVB_ARATH et
DPC1_MAIZE.
-
Récupérer la séquence inconnue suivante: fragment_inconnu.
-
Effectuez un alignement global avec stretcher entre ce
peptide et ILV1_TOBAC avec comme paramètres la matrice de score
BLOSUM45 et le jeu de pénalités de gaps 12/2. Que pensez-vous de cet
alignement ? Comment expliquez-vous ce résultat ?
-
Faites maintenant un alignement local avec matcher avec les
mêmes paramètres. Choisissez de voir les 10 meilleurs alignements
locaux.
Afin de vérifier si ces alignements locaux sont pertinents, nous
allons utiliser la base de données BLOCKS (http://blocks.fhcrc.org). Cette base contient des fragments
similaires à certaines protéines. C'est à partir de ceux-ci que les
matrices BLOSUM sont construites.
- Surfez un peu sur le site de BLOCKS.
- Recherchez si il y a un bloc correspondant aux séquences que nous traitons.
Normalement vous devez trouver le bloc référencé IPB000399
- Recherchez si il y a des fragments correspondants aux alignements
locaux trouvés plus haut.
Alignement local avec des protéines de taille similaire
- Faites un alignement local avec matcher entre
ILV1_TOBAC et ILVB_ARATH (matrice BLOSUM62 gaps 12/2). Que dire du
premier alignement ?
Les autres alignements permettent de mettre en avant quelques
conclusions trop hatives qui pourraient être faites quant au résultat
fournit par un alignement local.
- Observez les alignements numéro 6 et 8. Comparez leurs scores,
leurs pourcentages d'identité et leurs longueurs. Quelle conclusions
peut-on en tirer ?
- Regardez les positions des segemnts identifiés homolgues dans
l'alignement local numéro 6. Est-ce biologiquement pertinent ?
Avez-vous une explication ?
- Réalisez un dotplot avec dotmatcher pour ces deux
séquences. Cela confirme-t-il votre intuition ?
- Recherchez l'ensemble des séquences protéiques pour le gène opsin
rh2. Conservez l'ensemble des séquences dans un seul fichier au format
FASTA.
- Construisez un alignement multiple avec le logiciel
emma. Regardez les fichiers résultats et sauvez
l'alignement multiple obtenu.
Un travail intéressant à partir d'un alignement multiple
consiste à recherche des consensus, soit pour la séquence complète,
soit pour des régions.
Une approche très intéressante a été proposée par Gribskov et
al (1987) et consiste à définir un profil pour un ensemble de
protéines à partir d'un alignement multiple. De cet alignement
multiple est déduit une table d'occurences des acides aminés à des
positions spécifiques de la séquence. Il permet d'en déduire un
consensus. A partir de cette matrice et d'une version modifiée de
l'algorithme de Smith et Waterman, on peut mesurer la similarité entre
une nouvelle séquence et ce profil.
- prophecy permet de créer un profil à partir d'un
alignement multiple. utilisez-le avec votre alignement avec comme type
de profil 'Gribskov'.
- Sauvegarder le profil dans un fichier.
- Récupérez la séquence consensus et sauvegardez-la dans un fichier.
Nous allons maintenant utiliser le logiciel prophet qui permet de comparer une séquence à un profil.
- Rechechez la séquence protéique correspondant à la séquence
nucléique xlrhodop que nous avons utilisée au début du TP.
- Utilisez prophet avec cette séquence et le profil
trouvé avant. Quelle conclusion en tirer ?
Et avec un alignement local ...
- Faites un alignement local avec matcher entre la
séquence consensus et le peptide xlrhodop. Retrouver-vous des
résultats similaires ?
Vérifions notre intuition
- A partir du site de BLOCKS, choisissez l'item 'Multiple Alignment
Processor' qui va vous permettre de rechercher des blocs au sein d'un
alignement multiple. Essayez sur votre alignement.
- Regardez les fichiers résultats obtenus, en particulier le fichier
Logo (au format gif).
- Utilisez le lien LAMA pour identifier si ces blocks sont déjà connus.
- Trouvez-vous une confirmation à la conclusion faite après l'alignement
local entre la séquence consensus et xlrhodop ?
Vous pouvez essayer de faire la série d'exercices qui se trouve à cette page : http://www.techfak.uni-bielefeld.de/bcd/Curric/MulAli/mulali.html (section 3.2).
Jean-Stephane.Varre