TP d'utilisation de logiciels de Bioinformatique.

Ce TP a pour but de vous faire utiliser quelques uns des logiciels présentés en cours. Tous les logiciels utilisés sont gratuits et lancés via le web. Il est préférable de garder ouvertes les différentes pages de résultats obtenues au cours du TP. Elles sont parfois utilisées à plusieurs reprises.

1. Etude d'un site de fixation de facteur de transcription.

Nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.

Pour simplifier votre travail, j'ai extrait de la banque de données EMBL les sites de fixation de cette protéine qui ont été déterminés expérimentalement. Voici leurs séquences :

>embl_features|AB026663_8 protein_bind: AP-1
tgactcag
>embl_features|AF077374_4 protein_bind: AP-1
tgagtca
>embl_features|AJ413948_9 protein_bind: AP-1 binding element
tgagtcag
>embl_features|AJ413949_9 protein_bind: AP-1 binding element
tgagtcag
>embl_features|D26110_6 protein_bind: Ets family-binding site (EBS)
aggat
>embl_features|D26110_7 protein_bind: AP-1-binding site
tgactta
>embl_features|L07488_5 protein_bind: AP-1
tgactca
>embl_features|L07488_7 protein_bind: NFAT; AP-1
cggagcccctgagtca
>embl_features|L07488_8 protein_bind: NFAT; AP-1
tgatgtca
>embl_features|L07488_10 protein_bind: NFAT; AP-1
tgactcttgctttcct
>embl_features|L07488_11 protein_bind: AP-1
tgactct
>embl_features|L34019_4 protein_bind: down-regulation of AFP promoter by c-jun and c-fos
tgaacataaa
et l'alignement multiple de ces séquences :

CLUSTAL W (1.83) multiple sequence alignment


embl_features|D26110_6        --------AGGAT------------
embl_features|L07488_8        ---------TGATGTCA--------
embl_features|AF077374_4      ---------TGAGTCA---------
embl_features|L07488_7        CGGAGCCCCTGAGTCA---------
embl_features|AJ413948_9      ---------TGAGTCAG--------
embl_features|AJ413949_9      ---------TGAGTCAG--------
embl_features|AB026663_8      ---------TGACTCAG--------
embl_features|L07488_5        ---------TGACTCA---------
embl_features|L07488_10       ---------TGACTCTTGCTTTCCT
embl_features|L07488_11       ---------TGACTCT---------
embl_features|D26110_7        ---------TGACTTA---------
embl_features|L34019_4        ---------TGAACATAAA------

2. Détermination d'une expression régulière représentant le site.

Nous allons construire manuellement une expression régulière représentant ce site de fixation à partir de l'alignement multiple. La représentation Weblogo permet de construire plus facilement ce site de fixation. Faites le WebLogo à partir de l'alignement en demandant d'agrandir l'image à 36 X 10 cm pour une meilleure lisibilité.

Est-ce que le motif est bien conservé sur toutes les postions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?
Convention d'écriture : chaque position est séparée par un - ; une alternative entre plusieurs lettres est indiquée par la liste des lettres entre crochets.
Ex : A-[TG]-G représente un A suivit d'un T ou d'un G suivit d'un G.

3. Recherche de l'expression régulière déterminée.

Nous allons tester si notre expression régulière est caractéristique du site de fixation d'AP-1 en la recherchant dans une séquence dont le site de fixation a été déterminé expérimentalement. Cette séquence est dans une entrée qui porte le numéro d'accession AF077374
Recherchez cette entrée dans la banque de séquences nucléiques à l'aide de Entrez.

Quelle est la position du site de fixation du facteur de transcription ?
Mémorisez la séquence au format FASTA à l'aide du menu déroulant "Display".

Maitnenant, rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement. Nous allons utiliser le logiciel Fuzznuc

Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et préciser qu'elle est recherchée contre l'entrée AF077374 de la banque embl. Précisez également que la recherche doit être faite sur les deux brins ("Search complementary strand").

Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?

4. Construction et recherche d'un profil.

La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Prophet.

Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?
D'après-vous pourquoi ?
Que faudrait-il faire pour y remédier ?

II. Comparaison de séquences.

Le but ici est de retrouver sur la séquence d'un chromosome tous les ARNt qu'elle contient. Ces ARN ont une structure 2D particulière composée de 4 tiges partant d'un coeur.

1. Recherche dans les annotations, par mots-clés.

La séquence de chromosome étudiée et celle d'une bactérie : Rhodobacter sphaeroides. Elle est déjà annotée et les informations sont contenues dans une entrée qui porte le numéro d'accession : CP000144
Pour essayer de localiser les ARNt présents sur cette séquence, nous allons utiliser la séquence d'ARNt extrait d'une autre bactérie, E. coli. Cet ARNt est présent dans une entrée qui porte le numéro d'accesion : M24861

Nous allons rechercher les deux entrées à l'aide du logiciel Entrez développé au NCBI. Les opérateurs possibles pour combiner les termes d'une requête sont : AND, OR et NOT à écrire en majuscules. Construisez une requête contre la banque "nucleotide sequences" pour trouver les deux entrées en même temps.

Quelle requête permet d'obtenir les 2 entrées recherchées ?

2. Consultation d'une entrée.

Vous pouvez maintenant consultez l'entrée entière de Rhodobacter sphaeroides pour répondre aux questions suivantes :

Quel est la taille du chromosome de cette bactérie ?
Combien d'ARNt (tRNA en anglais) sont présents sur ce chromosome ?
Noter les positions de début et de fin de ces ARNt sur le chromosome.

Maintenant, mémoriser la séquence de ce chromosome au format FASTA (ce format est utilisé par les logiciels de bioinformatique). Pour cela, vous pouvez utiliser le menu déroulant qui permet de changer le format d'affichage des données (Display).

3. Blast.

Blast est le logiciel le plus utilisé pour comparer une séquence aux séquences d'une banque. L'interface web la plus connue est celle du NCBI. Elle offre de nombreuses possibilités. Plusieurs versions de Blast sont disponibles. En ce qui concerne la comparaison de séquences nucléiques entre elles, il existe :

Nous allons rechercher l'ARNt trouvé dans la séquence du chromosome à l'aide de BlastN puis de Discontinuous MegaBlast pour comparer la sensibilité de ces deux programmes. Pour cela, copier-coller la séquence de l'ARNt au format FASTA dans le formulaire. Puis précisez que l'on limite la recherche à la séquence de Rhodobacter sphaeroides en écrivant : CP000144[accession] dans la zone de saisie précédée de "Limit by entrez query".

Combien d'alignements sont trouvés par chaque programme ?
Est-ce que les résultats de BlastN vous semblent pertinents (est-ce que les alignements trouvés correspondent à des ARNt annotés dans l'entrée) ?
Est-ce que ceux de Discontinuous MegaBlast sont très différents de ceux de BlastN ?
Est-ce qu'ils sont meilleurs ?

4. YASS.

Nous allons maintenant utiliser YASS, le logiciel développé par des membres de l'équipe Bioinfo de Lille. Celui-ci utilise des graines espacées. Vous devez dans un premier temps lui indiquer les fichiers qui contiennent les 2 séquences à comparer (l'ARNt et le chromosome). Puis, changer les paramètres en lui demandant d'utiliser les graines (seed Pattern) de haute sensibilité (High sensitivity). Il faut aussi diminuer le seuil de E-value à 0.01 pour obtenir plus de résultats.

Combiens d'alignements sont trouvés par YASS ?
Est-ce qu'il y en a plus ou moins que ceux trouvés par Discontinuous MegaBlast ?
Est-ce qu'il y a des alignements communs aux deux logiciels ?
Est-ce que les résultats trouvés sont plus pertinents ?

5. Prédiction de structure à l'aide de Carnac.

Les régions trouvées par YASS sont censées être des ARNt. Nous allons vérifier si ces régions ont bien une structure typique des ARNt en utilisant le logiciel CARNAC (encore développé par des lillois !). Ce logiciel prédit une structure commune d'un ensemble de séquences.
A partir de la page de résultat de YASS, il est possible d'avoir tous les fragements de séquences alignés au format FASTA. Vous pouvez donner directement les séquences ainsi obtenues à CARNAC.

Est-ce q'une structure commune a toutes les séquences extraites par YASS a été trouvée ?
D'après-vous pourquoi ?

En fait, YASS n'a pas sélectionné que des ARNt et, en plus les séquences d'ARNt trouvées sont souvent incomplètes. CARNAC ne peut pas fonctionner correctement sur ce jeu de données.

Je vous donne maintenant les vrais ARNt présents sur le chromosome de Rhodobacter sphaeroides, CARNAC trouve bien la structure typique des ARNt. Vous pouvez tester.


>refseq_features|NC_007494_5 tRNA: RSP_4348 
gggtcggtagctcaggtggttagagcgcacgcctgataagcgtgaggtcggaggttcaag
tcctcctcgacccacca
>refseq_features|NC_007494_7 tRNA: RSP_4349 
ggggccttagctcagctgggagagcacctgctttgcaagcagggggtcatcggttcgatc
ccgataggctccacca
>refseq_features|NC_007494_13 tRNA: RSP_4351 
cgcggggtggagcagcccggtagctcgtcaggctcataacctgaaggccgcaggttcaaa
tcctgcccccgcaacca
>refseq_features|NC_007494_41 tRNA: RSP_4308 
ggagaggtggcagagtggtcgaatgcggcggtctcgaaaaccgttgtcggtgtgagccga
cccagggttcgaatccctgtctctccgcca
>refseq_features|NC_007494_113 tRNA: RSP_4353 
gggtcggtagctcaggtggttagagcgcacgcctgataagcgtgaggtcggaggttcaag
tcctcctcgacccacca
>refseq_features|NC_007494_115 tRNA: RSP_4354 
ggggccttagctcagctgggagagcacctgctttgcaagcagggggtcatcggttcgatc
ccgataggctccacca
>refseq_features|NC_007494_119 tRNA: RSP_4356 
cgcggggtggagcagcccggtagctcgtcaggctcataacctgaaggccgcaggttcaaa
tcctgcccccgcaacca
>refseq_features|NC_007494_488 tRNA: RSP_4319 
gcgggtatggtgaaatggtatcacacgagccttccaagctcttggcgcgggttcgattcc
cgctacccgctcca
>refseq_features|NC_007494_1126 tRNA: RSP_4306 
ggaagcgtggccgagtggtttaaggctctggtcttgaaaaccagcgacggtgcgagccgt
ccgtgggttcgaatcccaccgcttccgcca
>refseq_features|NC_007494_1289 tRNA: RSP_4339 
ggggtcgtagctcagttgggagagcgcgtcgttcgcaatgacgaggtcaggggttcgatc
cccctcggctccacca
>refseq_features|NC_007494_2115 tRNA: RSP_4303 
ggcgaggtagctcagctggttagagcacacgactcataatcgtggggtcgggggttcaag
tccccccctcgccacca
>refseq_features|NC_007494_2689 tRNA: RSP_4337 
gggtggttagctcagttggtagagcgtctcgtttacaccgaggatgtcgggggttcgagc
ccctcaccacccacca