Nous allons étudier le site de fixation d'un facteur de transcription de la famille bZIP : AP1_human.
Pour simplifier votre travail, j'ai extrait de la banque de données EMBL les sites de fixation de cette protéine qui ont été déterminés expérimentalement. Voici leurs séquences :>embl_features|AB026663_8 protein_bind: AP-1 tgactcag >embl_features|AF077374_4 protein_bind: AP-1 tgagtca >embl_features|AJ413948_9 protein_bind: AP-1 binding element tgagtcag >embl_features|AJ413949_9 protein_bind: AP-1 binding element tgagtcag >embl_features|D26110_6 protein_bind: Ets family-binding site (EBS) aggat >embl_features|D26110_7 protein_bind: AP-1-binding site tgactta >embl_features|L07488_5 protein_bind: AP-1 tgactca >embl_features|L07488_7 protein_bind: NFAT; AP-1 cggagcccctgagtca >embl_features|L07488_8 protein_bind: NFAT; AP-1 tgatgtca >embl_features|L07488_10 protein_bind: NFAT; AP-1 tgactcttgctttcct >embl_features|L07488_11 protein_bind: AP-1 tgactct >embl_features|L34019_4 protein_bind: down-regulation of AFP promoter by c-jun and c-fos tgaacataaaet l'alignement multiple de ces séquences :
CLUSTAL W (1.83) multiple sequence alignment embl_features|D26110_6 --------AGGAT------------ embl_features|L07488_8 ---------TGATGTCA-------- embl_features|AF077374_4 ---------TGAGTCA--------- embl_features|L07488_7 CGGAGCCCCTGAGTCA--------- embl_features|AJ413948_9 ---------TGAGTCAG-------- embl_features|AJ413949_9 ---------TGAGTCAG-------- embl_features|AB026663_8 ---------TGACTCAG-------- embl_features|L07488_5 ---------TGACTCA--------- embl_features|L07488_10 ---------TGACTCTTGCTTTCCT embl_features|L07488_11 ---------TGACTCT--------- embl_features|D26110_7 ---------TGACTTA--------- embl_features|L34019_4 ---------TGAACATAAA------
Nous allons construire manuellement une expression régulière représentant ce site de fixation à partir de l'alignement multiple. La représentation Weblogo permet de construire plus facilement ce site de fixation. Faites le WebLogo à partir de l'alignement en demandant d'agrandir l'image à 36 X 10 cm pour une meilleure lisibilité.
Est-ce que le motif est bien conservé sur toutes les postions ?
Quelle expression régulière peut-on définir à partir de cette représentation ?
Convention d'écriture : chaque position est séparée par un - ; une alternative entre plusieurs lettres
est indiquée par la liste des lettres entre crochets.
Ex : A-[TG]-G représente un A suivit d'un T ou d'un G suivit d'un G.
Quelle est la position du site de fixation du facteur de transcription ?
Mémorisez la séquence au format FASTA à l'aide du menu déroulant "Display".
Maitnenant, rechercher l'expression régulière déterminée à partir du WebLogo contre le l'entrée AF077374 qui contient un site de fixation AP-1 déterminé expérimentalement. Nous allons utiliser le logiciel Fuzznuc
Vous pouvez lancer Fuzznuc avec votre expression régulière du type Prosite et
préciser qu'elle est recherchée contre l'entrée AF077374 de la banque embl. Précisez également que la recherche doit être faite sur les
deux brins ("Search complementary strand").
Combien de fois l'expression régulière est trouvée dans l'entrée ?
Est-ce que le site déterminé expérimentalement a été trouvé ?
Si ce n'est pas le cas, recherchez quelle en est la raison et modifiez
l'expression régulière pour le trouver.
Combien de sites trouvez-vous à présent ?
La représentation d'un site est plus fiable si l'on passe par un profil plutôt qu'une expression régulière. Construisez un profil du type Gribskov à partir de l'alignement à l'aide de Prophecy. Une fois le profil créé, vous pouvez le rechercher dans l'entrée AF077374 à l'aide de Prophet.
Quelle est la taille du profil construit ?
Est-il plus long que l'expression régulière ? Pourquoi ?
Combien de fois le profil est trouvé dans la séquence de l'entrée ?
Est-ce que le profil est plus stringeant (strict) que l'expression régulière ?
Est-ce que tous les sites trouvés par le profil sont également trouvés
par l'expression régulière ?
Est-ce que le site déterminé expérimentalement est trouvé par le profil ?
D'après-vous pourquoi ?
Que faudrait-il faire pour y remédier ?
La séquence de chromosome étudiée et celle d'une bactérie : Rhodobacter sphaeroides.
Elle est déjà annotée et les informations sont contenues dans une entrée qui porte le numéro
d'accession : CP000144
Pour essayer de localiser les ARNt présents sur cette séquence, nous allons utiliser la
séquence d'ARNt extrait d'une autre bactérie, E. coli. Cet ARNt est présent dans une entrée
qui porte le numéro d'accesion : M24861
Nous allons rechercher les deux entrées à l'aide du logiciel
Entrez développé
au NCBI. Les opérateurs possibles pour combiner les termes d'une requête sont : AND, OR et NOT
à écrire en majuscules. Construisez une requête contre la banque "nucleotide
sequences" pour trouver les deux entrées en même temps.
Quelle requête permet d'obtenir les 2 entrées recherchées ?
Quel est la taille du chromosome de cette bactérie ?
Combien d'ARNt (tRNA en anglais) sont présents sur ce chromosome ?
Noter les positions de début et de fin de ces ARNt sur le chromosome.
Nous allons rechercher l'ARNt trouvé dans la séquence du chromosome à l'aide de BlastN puis
de Discontinuous MegaBlast pour comparer la sensibilité de ces deux programmes.
Pour cela, copier-coller la séquence de l'ARNt au format FASTA dans le formulaire. Puis
précisez que l'on limite la recherche à la séquence de Rhodobacter sphaeroides
en écrivant : CP000144[accession] dans la zone de saisie précédée de
"Limit by entrez query".
Combien d'alignements sont trouvés par chaque programme ?
Est-ce que les résultats de BlastN vous semblent pertinents (est-ce que les alignements trouvés
correspondent à des ARNt annotés dans l'entrée) ?
Est-ce que ceux de Discontinuous MegaBlast sont très différents de ceux de BlastN ?
Est-ce qu'ils sont meilleurs ?
Nous allons maintenant utiliser YASS, le logiciel développé par des membres de l'équipe Bioinfo de Lille. Celui-ci utilise des graines espacées. Vous devez dans un premier temps lui indiquer les fichiers qui contiennent les 2 séquences à comparer (l'ARNt et le chromosome). Puis, changer les paramètres en lui demandant d'utiliser les graines (seed Pattern) de haute sensibilité (High sensitivity). Il faut aussi diminuer le seuil de E-value à 0.01 pour obtenir plus de résultats.
Combiens d'alignements sont trouvés par YASS ?
Est-ce qu'il y en a plus ou moins que ceux trouvés par Discontinuous MegaBlast ?
Est-ce qu'il y a des alignements communs aux deux logiciels ?
Est-ce que les résultats trouvés sont plus pertinents ?
Les régions trouvées par YASS sont censées être des ARNt. Nous allons vérifier si ces régions
ont bien une structure typique des ARNt en utilisant le logiciel
CARNAC
(encore développé par des lillois !). Ce logiciel prédit une structure commune d'un ensemble de séquences.
A partir de la page de résultat de YASS, il est possible d'avoir tous les fragements de séquences alignés
au format FASTA. Vous pouvez donner directement les séquences ainsi obtenues à CARNAC.
Est-ce q'une structure commune a toutes les séquences extraites par YASS a été trouvée ?
D'après-vous pourquoi ?
En fait, YASS n'a pas sélectionné que des ARNt et, en plus les séquences d'ARNt trouvées sont souvent
incomplètes. CARNAC ne peut pas fonctionner correctement sur ce jeu de données.
Je vous donne maintenant les vrais ARNt présents sur le chromosome de Rhodobacter sphaeroides,
CARNAC trouve bien la structure typique des ARNt. Vous pouvez tester.
>refseq_features|NC_007494_5 tRNA: RSP_4348 gggtcggtagctcaggtggttagagcgcacgcctgataagcgtgaggtcggaggttcaag tcctcctcgacccacca >refseq_features|NC_007494_7 tRNA: RSP_4349 ggggccttagctcagctgggagagcacctgctttgcaagcagggggtcatcggttcgatc ccgataggctccacca >refseq_features|NC_007494_13 tRNA: RSP_4351 cgcggggtggagcagcccggtagctcgtcaggctcataacctgaaggccgcaggttcaaa tcctgcccccgcaacca >refseq_features|NC_007494_41 tRNA: RSP_4308 ggagaggtggcagagtggtcgaatgcggcggtctcgaaaaccgttgtcggtgtgagccga cccagggttcgaatccctgtctctccgcca >refseq_features|NC_007494_113 tRNA: RSP_4353 gggtcggtagctcaggtggttagagcgcacgcctgataagcgtgaggtcggaggttcaag tcctcctcgacccacca >refseq_features|NC_007494_115 tRNA: RSP_4354 ggggccttagctcagctgggagagcacctgctttgcaagcagggggtcatcggttcgatc ccgataggctccacca >refseq_features|NC_007494_119 tRNA: RSP_4356 cgcggggtggagcagcccggtagctcgtcaggctcataacctgaaggccgcaggttcaaa tcctgcccccgcaacca >refseq_features|NC_007494_488 tRNA: RSP_4319 gcgggtatggtgaaatggtatcacacgagccttccaagctcttggcgcgggttcgattcc cgctacccgctcca >refseq_features|NC_007494_1126 tRNA: RSP_4306 ggaagcgtggccgagtggtttaaggctctggtcttgaaaaccagcgacggtgcgagccgt ccgtgggttcgaatcccaccgcttccgcca >refseq_features|NC_007494_1289 tRNA: RSP_4339 ggggtcgtagctcagttgggagagcgcgtcgttcgcaatgacgaggtcaggggttcgatc cccctcggctccacca >refseq_features|NC_007494_2115 tRNA: RSP_4303 ggcgaggtagctcagctggttagagcacacgactcataatcgtggggtcgggggttcaag tccccccctcgccacca >refseq_features|NC_007494_2689 tRNA: RSP_4337 gggtggttagctcagttggtagagcgtctcgtttacaccgaggatgtcgggggttcgagc ccctcaccacccacca