Chapitre 22. Mini-projets
- Par Patrick Fuchs
- et Pierre Poulain
Pages 255 à 257
Citer ce chapitre
- FUCHS, Patrick
- et POULAIN, Pierre,
- Fuchs, Patrick.
- et al.
- Fuchs, P.
- et Poulain, P.
Citer ce chapitre
- Fuchs, P.
- et Poulain, P.
- Fuchs, Patrick.
- et al.
- FUCHS, Patrick
- et POULAIN, Pierre,
Notes
Dans ce chapitre, nous vous proposons quelques scénarios pour développer vos compétences en Python et mettre en oeuvre les concepts que vous avez rencontrés dans les chapitres précédents.
L’objectif de ce premier projet est de découvrir si des mots anglais peuvent se retrouver dans les séquences du protéome humain, c’est-à-dire dans les séquences de l’ensemble des protéines humaines.
Vous aurez à votre disposition :
Le fichier english-common-words.txt, qui contient les 3000 mots anglais les plus fréquents, à raison d’1 mot par ligne.
Lefichier human-proteome.fasta qui contient le protéome humain sous la forme de séquences au format FASTA. Attention, ce fichier est assez gros. Ce fichier provient de la banque de données UniProt à partir de cette page.Conseil : vous trouverez des explications sur le format FASTA et des exemples de code dans l’annexe A Quelques formats de données rencontrés en biologie.
Ce projet consiste à écrire un convertisseur de fichier, du format GenBank au format FASTA.
Pour cela, nous allons utiliser le fichier GenBank du chromosome I de la levure de boulanger Saccharomyces cerevisiae. Vous pouvez télécharger ce fichier :
soit via le lien sur le site du cours NC_001133.gbk;
soit directement sur la page de Saccharomyces cerevisiae S288c chromosome I, complete sequence sur le site du NCBI, puis en cliquant sur Send to, puis Complete Record, puis Choose Destination : File, puis Format : GenBank (full) et enfin sur le bouto…
Date de mise en ligne : 01/06/2022
Ce chapitre est en accès conditionnel
Acheter cet ouvrage
22,99 €