Site WWW de Laurent Bloch
Slogan du site

ISSN 2271-3905
Cliquez ici si vous voulez visiter mon autre site, orienté vers des sujets moins techniques.

Pour recevoir (au plus une fois par semaine) les nouveautés de ce site, indiquez ici votre adresse électronique :

Lire une banque de séquences biologiques avec Rust
Article mis en ligne le 12 octobre 2021
dernière modification le 13 octobre 2021

par Laurent Bloch

Mon article précédent consacré à Rust donne une version de l’algorithme classique de Needleman et Wunsch pour l’alignement de séquences biologiques : chacune des séquences est enregistrée dans un fichier FASTA, le programme lit les deux fichiers et calcule le score de similitude en fonction des coûts de gap et de mutation passés en paramètres, ainsi que l’alignement.

Fort bien, mais ce n’est pas ce que les biologistes font le plus souvent : en général ils ont plutôt une séquence qui les intéresse, dite séquence query (désolé pour l’anglais, mais c’est le terme employé communément), et ils veulent l’aligner avec une collection d’autres séquences, par exemple pour sélectionner les cinq ou les dix qui rendent le meilleur score, et qui sont probablement les plus similaires à la séquence query, selon les paramètres utilisés.

Il faut donc d’une part lire un fichier qui contient la séquence query, comme dans l’article précédent, d’autre part lire un fichier qui contient de multiples séquences, toujours au format FASTA (si les séquences sont dans une banque d’un format différent, il sera loisible de les en extraire au format FASTA en utilisant Biopython, c’est un exercice auquel cette bibliothèque et ce langage excellent et on aurait tort de s’en priver). Voici un exemple d’une telle banque de séquences, ce sont des séquences extraites de génomes d’orchidées.

Donc, lire un fichier qui contient non plus une séquence, mais plusieurs : facile, Rust fournit un itérateur sur les lignes de fichier, on saute les lignes vides, on repère les lignes de commentaire (identifiées par leur premier caractère « > ») pour les garder comme identifiants de la séquence et on recolle les lignes de nucléotides (ou d’acides aminés) les unes aux autres par la méthode suivante :

Facile ? C’était sans compter avec les règles de possession, de prêt et d’emprunt de Rust, plus quelques petits problèmes de typage. Ainsi, non seulement une fonction perd la possession d’une variable mutable dès qu’elle la passe en argument à une autre fonction (ça j’étais au courant et généralement on peut s’en sortir avec un passage par référence), mais, tout en restant dans la même fonction, si la variable a été utilisée dans une boucle, elle n’est plus disponible au tour suivant de l’itération, et si la variable est un itérateur on a une impression de sorcellerie. J’ai beaucoup ramé, finalement Jmb sur StackOverflow m’a donné une solution simple (après que d’autres généreux contributeurs m’eussent donné des solutions très biscornues, ce qui prouve que je ne suis pas le seul à trouver cela compliqué).

Bref, voilà le code, d’abord main.rs :

Puis mod.rs :

Et enfin lib.rs, qui contient la substance :

Et l’alignement de séquences, me direz-vous ? À chaque jour suffit sa peine, ce sera pour le prochain article. Cela dit, vous avez tous les éléments, ne reste qu’à les assembler, ce qui devrait vous être possible.