Lire une banque de séquences biologiques avec Rust

Article mis en ligne le 12 octobre 2021

dernière modification le 13 octobre 2021

par Laurent Bloch

Mon article précédent consacré à Rust donne une version de l’algorithme classique de Needleman et Wunsch pour l’alignement de séquences biologiques : chacune des séquences est enregistrée dans un fichier FASTA, le programme lit les deux fichiers et calcule le score de similitude en fonction des coûts de gap et de mutation passés en paramètres, ainsi que l’alignement.

Fort bien, mais ce n’est pas ce que les biologistes font le plus souvent : en général ils ont plutôt une séquence qui les intéresse, dite séquence query (désolé pour l’anglais, mais c’est le terme employé communément), et ils veulent l’aligner avec une collection d’autres séquences, par exemple pour sélectionner les cinq ou les dix qui rendent le meilleur score, et qui sont probablement les plus similaires à la séquence query, selon les paramètres utilisés.

Il faut donc d’une part lire un fichier qui contient la séquence query, comme dans l’article précédent, d’autre part lire un fichier qui contient de multiples séquences, toujours au format FASTA (si les séquences sont dans une banque d’un format différent, il sera loisible de les en extraire au format FASTA en utilisant Biopython, c’est un exercice auquel cette bibliothèque et ce langage excellent et on aurait tort de s’en priver). Voici un exemple d’une telle banque de séquences, ce sont des séquences extraites de génomes d’orchidées.

Donc, lire un fichier qui contient non plus une séquence, mais plusieurs : facile, Rust fournit un itérateur sur les lignes de fichier, on saute les lignes vides, on repère les lignes de commentaire (identifiées par leur premier caractère « > ») pour les garder comme identifiants de la séquence et on recolle les lignes de nucléotides (ou d’acides aminés) les unes aux autres par la méthode suivante :

sequence_nuc.extend(the_line.as_bytes())

Facile ? C’était sans compter avec les règles de possession, de prêt et d’emprunt de Rust, plus quelques petits problèmes de typage. Ainsi, non seulement une fonction perd la possession d’une variable mutable dès qu’elle la passe en argument à une autre fonction (ça j’étais au courant et généralement on peut s’en sortir avec un passage par référence), mais, tout en restant dans la même fonction, si la variable a été utilisée dans une boucle, elle n’est plus disponible au tour suivant de l’itération, et si la variable est un itérateur on a une impression de sorcellerie. J’ai beaucoup ramé, finalement Jmb sur StackOverflow m’a donné une solution simple (après que d’autres généreux contributeurs m’eussent donné des solutions très biscornues, ce qui prouve que je ne suis pas le seul à trouver cela compliqué).

Bref, voilà le code, d’abord main.rs :

extern crate fasta_sequences_read;

use fasta_sequences_read::fasta_sequences_read::open_sequences_file;

fn main() {
    open_sequences_file();
}

Puis mod.rs :

pub mod fasta_sequences_read;

Et enfin lib.rs, qui contient la substance :

pub mod fasta_sequences_read {

    use std::env;
    use std::fs::File;
    use std::io::{BufRead, BufReader};
    use std::str;
    use std::io::Lines;

    pub fn open_sequences_file() {
	let args: Vec<String> = env::args().collect();
	let bank_filename = args[1].clone();
	let f_bank = File::open(bank_filename).expect("Fichier non trouvé !");
	
	read_sequences(f_bank);
    }

    fn print_seq(sequence: &(String, Vec<u8>)) {
	println!("Ident : {}", sequence.0);
	let sequence_str = str::from_utf8(&sequence.1).unwrap().to_string();
	println!("Séquence : {}", &sequence_str);
    }

    fn read_sequences(f: File) {
	let fb = BufReader::new(&f);
	let mut lines = fb.lines();
	let mut count: u8 = 0;
	let mut ident = String::new();
	loop {
	    let sequence = get_sequence(&mut count, &mut ident, &mut lines);
	    if sequence.1.len() == 0 {
		break} else {
		print_seq(&sequence);
	    }
	}
    }

    fn get_sequence<B: BufRead>(count: &mut u8, ident: &mut String, lines: &mut Lines<B>)
				   -> (String, Vec<u8>) {
	let mut sequence: (String, Vec<u8>) = (String::new(), vec![]);
	let mut sequence_nuc: Vec<u8> = vec![];
	
	for line in lines {
	    let the_line = line.unwrap();
	    if the_line.len() > 0 {
		let first = &the_line[0..1];
		match first {
		    first if first == ">" => {
			if *count == 0 {
			    *ident = the_line.clone();
			    *count += 1;
			} else {
			    sequence = (ident.to_string(), sequence_nuc.clone());
			    println!("Numéro : {}", count);
			    *ident = the_line.clone();
			    sequence_nuc = vec![];
			    *count += 1;
			    return sequence;
			}
		    }
		    first if first != ">" => {
			sequence_nuc.extend(the_line.as_bytes())}
		    &_ => {}
		}
	    }
	}
	sequence = (ident.to_string(), sequence_nuc.clone());
	println!("Numéro : {}", count);
	sequence
    }
}

Et l’alignement de séquences, me direz-vous ? À chaque jour suffit sa peine, ce sera pour le prochain article. Cela dit, vous avez tous les éléments, ne reste qu’à les assembler, ce qui devrait vous être possible.

Votre inscription a été enregistrée avec succès !

Au menu

Dans la même rubrique