Faculté des sciences

Development and validation of a novel method for clustering protein sequences and detecting diagnostic motifs

Zangger, Nadine ; Appel, Ron David (Dir.) ; Lisacek, Frédérique (Codir.)

Thèse de doctorat : Université de Genève, 2007 ; Sc. 3886.

Cette thèse étudie la classification non supervisée de séquences de protéines en groupes fonctionnels appelés aussi familles. Ce problème est très important en bioinformatique, particulièrement depuis l'avènement des méthodes à grande échelle qui produisent une énorme quantité de séquences à analyser. Nous avons conçu, implémenté et validé une nouvelle méthode de... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse étudie la classification non supervisée de séquences de protéines en groupes fonctionnels appelés aussi familles. Ce problème est très important en bioinformatique, particulièrement depuis l'avènement des méthodes à grande échelle qui produisent une énorme quantité de séquences à analyser. Nous avons conçu, implémenté et validé une nouvelle méthode de classification non supervisée basée sur la présence de courts motifs conservés dans les séquences biologiques. Cette méthode applique alternativement plusieurs cycles de recherche de motifs et de classification. CliPS est le programme informatique qui résulte de ce travail de recherche. Il produit plusieurs résultats intéressants: une partition et une hiérarchie des protéines, une collection de motifs qui soulignent les régions intéressantes pour des analyses plus approfondies. CliPS a été validé avec plusieurs ensembles de données qui représentent des difficultés caractéristiques de la classification non supervisée. Notre approche surpasse plusieurs autres méthodes de classification déjà publiées à ce jour.