Seminar
2012
Détection d’interaction entre SNPs pour GWAS
Mathieu Emily (Département MASS – Université de Rennes 2, FRANCE)
Thursday, March, 8th, 2012 – 14.00
bâtiment 24, Agrocampus OUEST (map)
Résumé : Les études d’association à l’échelle du génome (GWAS) ont permis l’identification de nombreux marqueurs polymorphiques associés à certaines maladies (cancer du sein, de la prostate, diabètes type 1 et type 2, maladie de Crohn,…). Cependant, pour de nombreuses pathologies complexes, il est vraisemblable que l’interaction entre gènes soit fortement impliquée dans le développement de la maladie.
L’objectif de mon exposé sera de vous présenter un ensemble de méthodes statistiques qui ont été développées pour la détection d’interaction de SNPs (Single Marker Polymorphisms). Sans rentrer dans les détails des méthodes, je vous montrerai les avantages/inconvénients de ces outils dans leur utilisation en pratique.
2011
Effet batch dans les données de puces à ADN
Delphine ROSSILLE (Département d’Hématologie, Département d’Information Médicale – CHU Rennes Pontchaillou, FRANCE)
Thursday, November, 17th, 2011 – 14.00
bâtiment 24, Agrocampus OUEST (map)
Résumé : L’effet “batch” apparaît quand des données de puces à ADN provenant d’expérimentations indépendantes sont combinées dans le but d’augmenter la puissance statistique permettant la détection des gènes différentiellement exprimés entre différentes conditions biologiques. Un “batch” correspond à un ensemble de puces hybridées sur la même plateforme sur un court laps de temps avec le même technicien suivant le même protocole. Quand l’effet batch est trop fort, il est alors impossible d’identifier les effets biologiques d’intérêt sans le prendre en compte. Plusieurs méthodes de correction de l’effet batch ont été proposées dans la littérature. Nous présenterons ces méthodes et discuterons de leur application dans le cas d’échantillons de grand et de petit effectifs.
Tests multiples pour l’analyse des données génomiques
David CAUSEUR (Laboratoire de Mathématiques Appliquées AGROCAMPUS-OUEST Rennes, FRANCE)
Tuesday, July 5th, 2011 – 14.00
Bâtiment 24, salle 5ème année (map)
Résumé
Présentation du projet fédérateur Biologie intégrative de Biogenouest
Yvan LE BRAS (animateur du projet fédérateur “Biologie intégrative” de Biogenouest)
Tuesday, June 7th, 2011 – 12h30
Bâtiment 13, campus santé (map)
on the occasion of IFR 140‘s conferences
Le projet fédérateur « Biologie intégrative », auparavant animé par Nolwenn Le Meur, a depuis quelques semaines un nouvel animateur en la personne d’Yvan Le Bras.
La mission principale du projet fédérateur en Biologie Intégrative de Biogenouest est de promouvoir une approche systémique de la biologie,
(1) en facilitant l’acquisition et l’analyse de données hétérogènes,
(2) en définissant les méthodes existantes, et
(3) en proposant des outils d’intégration.A l’heure actuelle, parce que de nombreuses plates-formes technologiques en sciences du vivant proposant un substrat d’intérêt pour l’intégration de données sont dans ces thématiques,
nous nous focalisons principalement sur l’intégration de données génomiques, du génome au métabolome en passant par le transcriptome et le protéome.Il s’agit pour moi
(1) d’informer les laboratoires concernés (laboratoire en science du vivant des régions Bretagne et Pays de la Loire) de l’existence du projet et des actions mises en place ainsi que
(2) de fédérer leurs approches par l’existence de groupes de travail et de formations
Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 - Roche] et micro-réseaux d’ADN [Agilent]
Gregory GUERNEC (INRA UR1037 SCRIBE, Campus de Beaulieu, 35000 – Rennes, FRANCE)
Tuesday, April, 19th, 2011 – 14.00
salle 1ère année, bâtiment 24, Agrocampus OUEST (map)
Présentation (pptx) Liste des packages R utilisés (docx) Résumé (pdf)
Résumé : Le séquençage est aujourd’hui une technique d’analyse des transcriptomes de plus en plus utilisée qui consiste à séquencer à haut débit des cDNAs permettant d’obtenir des informations sur l’importance relative des transcrits qui leur ont servi de matrice. Une fois affranchi des étapes d’assemblage et de quantification pris en charge par le(s) bioinformaticien(s), cette technique amène le chercheur biologiste, bien souvent néophyte, à se confronter à un jeu de données de comptage dont l’analyse statistique doit mener à l’obtention de listes de gènes spécifiques de 2 (ou plusieurs) conditions expérimentales données. Qu’en est- t’il cependant de la fiabilité de ces listes ainsi générées? L’étude comparative proposée, inspirée de la littérature [1], tente d’apporter des réponses précises à cette question en comparant une liste de gènes obtenue par séquençage 454 [Roche] à celle que l’on obtiendrait plus classiquement via un support micro-réseaux de type Agilent [44K].
Cette comparaison est effectuée sur 7010 gènes (projet Aquagénome, 2008) pour lesquels nous disposions d’une correspondance unique et d’une information d’expression avec les deux techniques. Les coefficients de corrélation moyens intra et inter-conditions entre les réplicats biologiques sont dans un premier temps comparés (1er niveau de comparaison). L’accent est ensuite mis sur l’interprétation des divergences observées entre les listes de gènes obtenues au cours d’analyses différentielles (2nd niveau) visant à identifier les gènes différentiellement exprimés entre le tronc de la larve et le muscle adulte de la truite arc-en-ciel.
Le premier niveau de comparaison met l’accent sur la faible répétabilité des runs pour les gènes comptant peu de lectures (corrélation <0,22 pour des gènes de moins de 8 lectures contre 0,80 sinon). L’examen des divergences entre les listes du 2nd niveau souligne de plus la difficulté à retrouver une liste de gènes différentiels similaires à celle obtenue en microréseaux dès lors que la couverture de départ (pour le 454) parait insuffisante (ici 1.069.535 lectures pour 55793 contigs). Ce dernier point est mis en évidence par l’utilisation d’une démarche statistique (basée sur l’observation d’intervalles de confiance d’une mesure suivant une loi négative binomiale) qui se propose d’estimer un seuil minimal de « vraies » lectures en deçà duquel il parait difficile voire impossible de conclure qu’un gène est différentiellement exprimé (ici seuil estimé à 5 lectures avec une erreur de 5%). La suppression de ces gènes de l’analyse engendre une amélioration sensible bien qu’a posteriori de la répétabilité de ces listes : La proportion de gènes différentiels communs passant alors de 7 à 20%. Cette méthode met du même coup en évidence le fait qu’une analyse différentielle n’était finalement envisageable que pour seulement 15% des 55793 contigs considérés à l’origine : Cette information conditionnant donc l’association du 454 et de l’analyse différentielle à une couverture préalablement suffisante des gènes d’intérêt.
Une étude plus approfondie de la répétabilité technique associée aux gènes différentiels témoigne également de l’existence d’une réelle variabilité entre les runs puisqu’ environ 70% des gènes qui ne sont différentiels qu’en microréseaux ont une variabilité inter-runs significativement plus importante que celle observée dans les autres groupes : Cette caractéristique témoigne d’une part de l’importance de ne pas négliger l’existence de cette variabilité au cours des études futures par l’utilisation d’une planification préliminaire, et d’autre part, de la nécessité de contrôler cette variabilité par le biais de modèles statistiques adaptés.
Au final, la maîtrise indispensable d’une couverture suffisante a priori, du nombre de réplicats biologiques par planification et l’utilisation de modèles statistiques adaptés apparaissent comme les 3 conditions statistiques indispensables à faire du 454 un support de qualité au moins comparable aux microréseaux d’ADN pour l’analyse différentielle en transcriptomique.
Publications
[1] Marioni JC, Mason CE, Mane SM, Stephens M, Gilad Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. Genome Res. 18(9):1509-17, 2008
2010
Analyse génétique de caractères complexes à l’aide de données transcriptomiques : apport de la modélisation de réseaux géniques
Yuna Blum (INRA, UMR Génétique animale / Lab. Mathématiques appliquées, Agrocampus OUEST)
Wednesday, December 1st, 2010 – 12h30
salle de réunion du bâtiment 8, campus santé (map)
on the occasion of IFR 140‘s conferences
Résumé : La technologie des puces à ADN permet l’analyse simultanée du niveau d’expression de plusieurs milliers de gènes. Un des enjeux de l’analyse de ce type de données est de comprendre la structure de dépendance qui rend compte des relations biologiques entre les gènes. En particulier, on s’intéresse ici à la modélisation du réseau de régulation des gènes impliqués dans le contrôle d’un caractère complexe. Dans un premier temps, on définit un cadre général pour la prise en compte de la dépendance par l’identification de facteurs latents, modélisant la variation commune à l’ensemble des gènes. On montre que l’introduction de ces facteurs dans les procédures d’analyse différentielle en améliore la puissance ainsi que la stabilité des taux d’erreurs. De plus, dans le contexte des modèles graphiques gaussiens pour la modélisation des réseaux d’interactions entre gènes, on présente une méthode d’estimation des corrélations partielles s’appuyant sur le modèle d’analyse en facteurs. La méthode est appliquée à une étude visant à identifier les gènes impliqués dans la variabilité du gras abdominal chez le poulet de chair (UMR INRA Génétique Animale de Rennes).
This conference will provide an opportunity to present to the IFR 140 the creation of the interdisciplinary work group on Statistics for Integrative Biology (SIB), as well as the evolution of the IFR theme “Regivivis” in “Structure and expression of the genome”.
A regular seminar of the SIB work group will be launched every month early in 2011. This group is open to anyone interseted in issues raised by the analysis of data from high-throughput quantitative biology.
The conference by Yuna Blum is therefore a first contact with those who are interested in participating in this group.
