 Merci pour l'invitation. C'est moi aussi ma première venue à l'IAGS. J'ai l'impression d'être dans la salle de confs du CIRM. Elle ressemble pas mal, plus petit. Effectivement, je vais vous faire un exposé sur des problèmes génétiques des populations. C'est un travail en collaboration avec Amory Lambert de Paris 6, qui est aussi collège de France, comme Jonathan, mais pas dans le même groupe. Comme je viens de vous en tout boule, je veux dire, donc par les giles tout à l'heure. Et donc je vais essayer de vous présenter pour commencer une motivation à la question que je me pose. Une motivation biologique, la question qu'on a étudiée avec Amory. Donc on va s'intéresser à des processus de branchement, à comprendre au sens où les individus comportent. On a une population finie d'individus qui se comportent de façon indépendante, comme un gâteau Watson, avec des mutations neutres. Donc on suppose qu'il y a des événements de mutation qui sont subis par les individus. Et neutre, ça signifie qu'il n'y a pas d'influence sur leur dynamique. Donc elles sont superposées par-dessus un processus de branchement, mais ça n'a pas d'influence sur la dynamique de branchement. Et je ne l'ai pas mis, mais ça sera dans le modèle d'une infinité d'allège. Je vais vous expliquer pourquoi, par ce petit transparent-là, enfin par celui-là, il est suivant. Donc pourquoi c'est important de comprendre ce qu'on appelle le spectre de fréquence dans ce genre de modèle, c'est pour la raison suivante. Donc là je répète simplement ce que je viens de dire et je vais considérer une situation dans une population vivante d'un gène qui est apparu récemment, donc un allèle de gènes pour être précis, donc une mutation qui est apparue sur un gène qui a une certaine influence et on se met dans le cas où ce gène est avantageux, c'est-à-dire qu'il est sélectionné dans la population et que la population est en croissance, a priori. Il est sélectionné, positivement. Alors si on considère le début de la croissance de cette population, donc le gène vient d'apparaître, il est en croissance et un peu comme dans l'exposé de Sylvie tout à l'heure dans le graphique avec les trois phases, les individus sont peu nombreux dans une grande population qui est considérée comme un environnement fixe, donc on peut considérer que cette population mutante se comporte comme un processus de branchement qui a peu d'interactions entre ces individus parce que la plupart de leurs interactions c'est avec des individus d'un environnement fixé. Et maintenant on peut s'intéresser par exemple aux phénomènes de recombinaison. Alors le phénomène de recombinaison c'est plus simple à expliquer avec un petit dessin comme ça. Donc on considère notre gène sur l'ADN qui est situé à un endroit précis mettant ici en A. Et puis on va regarder un peu plus loin sur le même chromosome, un peu plus loin, un site que je vais noter par B ici qui va correspondre à ce B là. Et lors de la reproduction sexuée dans ce dessin-là mais ça marche aussi dans le cas sexué en fait, il peut se passer ce qu'on appelle la recombinaison ou le crossing over en anglais. La chose suivante c'est qu'il y a un des brins de l'ADN qui va se couper au même endroit que l'autre chromosome et qui vont s'échanger comme ça. Et donc le B qui était là, le gène qui était ici va se retrouver associé au gène A qui était ici. Donc ça c'est quelque chose qui se produit fréquemment lors de divisions cellulaires et donc quand on produit les gamettes ensuite on va découper ces chromosomes en debout puis on va mettre ces chromosomes simples dans des gamettes et vous voyez qu'au début on pouvait s'attendre à avoir deux gamettes A puis deux gamettes B et puis là en fait grâce à la recombinaison du AB qui est sorti et puis du Rien du tout qui est sorti aussi. Ce phénomène-là, si on considère par exemple que le gène A est sélectionné et qu'il n'y a pas de gène important localement au voisinage de ce gène sélectionné, on peut considérer que le bout de séquence qui a été ici échangé n'a pas d'influence sur l'avantage de l'individu qui va être produit comme ça. Donc le porteur de la LLA va se retrouver avec un autre bout de séquence différent des autres mais qui n'a pas d'influence sur sa dynamique. Donc c'est ça qu'on peut interpréter comme une mutation neutre. Dans ce contexte-là, la question que se pose les biologistes, une des questions que se pose les biologistes c'est détecter si un certain Allel, le A de tout à l'heure est en train d'être sélectionné ou pas dans la population. Donc c'est une question, la première réponse c'est qu'il n'y a qu'à regarder si la population elle croit mais en fait ça ne fait pas si longtemps que ça qu'on séquence l'ADN on est capable de savoir qui a A et qui n'a pas A et donc on n'a pas de données temporelles pour ce genre de choses on se bâche juste sur des données au jour d'aujourd'hui. Donc ce qu'on a c'est un échantillon de séquence d'ADN à la même date qui est issu d'une population en croissance sous mise à d'air combinaison et donc à partir de cette informatie à l'an on aimerait reconstruire, enfin juste évaluer, enfin estimer le taux de croissance de la population. Donc qu'est-ce qu'ils font ? Ils font ce que je viens de dire, ils prennent un échantillon d'individus porteurs de la LL qui les intéressent et puis ils regardent aux événements de recombinaison localement sur le brin d'ADN aux voisinages du gène qui supposent être sélectionnés et puis ils construisent ce qu'on peut appeler un arbre de recombinaison donc les gens qui font ça c'est le groupe de sabétis et ça ressemble à ça. Donc là j'ai juste piqué une image de leur papier donc j'en prends un au hasard c'est un papier de nature 2002 je crois mettons celui-là, donc qu'est-ce que ça signifie ça c'est le gène qui les intéresse l'épaisseur du trais ça représente la grosseur de l'échantillon mettons qu'ils ont 100 séquences ADN donc ici toutes les séquences d'ADN qu'ils ont dans leur échantillon est porteuse du gène qui les intéresse et puis ensuite ils regardent le long de la distance sur le long de l'ADN comment cet échantillon se sépare en groupe ayant subi des recombinaisons donc là par exemple il y a tout de suite un groupe petit donc l'épaisseur du trais ça représente le nombre d'individus dans l'échantillon et puis il y a un groupe petit ici qui se sépare de l'autre donc ici il y a eu un événement recombinaison alors on sait pas qui est l'ancestrale qui est pas l'ancestrale mais enfin il y a un paquet d'individus qui ont la même séquence et puis un petit paquet d'individus qui ont une séquence différente et ainsi de suite le long de la séquence et donc à partir de l'observation de ce genre d'arbre ils aimeraient pouvoir estimer le taux de croissance du gène éventuellement alors maintenant je reviens à mon problème de modélisation avec un processus de branchement mutation neutre, infinité d'allel je vais regarder ce qui se passe simplement à une distance fixée ici de mon gène et donc je vais regarder ce que j'observe là c'est que j'ai découpé la distribution dans mon échantillon de type d'individus les types étant j'observe une séquence différente du gène recombinaison d'accord donc mes mutants mes types d'individus ça sera issu de récombinaison donc mes mutations ça correspondra à des recombinaisons je l'ai mis où donc les mutations neutres ça correspond aux événements de recombinaison qui n'influence pas la dynamique de la population je suppose un modèle à une infinité d'allel ça signifie quoi ? ça signifie que chaque mutation c'est le jargon biologique ça signifie que chaque mutation produit un nouveau type qu'on n'a jamais rencontré avant c'est juste qu'il est différent des autres mais on n'a pas d'informations supplémentaires donc là effectivement ce qu'on a observé c'est que c'est pas la même séquence donc il y a eu une recombinaison mais on sait pas dire plus de choses que ça par exemple il y a le modèle à une infinité de sites où là on sait exactement on localise où ont eu lieu des mutations donc c'est la même séquence ADN la même mutation c'est des recombinaisons donc c'est pas vraiment la même chose et enfin c'est un processus de branchement parce que je suppose que ma population est en croissance et que les individus sont indépendants donc voilà d'où sort le modèle que je vais vous que je vais vous présenter et les résultats auxquels on... ah oui faut que je dise un mot aussi sur ce qu'on veut et vous la rétudiez donc ce qu'on veut étudier en fait c'est qu'on peut obtenir à une distance fixée du genre dans mon image précédente ça s'appelle le spectre de fréquence donc le spectre de fréquence c'est juste la distribution enfin c'est juste le vecteur d'abondance des types on va dire donc j'ai plusieurs types, plusieurs groupes d'individus dans mon échantillon et puis c'est juste un vecteur aléatoire qui me donne le nombre de porteurs de chacun des types ça s'appelle le spectre de fréquence on verra tout à l'heure une définition un peu plus propre je vous donne quelques repères bibliographiques évidemment ce n'est pas du tout des modèles nouveaux les processus de branchement donc en fait les processus de branchement avec mutation ça date même de Yule 1924 qui est le premier à avoir regardé des choses comme ça où il regarde juste un processus de naissance pure en tant continue le processus de Yule et puis il met des mutations dessus et puis il se pose des questions sur le spectre de fréquence exactement donc ce n'est pas des choses nouvelles c'est pas des questions nouvelles c'était déjà naturel à cette époque-là et évidemment il y a eu beaucoup d'autres travaux depuis donc là je cite juste quelques noms importants donc Griffith C.P.X qui regarde des Galton Watson avec des mutations à la naissance il y a tous les travaux sur la théorie des processus de branchement généraux c'est-à-dire non-marcovien où la durée de vie des individus n'est pas forcément exponentielle où les dates de naissance sont forcément poissoniennes ou le nom de descendant est pas forcément un à chaque coup, ça peut être à peu près n'importe quoi c'est ce qu'on appelle les processus de crump-mold-yagurs mais c'est des processus de branchement au sens où les individus sont indépendants les variables élettoires qui décrivent la vie et les naissances d'un individu les descendances d'un individu sont indépendantes donc ça c'est Yagurs, Nerman et Taïb essentiellement les personnes qui ont travaillé sur ce sujet-là donc ils ont développé des outils spécifiques et d'ailleurs on va en retrouver quelques-uns dans la suite et puis après il y a aussi des gens qui ont regardé des versions à espace d'état continu de ce genre de choses par exemple l'Abraham et Delmas en 2007 il y a eu aussi des travaux plus récents de Jean Berthouin sur les gâteaux de Watson où il se pose la question de... il regarde l'ensemble des individus ayant vécu dans la population essentiellement tous les individus, un gâteau de Watson sous-critique qui se pose la question quel est le processus des allèles là-dedans il regarde juste les groupes d'individus c'est-à-dire ce qu'on appelle les allèles voilà, il y a d'autres noms aussi Sagittov et Serra qui se posent d'autres questions sur des modèles similaires j'en dirais pas plus et je vais vous décrire le modèle que je vais considérer alors on a étudié avec Amory une classe particulière de processus de branchement généraux et particulière parce que c'est une classe pour laquelle on a des outils Amory a développé des outils récemment qui permettent de faire des choses assez fines, comme on va le voir, assez précises on va dire, c'est exact et donc qu'est-ce qu'on regarde on regarde ce qu'on appelle des splitting trees les splitting trees c'est l'arbre généalogique associé à une population un processus de branchement où chaque individu est indépendant, se comporte de façon indépendante et ils ont des durées de vie qui peuvent être n'importe quoi qui ont une loi à quelconque je veux dire donc elles sont idées, puisque les individus sont indépendants et v c'est pas forcément un exponentiel en revanche on va supposer que les naissances se produisent une par une de façon poissonienne le long de la durée de vie des individus, donc j'ai un taux de naissance b sur chacune des manches voilà ce que ça peut être comment pouvoir présenter ça au début j'ai un seul individu à la date 0 je retire ça et puis ensuite je mets des points de poisson des points de saut de poisson et puis j'y greffe des individus avec des durées de vie idées, je recommence bon alors là qu'est ce que j'ai représenté en horizontal j'ai juste représenté les liens de filiation mais ça n'a aucun sens biologique évidemment les seuls choses qui comptent c'est par exemple à une dateté qui est tombé le nombre d'individus nt et puis de savoir dire qui est le plus récent c'est de commun de deux individus par exemple etc ce genre de question alors donc deux choses importantes à la première c'est que la loi de cet objet là c'est caractérisé juste par une seule mesure l'ambes date d'air donc c'est juste b qui est mon taux de naissance fois la loi de v c'est juste plus commode on peut tout écrire comme ça et dans cet exposé je vais considérer que cette mesure est finie parce que évidemment on peut aussi étudier ce genre de choses quand la mesure est infinie mais avec des durées de vie très courtes et dans ce cas là on a plein de naissance sur des intervalles de des intervalles finies bon et l'autre chose c'est que sauf qu'en v est une variatoire exponentielle ben c'est pas du tout un processus marcovien n de t le nombre d'individus ben on a besoin de connaître depuis combien de temps ils ont vécu pour savoir combien de temps ils peuvent vivre encore donc c'est en ce sens là c'est une sous classe des processus de branchements généraux de krump-mod et jaggers mais cette sous classe là est bien pratique parce qu'il y a une représentation de la généalogie associée alors peut-être avant de me lancer là dedans je peux vous faire un petit rappel sur la génétique des populations un peu plus classiques donc au lieu de considérer un processus de branchements si vous considérez par exemple le modèle de moran qui est un modèle un taille de population constante quantaine contrairement au processus de branchements ben il vous dit que chaque paire à taux 1 pour chaque paire d'individus l'un des deux meurs et l'autre est remplacé par un descendant de l'autre alors donc ça c'est un modèle très simple qui a l'avantage très important qu'on peut facilement décrire la généalogie associée donc ça c'est en temps forward si vous voulez et puis en temps forward backward vous pouvez décrire la généalogie associée et c'est simplement le coalescent de Kingman alors le coalescent de Kingman il dit quoi il dit que une pleine lignée vivante à une certaine date chaque paire de lignées va coalescer va trouver un ancêtre commun à taux 1 c'est exactement la même chose que ça mais en temps inverse donc c'est ce qu'on appelle le coalescent de Kingman et alors ce lien entre un processus forward et un processus backward c'est essentiellement l'outil principal qui permet d'avoir des tas de résultats sur le coalescent de Kingman qui s'appelle la théorie de la génétique des populations, disons, mathématiques et et donc c'est pour ça que c'est un modèle très très populaire et qu'il y a eu beaucoup d'extensions et en fait l'esprit d'intrigue que je viens de vous présenter c'est une autre classe de modèle pour lesquels on a donc de modèles en temps forward pour lesquels on a une description simple de la généalogie en temps backward donc c'est essentiellement ça le noeud de l'affaire c'est exactement comme pour le modèle de Moran et le coalescent de Kingman c'est une chose intéressante biologiquement qui a un sens biologique c'est parce qu'on est capable de construire facilement la généalgie des socioprocessus alors la généalogie ça va se représenter comment ici voici mon splitting tree je me fixe une dateté et je regarde tous les individus vivants et la dateté que je vais numéroter alors vous voyez là en fait j'ai choisi un ordre d'implicitement dans cette figure j'ai commencé par tracer je vais éviter que les branches se croisent donc pour faire ça je commence par tracer en premier les derniers descendants de mon ancêtre et ainsi de suite et puis ça me donne un ordre implicit là sur mes individus donc l'individu 0 c'est le premier que je rencontre c'est le dernier descendant du dernier descendant du dernier descendant de l'ancêtre et ainsi de suite et une fois que j'ai fait cet ordre qui est un peu artificiel je je peux décrire maintenant l'arbre généalogique reliant tous mes individus vivants à la dateté ici de 0 jusqu'à 4 simplement par la donnée de 4 hauteurs ici dans ce cas là puisque j'ai 5 individus 4 tant de coalescences comme on les appelle donc h1, h2, h3, h4 pourquoi ça ? parce que je vais dire que h1 c'est le temps jusqu'au plus récent cet commun entre mes individus 0 et 1 h2 c'est entre les individus 1 et 2 et ainsi de suite et avec cette donnée là je peux reconstruire la généalogie associée donc ça va me donner la figure suivante donc je reprend mes hauteurs et puis au lieu de tenir compte de tout, alors je vais peut-être tout remontrer l'image précédente quand même pardon c'était dans l'autre sens, voilà au lieu de tenir compte de tout ce qui s'est passé des individus qui ont vécu mais qui sont morts à la dateté, j'aurai en fait toutes les bars là qu'on ne voit plus et puis je rassemble tout, je regroupe tout et ça va me donner l'image suivante donc mon individu 0 ici et mon individu 1, ils ont déliné distinct jusqu'au temps t moins h1 l'individu 1 et l'individu 2 ont déliné distinct jusqu'au temps t moins h2 et ainsi de suite et en fait j'ai juste besoin une fois que je me suis donné ces hauteurs là, j'ai juste besoin de tracer horizontalement oui c'est ça horizontalement des lignes en pointillé qui représentent l'affiliation et ça ça me donne exactement mon arme généalogique d'accord ? et ça c'est la représentation un peu plus classique pour le coalition Kingman de la généalogie associée donc dans le coalition Kingman cette image là, ça serait obtenu en disant chacune des paires d'individus va coalescer à toi dans mon image à moi, j'ai choisi un ordre précis sur les individus et ensuite je me donne les variables h1, h2, h3, h4 et ça me donne cette arbre généalogique ok ? alors pourquoi c'est intéressant de faire ça ? parce qu'il y a une loi très simple on peut très facilement caractériser les variables à toi h1, h4 de la façon suivante donc on va introduire un processus de contour avec saut associé à mon splitting tree à la population alors comment ça fonctionne ? il faut partir de là, regarder cette figure et ensuite on va regarder celle-là donc qu'est-ce qu'on fait ? on va prendre le premier individu de ma population ici, l'ancêtre et partir on va parcourir sa durée de vie mais en partant de sa mort donc je descends ici le long de sa durée de vie donc je pars ici de la longueur qui est la hauteur ici de sa durée de vie et puis je décrois à pente 1 avec pente 1, moins 1 jusqu'à ce que je rencontre une naissance, donc le dernier descendant de cet individu, à cette date-là à cet instant-là donc là j'ai un temps qui n'a pas de sens biologique, c'est mon temps de parcours là c'est le temps physique et là c'est le temps de parcours donc quand j'ai parcouru mon individu jusqu'à ce que je rencontre sa dernière instant de reproduction à cette date-là je saute de la durée de vie cet individu c'est ce saut là et puis je continue à je fais la même chose je décrois jusqu'à rencontrer une naissance c'est ce petit bout là, je saute de nouveau et puis je décrois là je rencontre pas de naissance jusqu'ici alors à ce moment-là je retourne à mon parent et je continue à parcourir sa durée de vie comme ceci, jusqu'à rencontrer de nouveau une naissance qui est celle-là qui fait ce petit saut et ainsi de suite donc ici je obtiens un parcours de mon arbre au sens où à chaque instant de parcours je peux associer un point qui correspond à un unique point dans mes branches qui décrivent mon arbre et donc la longueur ici ça s'arrête quand je touche zéro et quand je touche zéro j'ai exactement eu un temps de parcours qui est juste la longueur cumulée de toutes mes durées de vie alors donc ça c'est ma première étape et la seconde étape c'est de couper tout ce qui se passe au-dessus de t donc c'est comme ça que je passe de cette image à celle-là donc ici ce petit saut là je l'enlève et puis je recole là puis je l'ai pareil ici comme ça d'accord ? et ça me donne l'image qui est là alors le point important c'est que ce processus là en fait celui-là aussi mais celui-ci est très simple d'un point de vue probabiliste et la raison tient au fait que j'ai supposé que mes naissances étaient poissoniennes donc comment est-ce que je construis ce processus là ? je prends une réalisation idée de ma variabe V ça me donne mon saut et ensuite j'attends une exponentielle de paramètres B pour faire un nouveau saut d'une amplitude qui est une nouvelle réalisation idée de V et puis je continue comme ça donc qu'est-ce que j'ai construit là ? j'ai juste construit un processus de poissons composés qui saut à taux B enfin, c'est pas un poisson composé parce qu'il y a une pente mais enfin c'est X c'est moins X plus un poisson composé et les amplitudes des sauts c'est juste des réalisations idées de ma variaboratoire V et je l'arrête quand il atteint 0 et puis pour obtenir ça je prends mon poisson composé avec drift moins 1 et puis je le réfléchis sauté et je l'arrête au premier instant où il touche 0 d'accord ? ça c'est à l'absence de mémoire de mes variables exponentielles alors, tout ça ça s'écrit de façon plus mathématique c'est ce qu'a fait à Maurice Lambert en 2010 donc le dernier processus que je viens de vous décrire qu'on appelle le jumping contour off splitting enfin, le processus de contour avec saut d'un splitting tree tronqué sous le niveau T c'est un processus de Markov-fort composé d'une suite d'excursions sautées de la vie sans saut négatif dont l'exposant de la place est donné par la formule suivante donc ça signifie que j'ai une pente moins 1 là et puis que j'ai des sauts d'amplitude de loi lambda d'accord ? enfin, à taux B et puis dans la loi et lambda sur B et arrêter alors je l'ai pas mis ça ça je l'ai pas mis et donc arrêter le processus de contour d'accord ? donc je mets des excursions IID et puis j'attends que ça touche zéro bon et donc la conséquence immédiate c'est que mes variables H, I qui avait l'air un peu artificiel à cause de l'ordre bizarre que j'avais mis ils ont une propriété très très pratique qui est que c'est juste des hauteurs IID d'excursions de ce level sous le niveau T d'accord ? donc c'est une suite IID et je l'arrête à la première hauteur qui dépasse la durité et ça va me donner les images que je vous avais montrées juste avant donc ici j'ai tiré H1, H2, H3, H4 et puis le H1 qui est plus grand donc je l'oublie, je m'arrête là et puis ça me donne l'arme généalogique associée à mon échantillon alors en plus la loi des hauteurs d'excursions, d'un levier sans son négatif c'est connu ça se caractérise par la fonction d'échelle W et donc la probabilité c'est 1 moins sa fonction de répartition c'est 1 sur W ou W est la transsemblée de la place de 1 sur Psi ça c'est des propriétés des levies sans son négatif bon alors après on peut regarder quelques exemples pour voir que ça donne des formules plus ou moins agréables donc par exemple le processus de Youl c'est un processus où il n'y a pas de mort donc les durites de vie sont toutes infinies dans ce cas là le W c'est juste des puissances BX c'est une propriété très connue des processus de Youl on peut construire la généregie associée en mettant des hauteurs exponentielles jusqu'à ce qu'on dépasse un premier niveau donné on peut aussi regarder le cas des processus de naissance et de mort linéaires en temps continu c'est-à-dire un taux de naissance BX le nombre d'individus et puis un taux de mort DX le nombre d'individus et dans ce cas là on obtient cette formule là pour W, il y a le cas critique il y a d'autres cas, les cas stables il y a des tas d'autres situations on a des formules exactes donc maintenant j'ai supposé que ma fonction W est donnée et puis je vais regarder j'ai intéressé à un modèle avec mutation alors donc là je suis j'anticipe en fait sur ce transparent bon là je suis en train de redire ce que je vous avais dit tout à l'heure donc étant donné W je vais construire une suite HIID la coupée au premier instant enfin la première indice qui dépasse une hauteur T et puis construire l'arbre génologique associé comme ceci ça ça s'appelle le coalescente point process et donc le coalescente point process c'est à la loi, à la même loi que la génalogie reliant mes individus alors maintenant je rajoute des mutations à mon modèle donc je vais faire ça de façon très classique exactement comme quand on met des mutations dans le coalescente Kingman je vais lui donner un taux Theta de mutations sur chacune des branches de mon arbre généalogique et donc je vais supposer que le long de chacune des hauteurs HI j'ai des points qui vont apparaître avec un taux Theta qui correspond à des mutations je suppose que les mutations sont neutres au sens où il n'y a pas d'influence sur la dynamique et que comme je disais c'est à dire que chaque mutation donne un type complètement nouveau un type nouveau ok et puis évidemment les types sont transmises d'une génération à la suivante donc voilà un petit timage pour voir plus précisément ce que ça signifie donc là j'ai pris mon splitting tree donc j'ai des individus qui sont pas vivants là j'ai représenté toute la dynamique de la population et puis j'y mets des croix ici enfin des points des mutations et puis la question l'observation qu'on a à la dater c'est simplement les types de tous les individus ici pour être plus précis d'ailleurs je sais pas distinguer quel est le premier type qui est apparu d'une dernière type qui est apparu je peux juste dire j'ai un certain type représenté par deux individus c'est A et puis j'en ai un autre non j'en ai pas d'autre c'est par trois individus et c'est et puis après j'ai dans mon échantillon j'ai quatre types où il n'y a qu'un seul représentant donc ça ça me conduit à définir ce qu'on appelle le spectre de fréquence c'est à dire que l'information dont je dispose dans ces modèles j'ai aucune information sur l'ordre par exemple parce que l'ordre est artificiel j'ai construit d'une façon qui n'a pas de sens biologique c'est pas observé la seule chose que je peux dire c'est que j'ai observé tant d'allèles portés par cas individus dans mon échantillon c'est ça qu'on appelle le spectre de fréquence ah c'est pas là que je le définis j'ai anticipé dans deux transparents alors pour pouvoir étudier la généalogie les propriétés d'un processus avec mutation et bien c'est assez naturel de regarder les arbres clonaux donc c'est quoi les arbres clonaux ? c'est de nouveau un splitting tree mais avec une nouvelle durée de vie qui est juste v indice theta qui est juste le minimum entre v et une exponentielle de paramètres theta je regarde que ce qui se passe quand j'ai pas de mutation bon et donc on peut faire exactement la même chose la priori une population qui est de t par exemple ayant en représentant vivant à la date actuelle je peux représenter sa généalogie avec un nouveau processus ponctuel de coalescence qui fait intervenir un nouveau W que je vais appeler W theta et des nouvelles hauteurs de branche que je vais appeler H theta bon et le W theta en fait il y a une petite image pour représenter ça oui excusez moi j'ai deux notations j'avais H theta j'ai pas dit que c'était que B theta ah bah j'ai pas mis alors qu'est ce que c'est B theta et H theta donc voilà mon processus ponctuel de coalescence pour la population complète dessus j'y rajoute mes points de mutation comme un processus de poisson et si je veux caractériser H theta j'ai besoin de regarder le premier individu clonal je suppose que j'ai pas de mutation c'est de l'aligné ancestral et je regarde le premier individu qui a le même type que celle-ci donc ici dans ce cas-là cet individu c'est le 8ème j'appelle B theta la variable étoile qui vaut 8 dans ce cas-là et le H theta qui est donc la hauteur enfin la durée avant que cet individu clonal et cet individu ancestral est un ancêtre commun plus le sup de tous les H i pour i plus petit que B theta bon ceci étant dit ça nous dit que on va réussir à caractériser la loi du couple H theta B theta assez facilement ça c'est pas la peine de vous l'expliquer voilà ce que je veux plutôt vous dire c'est que on a un résultat qui nous permet de caractériser en fonction de W et de theta la fonction W theta alors on a même un peu plus que ça on peut même caractériser la loi jointe de B theta et H theta donc ça c'est une écriture qui est juste commode pour les calculs mais ça c'est effectivement une fonction qui caractérise la loi jointe du couple et cette fonction-là c'est juste se retrouve à partir de W en dérivant par rapport à X et puis en multipliant par épuissance moins theta X et le W XS c'est 1-1 1 sur 1-S bon, donc en tout cas ce qui est à retenir c'est qu'on peut facilement caractériser la loi du couple B theta H theta et maintenant une fois qu'on a le couple B theta H theta on voit qu'on va réussir à avoir essentiellement toutes les informations qu'on veut sur par exemple le nombre de représentants d'un certain allel puisque là on a besoin de savoir de regarder le nombre de H I theta avant d'en avoir un plus grand que la durée de naissance de la date de naissance de l'allel que je considère donc si je connais la date de naissance d'un allel je peux savoir la loi de son nombre de représentants à la date actuelle par exemple ça se caractérise avec W theta et je peux avoir tout un tas d'autres informations évidemment alors en particulier l'information que je peux obtenir c'est sur ce qu'on appelle le spectre de fréquence ou formel du spectre de fréquence donc j'appelle A2t donc c'est juste le nombre de types distincts qu'on observe dans la population à la date t et A4t c'est ça mon spectre de fréquence c'est le vecteur des A4t pour K plus grand que 1 c'est le nombre de types que j'ai observé avec K représentants à la date t alors qu'est ce qu'on a comme propriété la somme des A4t c'est juste A2t par définition et puis si je fais la somme des K A4t je vais avoir le nombre total d'individus dans ma population alors donc ça c'est mon observation biologique et j'aimerais avoir des informations sur la loi de ce truc là juste pour mémoire dans le cas du coalescent Kingman le spectre de fréquence on connaît exactement sa loi c'est donné par la formule des chantiers de nage d'Ewen alors nous on va pas avoir la loi complète mais on va avoir des informations notamment sur les moments du spectre de fréquence en particulier les espérances donc je vous explique un peu quel est le principe je vous ai dit si je connais l'âge d'une mutation je connais la loi de son nombre de représentants donc ce que je vais faire pour dénombrer le nombre d'allèles portés par K individus ce que j'ai appelé A4t je vais intégrer sur tous les âges de naissance possible des allèles j'ai choisi un âge ici Y plus des Y je vais dire je connais la loi du nombre de branches dans mon processus fonctionnel de coalescence je connais la probabilité pour chacune des branches d'avoir une mutation c'est état des Y et puis une fois que je sais que j'ai une mutation après ce que j'ai besoin de savoir c'est quelle est la probabilité que cette mutation est exactement K descendant vivant ça c'est un calcul qu'on peut faire avec la fonction Wteta et après il n'y a plus qu'à intégrer sur tous les âges possible pour obtenir mon spectre de fréquence espéré donc ce principe là je ne vous explique pas les détails de la preuve mais ce que je veux juste que vous reteniez c'est qu'une fois qu'on a la fonction Wteta il n'y a pas vraiment de problèmes formels pour obtenir le spectre de fréquence espéré donc voilà par exemple le genre de résultat qu'on peut obtenir donc Nt c'est le nombre d'individus vivants à la daté donc A4t des Y c'est le nombre d'Ale d'Age dans l'intervalle Y Y plus d'Y représenté par K individus à la daté donc il faut voir ça comme une mesure et ensuite intégrer ça par rapport à d'Y sur un intervalle pour avoir le nombre total d'individus de D'Ale porté par K individus donc il y a une formule exacte pour l'espérance de ce truc là et même pour la loi jointe enfin pour l'espérance de S ou A4t donc ça me donne les premiers moments de A4t joints avec le nombre d'individus et cette formule s'exprime de façon relativement pas trop compliquée en fonction de mes données c'est à dire de mes fonctions W donc la fonction W et Theta qui est juste une transformation de W alors en passant on peut remarquer ici qu'on a quelque chose qui fait penser à une géométrique c'est au fait que pour avoir K représentant d'un individu il faut que j'ai K variable aléatoire H et Theta plus petite qu'un certain seuil et puis la suivante plus grande donc là en fait on peut voir ça comme la probabilité que H et Theta soit plus petit que Y où Y est l'âge de ma mutation je ne vous ferai pas les tailles de la preuve j'avais préparé de transparent mais je pense que mais en tout cas l'idée est là c'est que je commence par regarder le nombre moyen d'individus vivant à la date Y puis pour chacun d'entre eux je regarde la probabilité que cet individu est produit K descendant ça fait sortir des quantités comme ça et ici c'est lié au nombre d'individus vivant à la date Y il y a une complication qui vient du S puissance NT alors ça c'était ma preuve je vais la passer alors en quoi bon on sent bien que si on mise à part les difficultés technique de calcul une fois qu'on a l'outil du processus ponctuel de coalescence et des variables aléatoires H Theta et B Theta on arrive à avoir ces informations sans trop de difficultés le vrai intérêt de tout ça c'est qu'on obtient des formules exactes et on va s'en servir de deux manières on peut s'en servir de plein de manière mais donc j'ai expliqué deux la première c'est que on peut obtenir des informations plus précises que simplement en espérance par exemple en regardant donc on va se poser la question lorsque T est envers l'infini qu'est ce qui se passe pour le nombre d'allèles portés par qu'un individu A B ici c'est les âges donc c'est l'intervalle d'âge je suppose que mon allèle est d'âge entre A et B et bien en utilisant des outils assez classiques de processus de branchement généraux c'est les le mot clé c'est les processus comptés par caractéristiques aléatoires si certains d'entre vous ont entendu parler de ça c'est des outils développés par Jagers et Nerman et avec ça on peut obtenir des résultats de convergence abstrait de ce genre de quantité la différence principale c'est qu'avec nos résultats on connaît exactement la limite de cet objet là on peut la quantifier donner une expression exacte de ces choses-là donc là il n'y a pas d'ingrédients supplémentaires par rapport à ce que les gens savaient faire avant des résultats existants et la deuxième classe de résultats que je veux vous présenter qui eux sont plus originaux c'est des questions sur les plus grandes familles donc qu'est-ce que j'entends par famille famille c'est un groupe d'individus porteurs du même allèle vivant à une dateté et si je regarde si je fais un échantillon de ma population les familles que je vais observer c'est les plus grandes c'est celles qui sont portées par le plus individu donc c'est naturel de se demander qu'est-ce qui se passe sur la taille des plus grandes familles alors tout à l'heure j'avais un résultat juste en espérance du nombre de familles portées par qu'un individu donc évidemment c'est une information très partielle en fait avec cette information on peut arriver à obtenir des résultats beaucoup plus précis et c'est l'objet de ma dernière partie là donc je vais me placer dans un cas sur critique donc je suppose que ma population branchante elle a tendance à croître avec un paramètre malthusien alpha ça ça veut dire que nt en gros sur l'événement de survie nt est équivalent à une variable aléatoire fois épiscence alpha t la variable aléatoire en plus dans les modèles spitting crises c'est une exponentielle on sait exactement comment se comportent nt et maintenant je rajoute un paramètre de mutation et en fonction de ce paramètre de mutation j'aimerais savoir qui est la plus grande famille par exemple donc évidemment on voit bien qu'il va y avoir un 3K important à distinguer c'est le cas où les familles clonales sont sur critique c'est à dire que mes mutations arrivent à un taux plus petit que le taux de croissance de ma population totale donc les populations clonales ont tendance à croître il y a le cas critique ou alpha égale à theta et le cas sous critique ou les populations clonales ont tendance à s'éteindre donc alpha plus petit que theta on va voir ce qu'on arrive à dire alors je m'intéresse au taille des plus grandes familles donc je vais introduire LT2X qui est juste le nombre de familles de tailles plus grandes que X donc avec mes notations précédentes qu'est ce que c'est ? je fais la somme sur toutes les tailles K plus grandes que X du nombre d'allel porté par K individu donc avec mes notations c'est l'intégrale de 0 à l'infini de A K T Y D Y c'était l'âge de mon allel bon, alors une première chose qu'on peut faire c'est chercher XT tel que l'espérance de LT XT soit un grand taux de 1 reste d'ordre 1, ça ça me donnera l'ordre de grandeur des plus grandes familles donc ça c'est vraiment une tâche facile parce que je connais l'espérance j'ai caractérisé, j'ai donné une formule exact pour l'espérance du spectre de fréquence donc là c'est pas des choses très compliquées mais je vous donne un résultat donc il y a une chose qui est tout à fait simple à deviner c'est que dans le cas sur critique donc alpha plus grande theta la taille typique des grandes familles c'est juste comme elles sont sur critique de paramètres alpha moins theta les plus anciennes elles sont nées à une date à peu près T elles ont tendance à croître en épiscence alpha moins theta T donc les plus grandes familles c'est de l'ordre de épiscence alpha moins theta T donc là il n'y a pas de surprise c'est donné par ce résultat alors en revanche dans le cas critique et le cas sous critique alpha plus petite theta oui ça c'est sous critique donc dans le cas sous critique qu'est ce qu'on a et ben là on voit que pour obtenir une limite d'ordre 1 au nombre moyen de grandes familles il faut prendre des familles de tailles plus grandes que donc ici une constante fois T avec une correction en locte et ensuite j'ai une latitude d'ordre 1 sur la taille des familles cette constante C là si on fait le calcul dans le cas critique on obtient quelque chose qui ressemble et que c'était qu'il y a un carré cette fois donc en gros mes plus grandes familles dans le cas critique elles sont de l'ordre de BT carré moins constante fois T locte et puis les fluctuations cette fois elles sont d'ordre CT c'est d'ordre T bon tout ça c'est des choses imprécises parce que en espérance maintenant on peut en fait raffiner ces résultats en obtenant des résultats de convergence en distribution des tailles des plus grandes familles en fait du vecteur de tailles des plus grandes familles avec la méthode suivante donc en fait l'idée est relativement simple et c'est écrit c'est ce qu'on prend de la façon suivante je vais tout le but toute la difficulté ça va être de trouver un ST qui va être un âge de mes enfin je vais découper mon processus ponctuel de coalescence en sous-arbre d'un âge S2T et je vais me débrouiller pour que ST soit grand mais pas trop de façon à ce que premièrement le nombre d'individus ici de croix dans mon processus ponctuel de coalescence à la date T moins ST soit grand et deuxièmement ST doit être suffisamment grand pour que essentiellement mes arbres clonaux sont tous inclus une priorité très faite de dépasser cette durée ST alors si on fait ça on voit que j'ai découpé mon processus ponctuel de coalescence en une famille de copie idées de sous-arbre disons un nombre aléatoire de sous-arbre et si je rajoute les mutations maintenant ce que j'espère c'est que les plus grandes familles de mon arbre complet seront données par les plus grandes des plus grandes familles de mes sous-arbres ici avec grande probabilité donc il faut choisir rester de façon à ce que ça marche et une fois qu'on aura fait ça on aura juste un problème de valeurs extrêmes parce qu'on aura un nombre aléatoire de lois connues de copie idées de plus grandes tailles de famille de lois connues mais pas tout à fait mais je vous ai piqué comment on la retrouve puis après c'est des raisements classiques de valeurs extrêmes alors donc là je suis en train de redire ce que je viens de vous dire avec la figure donc je vais appeler XTK la taille de la KM plus grande famille et puis je vais appeler YI pour chaque sous-arbre TI la taille de la plus grande famille dans le sous-arbre TI et le but c'est de voir qu'avec grande probabilité le vecteur des K taille des plus grandes familles c'est juste les K premières plus grandes coordonnées dans mon vecteur Y1 YNP donc ça c'est ce que je vous ai dit tout à l'heure je veux aussi que le nombre d'individus le nombre de sous-arbre tendent vers l'infini et la dernière chose dont j'ai besoin c'est d'être capable d'estimer la probabilité que dans un de ces sous-arbres là ma famille soit plus grande qu'un certain XT plus C XT étant celui des propriétés de profession précédente donc là en fait ce que j'ai c'est une probabilité et ce que je sais calculer c'est des espérances donc il faut se choisir rester de façon à ce que ceci soit très petit pour que l'espérance soit trop bas soit du même ordre de grandeur d'accord donc en fait ces trois contraintes là pour les satisfaire il faut un choix assez précis de ST qui est donné ici dans le cas sous-critique et dans le cas critique mais une fois qu'on fait ça après on démontre à la main ces trois points là et puis on est fini donc le premier qu'est ce qu'on obtient comme type de résultat on obtient ce genre de choses donc dans le cas critique je peux par exemple avoir la loi limite de la taille de la plus grande famille donc là on est dans le cas critique donc j'avais dit c'était t'écarer puis il y avait t'élocter puis il y avait des flucations d'ordre t donc on retrouve ici une loi qui va dépendre de x, x étant la contente que je mets devant le t et puis en fait on a même mieux on a le vecteur des cas premières statistiques des cas premières plus grandes familles et puis on a même encore mieux parce qu'on peut regarder oui je l'ai pas écrit mais on peut regarder le processus ponctuel des tailles des familles comme il faut et puis ça converge vers un processus ponctuel très simple qui est en fait un mélange de mesures ponctuelles de poissons dont l'intensité est donnée par cette formule là et le mélange en fait c'est le variatoire E qui est une exponentielle donc je commence par tirer une réalisation d'une exponentielle et puis après je tire mon processus de poissons avec cette intensité là la mesure de poissons bon il y a un résultat similaire dans le cas sous critique c'est à peu près pareil je passe les détails et je vais simplement terminer en alors il y a déjà quelque chose que j'ai pas dit c'est qu'en fait on a des mêmes résultats pour les âges des plus vieilles familles enfin de même genre de résultats avec le même genre de méthode pour les âges des plus vieilles familles en revanche ce qui nous manque c'est la question ouverte suivante c'est le cas de la l'étude de la convergence en loi des tailles des plus grandes familles dans le cas où les familles clonales sont surfitiques alors en fait évidemment la méthode que je vous ai présenté juste avant elle va pas fonctionner parce qu'on peut pas choisir un ST qui convient vu que les plus grandes familles ce sont aussi les plus anciennes en principe dans ce cas là alors en fait il se trouve que dans la littérature on trouve différents enfin pas tant que ça en fait il y a beaucoup de résultats sur ces questions là et bon il se trouve qu'en fait en regardant bien c'est faux en fait c'est une question qui est beaucoup plus difficile que ce qu'elle a l'air on peut pas utiliser ni les outils de Heger-Snermann ni ce que je vous ai développé ici et donc la seule chose qu'on sait dire en fait ça c'est un travail en cours c'est que on peut regarder le second moment par exemple de la taille de la plus grande famille ce genre de choses on peut faire des choses assez précises là dessus et voir qu'en fait ça correspond pas au limite qui était prédit dans la littérature donc en fait c'est une question complètement ouverte que je vous livre voilà je sais pas trop comment la traiter en fait à part avec des calculs de moments qui sont assez affreux bien et puis pour terminer je peux mentionner d'autres d'autres questions liées donc il y a le cas où on suppose que des mutations ont lieu donc ça c'est l'objet de la thèse d'une partie de la thèse de Mathieu Richard et alors ce qu'il reste à faire c'est à remonter au problème initial de l'arbre de recombinaison de sa bêtie alors là en fait ce qu'on a c'est un arbre c'est pas juste un aspect de fréquence avec un théta fixé donc finalement la question elle se pose de la façon suivante quand je m'éloigne de mon gène sélectionné qu'est-ce que je fais ben j'augmente mon taux de recombinaison en fait donc ce qu'il faut regarder donc j'augmente mon théta en fait mon taux de mutation donc le théta ici est en fait relié à la distance au gène le long de la séquence ADN donc en fait l'objet qui est décrit par sa bêtie là c'est quoi ? c'est un couplage pour tout un intervalle de valeur de théta des spectres de fréquence ou des plus grandes familles mettons associées à différentes valeurs de théta donc quand on augmente théta on fractionne les familles et donc ce qu'on obtient c'est quelque chose qui fractionne notre population en sous-famille d'une façon qui est pas qui s'agit d'étudier et pour finir de façon plus générale en fait le lien entre les splitting tree et la généalogie qui leur est associée et le processus ponctuel de coalescence c'est un outil suffisamment facile à manier pour répondre à des tas d'autres questions donc je n'ai pas fait une liste exhaustive on peut regarder par exemple plusieurs travaux récents d'Amory Lambert mais je peux mentionner par contre des questions sur lesquelles on travaille en ce moment par exemple l'étude de la dynamique d'un autre commun donc ça c'est aussi une question assez classique en génétique des populations et puis il y a la question d'inférence ancestral donc ça c'est des méthodes pour estimer à partir d'observations qui seront par exemple des séquences d'ADN qu'elle est l'arbo généalogique le plus probable reliant ces observations donc il y a tout un tas de méthodes dans le cas du coalescent de Keegman il y a même aussi des méthodes dans le coalescent de Keegman mais en fait dans un modèle de population en croissance c'est beaucoup plus naturel de se poser les questions directement sur un modèle de branchement que sur un modèle où on a artificiellement fixé la croissance de la population et donc c'est des questions qui sont tout à fait pertinentes pour les biologistes j'en ai là en fait qui nous a bien décrit le problème four world c'est-à-dire si je connais t'état enfin ton mutation d'autres villes, la loi du temps de vie je suis capable de faire plein de calculs mais en fait effectivement comme tu le dis à la fin le problème qui nous intéresse c'est l'inverse c'est l'estimation et en fait si je suis dans une grande palle de population j'observe le spectre de fréquence je peux reconstruire tout ça c'est pas si on peut tout reconstruire en tout cas d'ailleurs on peut se poser le problème dans une sous classe qui est suffisamment riche déjà qui est la classe des processus de naissance et de mort linéaire alors que je ne me trompe pas il y a trois paramètres en fait il y en a quatre il y a le taux de naissance le taux de mort, le taux de mutation et il y a un paramètre qui est le plus caspié dans cette histoire là c'est le temps la date de naissance de la population et donc en fait on peut faire du maximum de vraies semblances on peut faire des tas de choses là-dessus évidemment le vrai paramètre qui pose un problème c'est quand on ne connaît pas quand on n'a pas la priori dessus c'est le t' c'est la durée de vie là-dedans le reste on sent bien qu'on peut arriver à l'estimer mais le t' en fait il y a une relation qui va relier le t' et le taux de croissance c'est-à-dire si on a une taille de population actuelle qu'on connaît une certaine relation mais la déchiffrée à partir du spectre de fréquence par exemple c'est pas clair que ça soit possible voilà donc il faut utiliser des informations supplémentaires que les biologistes sont capables de nous donner de quand ça date par exemple avec des données paleontologiques ou des choses comme ça ça c'est des questions plus ouvertes mais par contre voilà à partir de ça on peut aussi imaginer des méthodes baillaisiennes par exemple bon et bien on te remercie