Carnet du petit Tom : Physique, biologie et évolution...

15 janvier 2007

Un nouveau c@fetier

Notre petit groupe de blogueurs intéressés par la science s'agrandit. Pour ceux qui ne le savent pas encore, nous avons récemment eu le plaisir d'accueillir dans le c@fé des sciences dvanw. Son blog, l'ameublement du cerveau, est assez éclectique; dvanw est graphiste professionnel et particulièrement doué pour la vulgarisation scientifique (voir par exemple son billet sur le no-free lunch theorem ou encore sur l'émergence de la vie, pour compléter deux thèmes abordés ici). Bienvenue dvanw !

13 janvier 2007

Classique : l'expérience de Luria & Delbruck

L'expérience de Luria & Delbruck est un très grand classique de biologie. Il s'agit également de l'un des premiers papiers de modélisation mathématique d'une expérience, ce qui en fait un des précurseurs du mouvement actuel vers la "biologie intégrative". Luria et Delbruck ont reçu le prix Nobel en 1969, en partie pour ces travaux.

La question posée par Luria & Delbruck est de savoir comment les bactéries deviennent résistantes (aux antibiotiques par exemple). Deux hypothèses sont possibles a priori :
  • les bactéries exposées aux antibiotiques ont une toute petite probabilité de survivre. Les survivantes acquièrent une immunité et la transmettent à leur descendance. La resistance peut donc être vue comme une réponse à la pression de sélection.
  • les bactéries exposées aux antibiotiques sont toutes tuées, exceptées celles qui ont les bonnes mutations génétiques qui leur permettent de passer outre et survivre. Elles transmettent également leurs mutations génétiques à leur descendance. La resistance est donc "révélée" par la pression de sélection mais lui préexiste.

Luria et Delbruck ont compris (et montré dans le papier) que ces différents mécanismes d'apparition de la resistance se traduisent par des distributions de probabilité de resistance très différentes dans la population. Ainsi, dans le premier cas, si toutes les bactéries ont une probabilité égale de survivre, lorsqu'une colonie de bactérie est exposée à un antibiotique, une proportion constante de bactéries va survivre. On s'attend alors à ce que la distribution des bactéries resistantes suivent une loi de Poisson (i.e. en particulier la variance est identique à la moyenne). Dans le second cas au contraire, la proportion de mutants resistants dans la population est beaucoup plus variable. En effet, une fois qu'une bactérie a muté, elle transmet sa mutation à toutes ses descendantes. Si on suppose que toutes les bactéries croissent au même taux, cela signifie que la proportion de bactéries mutantes augmente avec le temps (si on a un taux fixe de mutation, toutes les bactéries mutent si on attend suffisamment longtemps). Du coup, la proportion de mutants dépend très fortement de l'histoire de la colonie : en fait, la proportion de mutants est directement proportionnelle au temps écoulé depuis l'apparition du premier mutant dans la colonie. Luria et Delbruck proposent alors une estimation de la variabilité observée dans ces colonies, et montrent en particulier que la variance du nombre de mutants est beaucoup plus grande que sa moyenne. Cette variance est alors mesurable expérimentalement en comparant plein de colonies, et, cerise sur le gâteau, permet même d'estimer le taux de mutation !



Références :

La page wikipédia
Luria, SE, Delbruck, M. (1943) "Mutations of Bacteria from Virus Sensitivity to Virus Resistance" Genetics 28:491-511. en pdf (les calculs ne sont pas hyper compliqués, cf plus bas pour un résumé)




[Parenthèse mathématique pour ceux qui veulent savoir d'où vient le résultat :
considérons une population de bactéries croissant avec un taux 1, si bien que la population en t est N(t)=N_0 exp(t). Supposons que les bactéries puissent devenir resistantes avec un taux de mutation a.
Le nombre de bactéries ayant muté entre t et t + dt est alors aN(t)dt. Si on appelle r le nombre de bactéries mutantes au temps t, on a donc dr=aN(t)dt+rdt, soit dr/dt= aN(t)+r. Le deuxième terme vient du fait que les bactéries mutantes déjà présentes croissent elles aussi avec un taux 1. Au final, le nombre de bactéries mutantes est donc, en intégrant, r(t)=taN(t), et la proportion de bactéries mutantes est donc ta, donc proportionnelle au temps. Luria et Dellbruck soulignent qu'au début, il n'y aura pas de mutants, si bien qu'ils corrigent cette formule en r(t)=(t-t_0)aN(t), où t_0 est le temps où apparaît le premier mutant.

Ensuite, le même genre de calculs est faisable sur la variance : c'est un peu plus compliqué car comme la population croît exponentiellement, la variance va aussi croître violemment avec le temps, d'où une distribution beaucoup plus large. Plus précisément, on considère d'abord le nombre de mutations entre t-tau et t-tau+dtau :
dm =aN(t-tau)dtau=aN(t)exp(-tau)dtau.
On se ramène au temps t car pour connaître la variance après t, il faut évaluer les contributions indépendantes à cette variance de toutes les mutations apparues avant t. Les mutations se font avec une statistique de Poisson, donc la variance du nombre de mutations est égale à la moyenne ci-dessus. Mais ce n'est pas le cas pour le nombre de mutants à cause de la croissance de la population. En effet, les mutants croissent toujours avec un taux 1, et donc il y a exp(tau) fois plus de mutants issus de cette mutation à t qu'à (t-tau), donc la variance au temps t sur le nombre de mutants apparus à t-tau est exp(2tau) celle sur le nombre de mutations, soit
var_dr=aN(t)exp(tau)dtau.
ce qui donne une variance totale au temps t (en intégrant sur tau)

var_r=aN(t)(exp(t)-1).

Donc var_r/r est proportionnel à exp(t)/t et est donc très grand devant 1; on est très loin de Poisson aux temps longs...
]

12 janvier 2007

Jouer à Dieu


Je profite de mes actuelles insomnies new yorkaises pour lire et bloguer. Au détour d'un livre très intéressant de Gerhart et Kirschner, Cells, Embryos ans Evolution, j'ai découvert que Richard Dawkins ne se contentait pas d'écrire pour le grand public, mais menait aussi de vrais travaux de recherche. Ainsi a-t-il mis au point il y a un peu plus de 20 ans (une éternité dans le domaine de la biologie !) un programme sympathique permettant de générer des "biomorphs". L'idée est d'encoder un genome artificiel contrôlant le développement d'une créature virtuelle. Un jeu de mutations/sélection (où vous faites vous-mêmes la sélection) permet de créer des formes très variées, rappelant certaines formes naturelles. Je vous présente ci-dessus ma création d'insectes/sauterelles !
Au delà de l'intérêt esthétique, cet algorithme montre comment un génome a priori simple permet de générer (de façon émergente ou auto-organisée diraient certains) des formes complexes, et comment la sélection naturelle permet de changer rapidement ces formes - certaines transitions sont en effet assez spectaculaires.
A vous de jouer ici !

10 janvier 2007

Commentaires sur la recherche

Juste un très court billet pour vous signaler deux commentaires de blop sur la recherche à la suite de deux billets : ici et . Blop semble être plus avancé dans sa vie que moi, et a décidé de ne pas rentrer en France. Je comprends son point de vue : il est vrai que les postes CR2 restent des postes juniors (en terme de salaire et de carrière), et autour de 30 ans, on aspire en général à faire quelque chose dans sa vie hors recherche. Je n'ai pas encore franchi ce cap fatidique, mais je commence à ressentir cette démengeaison...

09 janvier 2007

Le "No Free Lunch Theorem"

Il existe beaucoup de théorèmes d'impossibilités dans les sciences dures. L'exemple le plus connu est le fameux "théorème d'incomplétude de Gödel", affirmant en gros que certains énoncés ne peuvent être démontrés ou réfutés (voir aussi sur ce blog ce billet). Un des théorèmes assez récents dans le domaine de l'optimisation numérique ferait le malheur de Mike Slackenerny : il s'agit du "No Free Lunch Theorem". Ce théorème concerne les algorithmes d'optimisation numérique.
On passe notre vie à essayer optimiser quelque chose, à arbitrer entre plusieurs contraintes pour choisir ce qui nous semble le plus adapté. Par exemple, toute la microéconomie est basée sur l'idée d'optimisation sous contrainte, et le but du marché libre est de trouver un optimum collectif. Dans un registre plus légers, certains essaient de minimiser le nombre de mouvements à faire pour aller aux toilettes...
Mathématiquement, on définit alors une fonction de coût associée à un problème donné. La fonction de coût peut être très simple à définir : imaginons par exemple que vous soyez un représentant devant visiter plusieurs villes, et souhaitant minimiser votre fatigue, votre fonction de coût sera alors la distance totale parcourue. Il serait très utile, étant donnée une liste de villes, de connaître alors un moyen simple de minimiser cette distance totale. C'est un problème très classique en optimisation numérique : le problème du voyageur de commerce.
La plupart des scientifiques sont de gros paresseux, et aimeraient bien disposer de recettes toutes faites pour aborder ce genre de problème d'optimisation. Il serait formidable d'avoir une méthode générale, applicable à tous les problèmes sans exception, permettant d'optimiser à coup sûr une fonction de coût, quelle que soit sa forme, quel que soit le problème. Tout serait tellement plus simple... Et bien c'est peine perdue : le "No Free Lunch Theorem" affirme qu'une telle méthode n'existe pas. Le monde est trop complexe, et il n'existe pas de recette générale permettant d'optimiser n'importe quel problème. On peut formuler ce théorème de deux autres façons différentes :
  • sur le gigantesque ensemble de tous les problèmes d'optimisation numérique, aucun algorithme n'est meilleur que les autres, i.e. le coût moyen (sur l'ensemble des problèmes) trouvé par un algorithme ne dépend pas de l'algorithme (et n'est donc pas le coût minimum a priori)
  • Le seul moyen de trouver un algorithme plus efficace qu'un autre est d'adapter l'algorithme au problème, i.e. de connaître certaines structures mathématiques sous-jacente du problème d'optimisation permettant d'améliorer la performance de celui-ci.
La conclusion de tout ça, c'est que les numériciens et les spécialistes d'optimisation numérique ne seront jamais au chômage : chaque problème nécessite une étude approfondie et un algorithme spécifique pour être résolu. Ce genre de résultats affirme donc également que certains algorithmes très utilisés (par exemple les algorithmes génétiques, ou le recuit simulé) ne peuvent pas marcher de façon générale : ils ne seront efficaces que sur des problèmes avec des structures mathématiques bien précises. Je trouve également cette idée intéressante du point de vue de l'évolution : "l'algorithme" d'évolution darwinienne n'est efficace que s'il est adapté au problème ("sélection du plus adapté"). Si on connaît l'algorithme, cela signifie qu'on peut avoir des informations théoriques sur la structure du problème, et sur la fameuse "fitness function" chère aux biologistes...

Références :

Le papier original (merci Timothée) : Wolpert, D.H., Macready, W.G. (1997), No Free Lunch Theorems for Optimization, IEEE Transactions on Evolutionary Computation 1, 67.
Une démonstration assez simple du NFLT est proposée dans Ho, Y.C., Pepyne, D.L. (2002), Simple Explanation of the No-Free-Lunch Theorem and Its Implications, Journal of Optimization Theory and Applications 115, 549.

06 janvier 2007

Janvier, mois chargé

Peu de posts ces temps-ci. Comme beaucoup, je suis un peu débordé. Il faut dire que nombreux sont les chercheurs qui, rentrant tout juste des fêtes, voient approcher des deadlines cruciales. Les Américains sont en ce moment en pleine demande de grants (mon chef m'a demandé en toute urgence de lui faire quelques figures sur notre dernier projet qui tue, tandis qu'un collègue post-doc m'a demandé quelques informations sur un de mes papiers pour un de ses projets).
Le chercheur français expatrié souhaitant toujours rentrer, se consacre lui à la constitution des dossiers CNRS. Deadline : 15 janvier 2007. Rien de plus facile que de candidater au CNRS de prime abord : il suffit de fournir une copie de votre diplôme de thèse, le rapport de votre jury, un exposé de vos travaux. Vient ensuite le gros morceau : le projet de recherche. Pour déposer un projet de recherche, il faut d'abord trouver un labo d'accueil qui accepte de vous "soutenir". L'étape est déjà difficile, car en général vous n'êtes pas seul sur le marché, et puis tous les labos n'one évidemment pas le même poids. Ensuite, vous devez donc rédiger un programme de recherche qui s'intégrera bien dans le labo. J'ai personnellement toujours trouvé un peu absurde d'essayer de deviner la recherche qu'on va faire... il s'agit plutôt de décrire ce que vous comptez étudier, pourquoi vous pensez que c'est faisable, quels outils vous allez employer et quelles perspectives potentielles vos travaux ouvrent. Le CNRS dispose depuis peu d'un site web très bien fait pour "uploader" vos documents, ce qui facilite bien les choses pour nous autres post-doc...

Si votre dossier est complet, vous serez auditionné. Il n'y a aucune sélection à ce stade : tous les candidats sont auditionnés, au nom de l'égalité devant le concours. Cela donne lieu à des situations un peu difficiles, pour les examinateurs comme pour les candidats : il n'est pas rare que 90 candidats soient auditionnés pour un ou deux postes. Du coup, vous n'avez en général que 15 à 20 minutes pour présenter à la commission vos travaux passés et vos projets. L'exercice est d'autant plus perilleux : on dit en général que, s'il est impossible de convaincre en 15 minutes votre auditoire que vous êtes LE jeune et brillant chercheur nécessaire au CNRS, l'audition peut en revanche vous être fatale... Il faut laisser bonne impression, sachant que vous avez peu de chances d'être pris et qu'il s'agit plutôt de poser des jalons pour les années suivantes. D'ailleurs, certaines sections ont (paraît-il) décidé de ne pas jouer le jeu, et de se baser uniquement sur les dossiers scientifiques : l'audition se résume alors à une signature du candidat sur un document. Petite précision à ce stade : les frais de déplacements pour venir passer l'audition sont de votre poche; et la préparation de ces quinze petites minutes est très chronophage. Certains préfèrent donc faire l'impasse sur les auditions et attendre une période plus propice ou un CV plus fourni : choix raisonnable, mais le risque est que les gens en France vous oublient...
Tout cela pour vous dire que c'est bien malgré moi que je suis silencieux ces temps-ci; je me consacre à ces projets très importants pour mon avenir professionnel...

02 janvier 2007

Lecture : l'équation de Kolmogoroff

L'une des missions de l'académie des sciences fleure bon le temps jadis, où la science n'était encore qu'un passe-temps de nobles oisifs dissertant sur la nature du hasard ou sur des considérations arithmétiques : il s'agit du recueil et de la conservation de plis cachetés. Concrètement, imaginons que vous fassiez une découverte scientifique et que vous ne souhaitiez pas la publier tout de suite, vous pouvez alors rédiger un court article et l'envoyer sous un pli cacheté à l'académie des sciences, qui le conservera jusqu'à ce que vous ou l'un de vos héritiers accepte de l'ouvrir (ou après un siècle d'attente). L'intérêt essentiel est de prouver l'antériorité de vos résultats non publiés. Vous pouvez par exemple mettre au défi un collègue de résoudre un problème avant vous, et comparer par la suite les dates du pli cacheté avec solution du problème (à l'image des frères Bernoulli). Les périodes de guerre sont également propices au dépot de plis cachetés : si votre pays est envahi par une puissance étrangère, vous pouvez ainsi mettre à l'abri vos résultats novateurs et vos brevets (à l'image de la pile atomique de Frédéric Joliot-Curie). C'était peut-être aussi l'intention du soldat Wolfgang Doeblin (ayant émigré avec sa famille hors d'Allemagne en 33 et naturalisé français en 36 sous le nom de Vincent Doblin) lorsqu'il envoie son pli intitulé "sur l'équation de Kolmogoroff" à l'académie des sciences. Engagé dans la "drôle de guerre", il passe la majeure partie de son temps libre à continuer ses travaux mathématiques et essaie régulièrement de les mettre à l'abri. Lorsque l'ordre est donné de se rendre et que sa capture est certaine, ce descendant de juif allemand, n'ayant que trop conscience du funeste destin qui l'attend, préfère se donner la mort dans une grange de l'Est de la France...

Marc Petit nous relate le destin tragique de Doeblin (fils de l'écrivain Alfred Doeblin), tout en restituant un tableau saisissant du petit monde scientifique de l'entre deux guerres. Le petit monde clos des maths, hyper élitiste et hyper masculin, ne semble pas avoir beaucoup changé ! Les anciens "taupins" rencontreront des noms familiers comme Borel, Paul Lévy, Hadamard ou encore Stephan Banach. L'exode des scientifiques juifs (en France tout d'abord, puis aux Etats-Unis) est aussi décrite de façon dramatique...

Le fameux pli sera décacheté en 2000, après autorisation donnée par l'un des frères Doeblin. Le monde des maths découvre alors que Wolfgang avait découvert avant tout le monde une équation fondamentale dans le domaine des équations différentielles stochastiques, l'équation d'Itô, bien connue des
amateurs de maths financières et des physiciens statisticiens...

J'ai beaucoup aimé ce récit de Petit. D'un point de vue général, le côté "histoire des sciences" m'a beaucoup plu : il est par exemple amusant de voir que le domaine des probabilités n'avait pas très bonne réputation dans les années 30; certaines anecdotes sur les scientifiques sont aussi très instructives; leur destin d'homme est en revanche beaucoup moins drôle. J'ai vraiment été très touché par le destin de la famille Doeblin, prise dans le tourbillon de l'Histoire, émigrant plusieurs fois, déracinée, endeuillée.

Références :

L'équation de Kolmogoroff : Vie et mort de Wolfgang Doeblin, un génie dans la tourmente nazie (Poche) de Marc Petit
Un résumé de la vie de Doeblin


PS : je me suis demandé pendant quelques dizaines de pages à quoi correspondait cette fameuse équation ce Kolmogoroff. Il s'agit en fait de l'équation de Chapman-Kolmogorov !