Carnet du petit Tom : Physique, biologie et évolution...

25 février 2007

Geekeries du dimanche III

Aujourd'hui nous sommes dimanche, un peu de détente, un billet sur tout et rien et ce que j'ai glané d'amusant ces dernières semaines. En ce moment, je suis un peu débordé (mon chef m'a même donné RDV à 9h ce matin pour travailler, c'est dire), donc je manque un peu d'entrain bloguesque, même s'il y a plein de choses dont j'aimerais parler...




Sondage 1 (sérieux)

J'ai renoncé à faire des statisiques quotas par quotas sur les sondages. En particulier car les résultats par quotas ne semblent pas disponibles, à l'exception notable des sondages CSA. Sur 10 sondages que j'ai recueillis, on observe effectivement beaucoup plus de variabilités à l'intérieur des quotas, mais je ne pense pas pouvoir en tirer quoi que ce soit... La seule chose notable (d'un point de vue politique) est que Ségolène Royal est plutôt très majoritaire chez les gens de moins de 30 ans, alors que c'est Sarkozy qui est très largement majoritaire chez les plus de 50 ans (de l'ordre de 60-40 dans les deux cas). Ces proportions sont assez stables dans le temps (même si elles fluctuent). Les âges intermédiaires sont légèrement à l'avantage de SR sur la durée (SR-NS sur 10 sondages dans l'ordre chronologique : 56-44, 52-48, 56-44, 62-38, 50-50, 47-53, 46-54, 55-45 - on voit d'ailleurs assez bien que cela fluctue beaucoup plus). Je ne sais pas si c'est rassurant ou non, mais sur le dernier sondage CSA, Ségolène Royal est très largement en tête chez les 18-30 ans (61-39) et les 30-50 ans (55-45), mais très distancée chez les plus de 50 ans (38-62), ce qui donne ce résultat final de 49-51. Autrement dit, le poids des plus de 50 ans a l'air assez énorme pour un tel scrutin...

Sinon, je ne sais pas si vous avez relevé cette nouvelle coquetterie, mais le dernier sondage JDD est donné avec une précision de 0.5 %. (50.5 - 49.5 pour Sarkozy). J'avoue m'interroger beaucoup sur ce soudain désir de précision. Pourquoi donner des chiffres ronds pour tous les sondages, sauf celui-ci qui est dangereusement près de 50-50 ? Qu'en pensez-vous ?


Sondage 2 (pas sérieux)

Je parle ici du sondage interne de ce blog dans la colonne de droite.
Un peu plus de succès que mon sondage précédent. Sur 20 réponses, 18 préfèrent l'exploration à l'exploitation. Je constate donc que les lecteurs de ce blog sont de grands explorateurs. Si nous faisons références à certaines discussions sur ce blog liées aux algorithmes d'évolution, j'en déduis que la vie est comme un paysage aléatoire, dans laquelle nous sommes en mouvement perpétuel en recherche de quelque chose et que bien peu sont ceux qui ont la possibilité de pouvoir prendre une pause et profiter des bienfaits de la vie (ce qui serait typiquement une phase d'exploitation). Ma foi, c'est bien triste, non ?

Un nouveau sondage est disponible...




White and Nerdy

Mawashi m'a envoyé cette vidéo intéressante...



J'aime beaucoup la coupe à la Bill Gates. Un poster de Star Trek pour le premier qui trouve le nom de l'équation qu'on voit dans le fond autour de 1:25 (évidemment, j'exclus les physiciens du concours ;)).

Super post-doc ?


Via Béné...

J'ai peut-être exagéré un peu sur certaines réponses (mais comment résister à Do you like to fly? et Do you like to wear a cape?), et j'aurais préféré être Spider-Man ou Batman mais bon...

Your results:
You are Superman
























Superman
90%
Robin
65%
Green Lantern
60%
Spider-Man
60%
Catwoman
55%
Supergirl
50%
Batman
50%
Hulk
50%
Wonder Woman
35%
The Flash
30%
Iron Man
30%
You are mild-mannered, good,
strong and you love to help others.


Click here to take the Superhero Personality Test


Sinon, pour les supervilains, je crois que j'aurais dû mentir sur la densité de ma chevelure ...

Your results:
You are Mr. Freeze


































Mr. Freeze
47%
Mystique
41%
Dr. Doom
36%
The Joker
35%
Venom
34%
Dark Phoenix
29%
Apocalypse
28%
Riddler
26%
Lex Luthor
26%
Magneto
26%
Green Goblin
25%
Juggernaut
21%
Poison Ivy
19%
Catwoman
11%
Kingpin
7%
Two-Face
5%
You are cold and you think everyone else should be also, literally.

22 février 2007

Platon, l'apprentissage et l'évolution

Extrait d'un ouvrage résumant l'héritage de Kolmogorov en physique :

Nous sommes capables d'apprendre par l'exemple et de classifier une multitude d'objets extérieurs en des catégories distinctes. (...) En deux mots, la difficulté qui se présente est la suivante : si une règle ne peut être logiquement déduite des exemples, comment se fait-il que nous puissions la trouver ? La solution mise en avant par Platon était que la règle est déjà contenue par le cerveau humain et que les exemples n'ont d'autre effet que de sélectionner la bonne règle parmi toutes celles qui sont admissibles.
Le point de vue opposé (Aristote) soutient que cette question est mal posée et que le cerveau humain est vide (tabula rasa) avant toute expérience sensible du monde extérieur.




Pour être plus concret, considérons la suite suivante : 01010101010101010. Si je vous demande quel est le prochain chiffre de la suite, tout être humain normalement constitué devrait en toute logique répondre 1. Le problème, c'est que cela n'a en fait rien de logique : il y a une infinité de suites différentes commençant par cette séquence, et la connaissance du début de cette séquence ne nous dit absolument rien sur ce qui suivra. Simplement, nous imaginons une règle : un 0 est suivi d'un 1, un 1 d'un zero. Nous testons ensuite cette règle sur l'exemple donné : elle marche à tous les coups. Donc cette règle nous paraît valable, et nous décidons (un peu) arbitrairement de la tenir pour acquise.

Cette méthode de pensée a l'air assez mécanique, voire un peu stupide quand on y réfléchit. Cependant, c'est un problème redoutable que de faire réaliser cet exercice simple à un ordinateur. A dire vrai, la seule méthode qui me paraît réellement efficace dans l'absolu est d'utiliser l'idée de Platon : générons des règles aléatoirement, puis testons-les sur nos exemples, et on devrait pouvoir arriver à trouver une (la?) véritable règle sous-tendant l'exemple. L'idée de "tabula rasa", si elle paraît au début plus élégante et moins arbitraire, apparaît dans la pratique bien peu réaliste : il paraît trop difficile d'un point de vue purement computationnel de créer quelque chose à partir de rien ...

Il est assez étonnant pour moi de constater les ponts entre ce débat Platon/Aristote, qui est en fait un débat inné/acquis, l'informatique et bien sûr la biologie. Luria et Delbruck ont en fait posé exactement la même question dans leur fameuse expérience : les bactéries sont-elles des "tabulae rasae", apprenant à resister à un stimulus, ou au contraire seules les bactéries ayant déjà la potentialité de resistance sont-elles effectivement sélectionnées ? Cette reformulation de l'idée de Platon est incroyablement proche du principe même de la sélection darwinienne : une règle admissible serait une mutation aléatoire, toutes deux étant sélectionnées par confrontation au réel. La théorie aristotélicienne serait au contraire une version lamarckienne de l'apprentissage. D'où une question qui se pose naturellement : le processus d'évolution ne serait-il pas d'avantage un processus d'apprentissage qu'un processus d'optimisation ?

La conséquence obervable de cette vision de l'évolution est l'existence d'étrangetés assez frappantes pour ceux qui considèrent la nature comme modèle de perfection : par exemple, ils est bien connu que l'oeil des mammifères est conçu en dépit du bon sens. Simplement, l'évolution de l'oeil a été longue et laborieuse, et des chemins de traverses ont été empruntés aboutissant à un instrument efficace sans être optimal. Qui n'a jamais utilisé des moyens détournés pour apprendre et retenir quelque chose ? En quelque sorte, la phrase mnémotechnique est à l'apprentissage ce que les organes vestigiels sont à l'évolution...

Maintenant, j'imagine qu'on peut généraliser cette idée à des processus plus actifs, comme par exemple la pensée même. Après tout, peut-on vraiment prétendre que nous sommes capables de concevoir une pensée originale par nous mêmes ? L'exercice de la pensée elle-même n'est-il pas plutôt un processus de mutation aléatoire/recombinaison/sélection ? Et si notre cerveau n'était qu'un bon gros générateur aléatoire couplé à un filtre éliminant les pensées les plus stupides ;) ?

20 février 2007

Précision sur les sondages

Je suis un peu débordé (car hors de mes murs pour trois semaines) et je n'ai pas énormément de temps pour écrire des billets en ce moment. Le billet précédent a eu énormément de succès et a fait exploser la fréquentation du blog pendant deux-trois jours.
Je compte poursuivre ma petite enquête sur les sondages, en regardant plus particulièrement comment varient les réponses des différents sous-quotas d'un sondage à l'autre. Cela risque de me prendre un peu de temps, surtout pour recueillir les données. Mais je compte mener à bien cette étude qui devrait me permettre de me faire une idée plus définitive sur les sondages...
Je me permets néanmoins de reproduire dans le cadre de ce bref billet une de mes réponses à certains commentaires. Je ne considère pas que tous les sondages se trompent lourdement. Je dis simplement que la faible variabilité des résultats entre sondages ne me paraît pas compatible avec la marge d'erreur intrinsèque au procédé d'échantillonnage derrière les sondages, et donc avec la prétendue méthode scientifique employée. Ces fameux 3% de marge d'erreur sont d'ailleurs reconnus par les instituts de sondage eux-mêmes à partir précisément de l'approximation gaussienne qui sert manifestement de base à tous leurs calculs (en particulier celui pour la marge d'erreur des résultats plus éloignés du 50-50). Donc la plupart des résultats sont me semble-t-il un peu "arrangés".

Plus exactement, je vais me livrer à des spéculations un peu gratuites (et peut-être totalement fausses), mais je suppute que les sondeurs ne font pas exactement ce qu'ils disent faire. Par exemple, il est possible qu'ils utilisent les données de leurs concurrents (qui sont de fait plus ou moins publiques - modulo la petite cuisine interne) pour diminuer cette fameuse marge d'erreur. La conséquence est que les sondages au temps t ne représentent pas l'opinion au temps t contrairement a ce qu'ils disent, mais l'opinion sur un temps caractéristique de l'ordre de la quinzaine ou du mois. A mon avis, c'est la raison pour laquelle les sondages ont une grosse inertie qui permet de réduire la marge d'erreur, mais dans ce cas certains phénomènes commentés par les sondeurs :
- deviendraient des artefacts de la méthode de sondage (par exemple les fameux retournements),
- n'auraient carrément aucun sens, par exemple toute évolution des cotes sur des courtes périodes ( moins d'1 mois)

En attendant la suite, je vais revenir à mes préoccupations habituelles, en particulier l'évolution.

16 février 2007

Sondages et marges d'erreur


Avouons-le : si nous essayons de ne pas y croire, nombreux sont ceux qui suivent avec attention les sondages. Les uns sont grisés quand un candidat atteint des sommets, les autres vont nous sortir la fameuse marge d'erreur pour essayer de discuter les sondages. Tiens tiens, une marge d'erreur... Mais bien sûr, mon sang de physicien ne fait qu'un tour : si tout sondage, tout échantillon statistique comporte bien une marge d'erreur, celle-ci est intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d'erreur intrinsèque.

Or que se passe-t-il lorsqu'on compare les différents sondages ? Les échantillons réduisent comme peau de chagrin : un sondage récent concernait 870 personnes, dont seulement 678 exprimaient un vote au second tour. La marge d'erreur est de l'ordre de 1 sur la racine carrée de l'échantillon : on frise donc dans la plupart des sondages au second tour les 4% d'erreur. D'un sondage à l'autre, on devrait donc voir une danse des courbes "explorant" ces 4% d'erreurs. De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 678 électeurs, votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant à l'entier le plus proche (1) pour Sarko, déduisant par différence le score de Ségo, par ailleurs je n'ai pris qu'une seule série de nombres aléatoires pour mes sondages). Les simulations sont dans la figure, avec les cotes associées (j'ai pris Sarko gagnant à tous les coups puisque lui-même pense qu'il a déjà gagné). J'ai sondé mes électeurs 20 fois de suite. On voit clairement que les intentions de votes fluctuent énormément et s'inversent plusieurs fois : même à 51-49, Ségo atteint 53 par moments, à 53-47, on arrive à 50-50, mais on a aussi une pointe à 56 pour Sarko ! La courbe indexée "Réel" représente l'évolution des enquêtes depuis le fameux discours de Sarko (j'ai trouvé 12 sondages consécutifs où il était gagnant, mais il paraît qu'on est pas loin de 20 maintenant, source : sondages 2007). Or on voit à l'oeil nu que les courbes varient extrêmement peu d'un sondage à l'autre : on a même 4 sondages consécutifs avec à peu près le même score, ce qui n'arrive jamais dans les simulations aléatoires (une fois 3 fois le même score pour 53-47). Les sondeurs me diraient qu'ils ont une façon de corriger, pour lisser les courbes. C'est tout bonnement impossible : encore une fois, l'erreur est intrinsèque au processus même de la mesure ! (sinon, j'engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde). A dire vrai, j'ai l'impression que la fameuse méthode des quotas ne peut même qu'amplifier ces erreurs (puisqu'on échantillonne par tranche sur des populations encore plus petites, et donc je ne vois pas comment les erreurs sur une population peuvent compenser celles faites sur une autre population puisque celles-ci sont différentes).


Histoire de quantifier un peu plus tout cela, j'ai fait travailler ma cellule de sondage virtuelle d'arrache-pied pour lui faire faire 100000 sondages sur ma population à 52% sarkozyste. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (on retrouve évidemment une gaussienne). On voit très clairement qu'à peine 20% des sondages donnent le "bon" résultat, qu'au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. Cela relativise considérablement les disours du genre "Ségo s'écroule" quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l' opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu'un autre sondage sur 5 donne une victoire à plates-coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les Instituts de sondages donnaient des résultats si contradictoires...
Pour conclure, il me semble que la multiplication des sondages actuellement est potentiellement très mauvaise pour les instituts, car comme ils donnent tous les mêmes résultats à un point (deux ?) près, cela révèle sans ambiguité à mon avis qu'ils sont complètement truqués !



(1) et pas la partie entière comme je l'avais fait pour la première version de ce billet

13 février 2007

Dupliquer son génome ?

La comparaison entre des génomes entièrement séquencés de différentes espèces permet d'avoir beaucoup d'informations sur les modifications de séquences liées à l'évolution. En particulier, la comparaison des génomes entiers nous donne des informations sur la dynamique de l'évolution à l'échelle des chromosomes. La figure ci-contre montre une comparaison bioinformatique entre les séquences de deux espèces de levures, la bien connue levure de boulanger (S. Cerevisiae) et Kluyveromyces waltii. Cette comparaison révèle une propriété tout à fait étonnante : à chaque région chromosomique de K. Waltii correspondent deux régions chromosomiques de S. cerevisiae. Cette propriété est par ailleurs vérifiée pour tous les chromosomes de K. Waltii. Un seul scénario peut expliquer cette correspondance : quelque part dans la lignée de S. cerevisiae, peu après sa divergence avec K. Waltii, un véritable cataclysme chromosomique s'est produit et les chromosomes d'un ancêtre de S. cerevisiae se sont en fait tous dupliqués, formant une levure avec un génome deux fois plus grand qu'un génome de levure "standard" ! Du coup, tous les gènes de cette levure ancestrale se sont retrouvés en double. Beaucoup d'entre eux ont ensuite disparu car ils étaient redondants (ce qui a permis de retrouver ensuite une taille de génome "normale"); d'autres sont restés en "double" et ont pu se spécialiser; les comparaisons entre ces gènes redondants, les gènes environnants (dont l'ordre dans la séquence a peu changé au cours de l'évolution) entre les deux espèces permettent de mettre en évidence sans ambiguité ce phénomène de duplication du génome entier ("whole genome duplication" en anglais, ou WGD). Evidemment, il n'est pas très difficile de comprendre comment une telle duplication du génome peut "booster" l'évolution d'une lignée, en permettant d'évoluer des pans entiers du génome tout en gardant sous la main une copie des gènes essentiels (non mutés) : il y a là une potentialité d'évolution quasiment gratuite !

Très bien me direz-vous, c'est bien joli tout ça, mais la levure est peut-être un organisme trop simple pour généraliser ce mécanisme d'évolution à d'autres espèces; en plus on sait que la levure a un cycle de vie à la fois diploïde et haploïde, donc doit être assez robuste à la variation de ploïdie. Dans un organisme plus "évolué", on pourrait penser qu'une duplication du génome serait léthale. Que nenni ! La figure ci-contre montre le génome d'un poisson Tetraodon nigroviridis,. Chaque nombre correspond à un chromosome. Les liens rouges relient des copies de gènes identiques dans le génome. On voit immédiatement que des régions entières du génome s'alignent deux à deux : par exemple, le chromosome 14 s'aligne très bien avec le chromosome 10. Là encore, la seule explication plausible est qu'un ancêtre des poissons a connu une WGD. Encore plus intéressant : si on compare maintenant avec le génome d'un mammifère (typiquement le génome humain), on voit très clairement une correspondance deux pour un, exactement comme S. cerevisiae et K. Waltii. Sauf que c'est bien le poisson qui a vu son génome dupliqué par rapport à la lignée menant aux mammifères !

Allons encore plus loin dans l'analyse : évidemment, les blocs communs aux mammifères et aux poissons étaient forcément présents dans leur ancêtre commun. Il est donc possible a priori de reconstruire les chromosomes de cet ancêtre commun, l'ancêtre commun de tous les vertébrés osseux (ou osteichthyen). L'image ci-contre montre en haut une reconstruction de cet ancêtre commun, avec la duplication, puis le retour à un génome de taille normale pour les poissons. On voit également très clairement que peu de réarrangements chromosomiques ont eu lieu après la duplication : seulement 10 réarrangements à grande échelle permettent de décrire toute l'évolution entre la duplication et les poissons modernes. Le génome humain, au contraire, semble être beaucoup plus éclaté, et ressemble davantage à une mosaïque de morceaux de chromosomes de l'ancêtre des vertébrés. L'honneur est sauf : même si notre génome n'a pas été dupliqué, les multiples réarrangements chromosomiques supplémentaires (probablement dus à la présence de nombreux transposons comme Alu) indiquent que nous sommes "plus évolués" ...

Références et sources des images :

"Proof and evolutionary analysis of ancient genome duplication in the yeast Saccharomyces cerevisiae", Kellis et al., Nature 428, 617-624 (8 April 2004)

"Genome duplication in the teleost fish Tetraodon nigroviridis reveals the early vertebrate proto-karyotype", Jaillon et al., Nature 431, 946-957(21 October 2004)

09 février 2007

Organismes modèles et au-delà ...

Devant la multitude d'espèces vivantes et la complexité des divers mécanismes impliqués, les biologistes ont dû faire des choix drastiques : afin de concentrer la force de frappe scientifique, il est apparu plus raisonnable de limiter l'étude des phénomènes biologiques à certaines espèces particulières. Ces organismes sont appelés "organismes modèles". Citons quelques un de ces petits noms latins qui agrémentent gaiement les pages des articles scientifiques :
  • Escherichia coli est le petit nom de la bactérie modèle. Il s'agit d'une bactérie qui peuple nos intestins,
  • Saccharomyces cerevisiae est le nom de la levure du boulanger. Nombreux sont ceux qui préfèrent l'odeur des labos travaillant sur la levure à celle des labos des fans de bactérie,
  • Caenorhabditis elegans est l'organisme modèle pour les nématodes (les vers). Sydney Brenner, prix nobel de physiologie et de médecine, a proposé d'étudier ce ver transparent qu'il avait recueilli dans son jardin.
  • Drosophila melanogaster est le roi des organismes modèles. Cette petite mouche est probablement l'un des organismes les mieux connus...
  • Citons enfin la souris domestique, Mus musculus, l'organisme modèle utilisé pour étudier les mammifères.
La première question qui se pose (enfin, je me la suis posée en tous cas) est de savoir pourquoi ces organismes ont été choisis et pas d'autres. La levure a un intérêt économique certain, vu toutes les applications agroalimentaires potentielles. Plus surprenant, E. Coli est, paraît-il, aussi utilisée dans l'agro-alimentaire. Un avantage commun à toutes ces espèces est aussi leur temps de génération assez court, qui permet de faire de la génétique assez facilement. De 20 minutes pour Coli à une dizaine de jours pour la drosophile et quelques semaines pour la souris...

Des progrès extraordinaires ont été faits en étudiant ces organismes modèles. Par exemple, les adultes C. elegans ont tous le même nombre de cellules, et on connaît cellule par cellule tout le procédé de formation du corps depuis l'embryon jusqu'à l'animal adulte ! De la même façon, toutes les études sur le développement ont commencé chez la drosophile. Les souris, quant à elles, sont extraordinairement resistantes à la cosanguinité. Il existe ainsi des lignées congéniques de souris partageant exactement le même génome (ce qui constitue un business assez lucratif pour les sociétés fournissant de telles souris). L'intérêt expérimental est énorme : cela signifie qu'on peut étudier avec précision l'effet d'une mutation dans un background génétique très bien contrôlé.

Cependant, il me semble que les organismes modèles ont en quelque sorte les inconvénients de leurs avantages. Par exemple, souris, drosophile et C. elegans sont en fait des espèces hautement singulières, avec en particulier des taux de mutations très élevés par rapport aux autres espèces. Les rongeurs en général ont un "rythme" de mutation trois fois plus élevé que les autres mammifères. On s'aperçoit aussi que les nématodes, après avoir été considérés comme des animaux très primitifs, sont en fait des animaux très évolués, ayant eux aussi muté très rapidement. La drosophile fait partie, à ma connaissance, des animaux les plus singuliers : certaines protéines, certains modes de développement, sont hautement dérivés et représentent des inventions très récentes dans l'évolution (les diptères en général sont par exemple beaucoup plus évolués que les abeilles ou les guêpes). Ce qui est particulièrement flagrant dans le cas de la mouche est que cet organisme a été en partie sélectionné pour son temps de développement rapide (pour l'anecdote, certains mille-pattes par exemple ont des temps de génération de plusieurs années) : or on s'aperçoit que ce développement rapide est évidemment hautement singulier d'un point de vue des mécanismes globaux de développement, et donc que ce critère de sélection des "organismes modèles" nous a en fait amenés à étudier des espèces très évoluées et donc pas forcément typiques. D'où le besoin aujourd'hui de s'intéreser à d'autres organismes que les organismes modèles, pour essayer de vraiment découvrir ce qui est général dans le vivant...

07 février 2007

Avant de partir....

Un essai du Nature de demain à propos des relations actuelles entre physique et biologie - le titre est explicite : A clash of two cultures



In the past, biologists have been little concerned about whether their findings might achieve the status of a law. (...) Physical scientists, however, come from a different tradition — one in which the search for universal laws has taken high priority. Indeed, the success of physics has led many to conclude that such laws are the sine qua non of a proper science, and provide the meaning of what a 'fundamental explanation' is.



Peut-être que je devrais effectivement changer de métier ;)