Carnet du petit Tom : Physique, biologie et évolution...

21 octobre 2006

Citations : une approche physique !

Je continue ma partie de ping-pong par blogs interposés avec Enro à propos de l'évaluation des chercheurs. Un des commentateurs du dernier billet d'Enro pointait la possibilité d'un processus autocatalytique dans le nombre de citations. Mon sang de physicien n'a alors fait qu'un tour : il y a forcément des gens qui ont regardé les lois de distributions du nombre de citations. Voilà qui devrait être informatif !

Un physicien (S. Redner) a effectivement regardé récemment la dynamique des citations pour les articles parus dans Physical Review. L'article est en accès libre sur arXiv.

Petit résumé :
- Le nombre d'articles publiés est très corrélé au nombre d'articles qui citent. La croissance est de plus exponentielle sur un siècle. La corrélation s'explique par le fait qu'on a tendance à citer les articles récents.
- la loi de distribution des nombre de citations versus le nombre d'articles est la fameuse loi de puissance, ou loi de Zipf ! Cette loi se retrouve un peu partout en physique (anecdote biologique : c'est aussi la loi de distribution des réseaux génétiques). Le modèle standard pour expliquer cette loi est le modèle dit d'attachement préférentiel. L'idée est simple : considérez un réseau avec des noeuds (ici les publications) et les liens (ici les citations). Imaginez qu'on ajoute maintenant un noeud et les liens associés (qu'on écrive une nouvelle publication en citant d'autres publications). Le modèle d'attachement préférentiel stipule alors que vous allez créer des liens entre votre nouveau noeud et les anciens noeuds avec une probabilité en gros proportionnelle au nombre de liens par noeuds existant. En d'autres termes, plus un article est déjà cité, plus vous aurez de chance de le citer. NB : Redner affirme voir dans son article un biais pour les articles faiblement cités, biais qu'il attribue aux auto-citations !
- Un résultat très intéressant lié à notre petite polémique sur le nombre de citations. Redner a regardé l'évolution du nombre de citations pour certains articles historiques, qualifiés de "Sleeping beauties" car très peu cités lors de leur publication, avant d'être massivement cités. Un papier de Zener (inventeur de la diode du même nom) écrit en 1951 a eu 17 citations entre 51 et 61, 7 citations entre 61 et 71, 9 citations entre 71 et 81, 4 citations entre 81et 91, et... 600 citations depuis !!! Zener est mort en 1993... Parmi ces auteurs très en avance, quelques noms connus pour d'autres travaux : Einstein, Feynman, De Gennes...


Deux conclusions majeures à mon avis : primo, "l'effet Matthieu" joue certainement à plein. En fait, l'attachement préférentiel est exactement un processus type "effet Matthieu" ! Secondo, certains scientifiques sont vraiment en avance sur leur temps. Les vraies découvertes sont finalement abondamment citées (heureusement !), mais l'échelle de temps peut-être assez longue !

1 commentaire:

Enro a dit…

Intéressant, merci ! On peut noter qu'il y a en fait deux théories générales pour expliquer ces distributions zipfiennes des citations, publications... :
- l'effet Matthieu ou théorie des avantages cumulés
- mais aussi le principe du moindre effort (qu'on peut vulgariser en disant qu'il est moins coûteux de publier son n+1ème article que son m+1ème quand n>m ou qu'il est moins coûteux de citer quelqu'un qui est déjà largement cité).

Remarquons aussi que pour le fondateur de la scientométrie, de Solla Price, l'immédiateté des citations et la rapide obsolescence de la littérature scientifique est une caractéristique de la science, voire même ce qui permet de distinguer la science de la non-science !!