Couverture de RSI_121

Article de revue

Dérives et effets pervers de l’évaluation quantitative de la recherche : sur les mauvais usages de la bibliométrie

Pages 72 à 78

Notes

  • [1]
    Cet article est tiré en majeure partie de mon ouvrage : Les dérives de l’évaluation de la recherche. Du bon usage de la bibliométrie. Paris : Éditions Raisons d’agir ; 2014. Nous remercions les responsables de la maison d’édition d’avoir accepté que nous reprenions ici des parties de cet ouvrage, même si la structure de leur présentation est originale. Une version beaucoup plus courte de ce texte est parue dans la Revue Internationale PME, vol. 28, no 2, 2015.
  • [2]
    Voir aussi les nombreuses réactions dans Science, 335, 2 mars 2012, p. 1040-1042.
  • [3]
    J’ai montré ailleurs l’invalidité de tous ces classements fondés sur des indicateurs simplistes combinés de façon arbitraire.
  • [4]
    Cette brève analyse a été effectuée en utilisant la fonction « Analyze results » de la base de données WoS de Thomson Reuters.

1Avec l’arrivée en milieu universitaire de l’idéologie néolibérale adossée aux techniques du nouveau management public avec ses « tableaux de bord », surtout depuis les années 1990, les chercheurs et les administrateurs utilisent de plus en plus souvent les mots « évaluation », « facteurs d’impact », « indice h ». Le monde de la recherche et de l’enseignement supérieur, particulièrement en Europe (1, 2, 3, 4) est ainsi la proie d’une véritable fièvre de l’évaluation (5). On veut tout évaluer : les enseignants, les professeurs, les chercheurs, les programmes de formation et les universités. Les indicateurs « d’excellence » et de « qualité » se multiplient sans que l’on sache toujours sur quelles bases ils ont été construits. Parmi les outils utilisés pour mettre au point les nombreux « indicateurs d’excellence » qu’une vision gestionnaire de l’enseignement supérieur et de la recherche tente d’imposer à tous comme une évidence, une place de choix est aujourd’hui accordée à la bibliométrie - méthode de recherche qui consiste à utiliser les publications scientifiques et leurs citations comme indicateurs de la production scientifique et de ses usages. Que ce soit pour classer les universités, les laboratoires ou les chercheurs, le calcul du nombre de publications et des citations qu’elles reçoivent sert souvent de mesure « objective » de la valeur des résultats de recherche des uns et des autres.

2Il est donc important de rappeler, même brièvement, les nombreux dangers que comportent l’usage simpliste qui tend à se répandre de l’utilisation mécanique d’indicateurs bibliométriques supposés mesurer de façon « objective » la productivité et l’impact scientifique des chercheurs. Nous nous limiterons ici à analyser les usages des deux principaux indicateurs amplement utilisés tant par les chercheurs que par les administrateurs de la recherche, à savoir le « facteur d’impact » des revues et « l’indice h » des chercheurs. Nous nous pencherons aussi sur les effets pervers des usages simplistes de mauvais indicateurs sur la dynamique de la recherche scientifique, particulièrement dans les domaines des sciences sociales et humaines.

Les mauvais usages du facteur d’impact

3Calculé et publié chaque année depuis 1975 par la compagnie Thomson Reuters dans le Journal Citation Reports à partir des données du Science Citation Index (SCI), le facteur d’impact (FI) d’une revue consiste en une simple moyenne arithmétique du nombre de citations obtenues par les articles d’une revue donnée sur une période de deux ans. Le FI caractérise donc des revues, et non pas des articles (6). Ainsi, le FI d’une revue pour 2006 est obtenu en divisant le nombre de citations que les articles publiés en 2004 et 2005 ont obtenues en 2006 par le nombre d’articles publiés au cours de ces deux années (2004 et 2005). Le choix d’une fenêtre courte de deux ans pour évaluer le FI n’est pas anodin. En effet, on a tendance à opposer les FI élevés des revues scientifiques (comme Science et Nature) aux FI très faibles des revues de sciences sociales. Or cela est en bonne partie un artefact dû au fait que la temporalité des sciences sociales est plus longue que celle des sciences de la nature. En effet, il suffit d’augmenter la fenêtre des citations à dix ans pour que les FI de ces disciplines atteignent des valeurs comparables. Par exemple, le taux de citations moyen sur deux ans des articles de la revue médicale The Lancet en 1980 était de 2,4, et celui de l’American Sociological Review de 1,8 ; mais, calculés sur une période de dix ans, les résultats sont très différents, « l’impact » de la revue de sociologie (IF : 20,9) dépasse alors grandement celui de la revue médicale (IF : 14) (7). Il est donc parfaitement évident que les FI des revues de différents domaines ne sont pas comparables entre eux et que la valeur numérique n’a pas de sens en elle-même, mais seulement si on la rapproche de celle des revues du même domaine.

4Bien que, dès le milieu des années 1990, des experts en bibliométrie n’aient cessé d’attirer l’attention sur l’absurdité d’utiliser le FI des revues pour évaluer les chercheurs, cela n’a pas empêché les pires dérives de la part de « décideurs » et, il faut le souligner, de chercheurs supposément rationnels (8). Ces derniers se sont mis à utiliser le facteur d’impact des revues pour évaluer les chercheurs, confondant ainsi les articles et les revues. Pis encore, des responsables gouvernementaux ou d’organismes de recherche en sont venus, dans certains pays (Pakistan, Chine, Corée du Sud, Japon), à instituer des systèmes de primes fondés directement sur la valeur numérique du facteur d’impact des revues ! Comme le rapportait la revue Nature en 2006, le ministère de la Science du Pakistan calcule la somme des facteurs d’impact des articles sur une année pour fixer une prime variant entre 1 000 et 20 000 dollars ! En Chine, l’Institut de biophysique de Beijing a établi un système semblable : un FI entre 3 et 5 rapporte 2 000 yuans par point, et 7 000 yuans par point si le FI est au-dessus de 10. Dans un éditorial du même numéro, la revue dénonçait cette absurdité. Quoi que l’on puisse penser des primes à la productivité des chercheurs, le véritable problème ici vient de ce que l’indicateur utilisé est très mal compris. Il est en effet impossible que le FI d’une revue de mathématiques (par exemple) ait jamais la valeur de celui d’une revue de médecine ! Or aucune personne sensée ne peut croire que les articles de médecine sont tous supérieurs aux articles de mathématiques et justifient donc d’accorder à leurs auteurs une prime plus importante.

5Dernier exemple montrant le genre de corruption intellectuelle engendrée par la course aux classements : certaines universités contactent des chercheurs très cités qui sont employés par d’autres institutions et leur offrent d’ajouter leur adresse dans leurs publications en échange d’une rémunération. Ces affiliations factices, auxquelles aucune tâche d’enseignement ou de recherche n’est attachée, et dont les chercheurs qui y participent sont complices, permettent à des institutions marginales d’améliorer facilement leur position dans les classements des universités sans avoir à créer de véritables laboratoires (9, 10) [2]. La rumeur académique connaît d’autres cas de ce genre, non encore publiquement documentés, qui concernent des écoles de commerce (11).

6Ces cas extrêmes devraient suffire pour mettre en garde les gestionnaires d’université, ou leurs chargés de communication, contre les usages médiatiques de tels classements douteux. En somme, mieux vaut regarder à l’intérieur de la « boîte noire » des classements plutôt que de l’accepter telle quelle comme si elle contenait un beau cadeau de bienvenue…

7Enfin, il n’est pas inutile de noter la fausse précision des facteurs d’impact, qui sont « mesurés » à quatre chiffres significatifs ! En sciences, rares sont les phénomènes naturels que l’on connaît avec une telle précision ! Qui veut savoir que la température de demain sera de… 20,233 degrés ? Pourquoi ne pas se limiter au premier chiffre ? Tout simplement parce que les classements perdraient beaucoup, sinon même entièrement, de leur valeur.

8Les économistes étant particulièrement adeptes de l’usage des facteurs d’impact (12), prenons la liste de revues d’économie dans le Web of science (WoS) et leurs facteurs d’impact en 2011. Sur 256 revues, on trouve évidemment assez peu de rangs ex æquo avec quatre chiffres significatifs (seules trois revues ayant un FI de 1,000, deux à 0,757, trois à 0,743, etc.), ce qui permet d’assigner des classements du genre 22ème et 24ème comme s’ils étaient distincts. Mais, puisqu’on ne peut sérieusement prétendre que ces décimales aient une réelle signification, regardons le classement avec un seul chiffre. On voit alors que seulement deux journaux se démarquent en tête avec un FI de 9 (Journal of Economic Literature) et de 6 (Quarterly Journal of Economics), suivis de deux ayant un FI identique de 4, mais déjà de 12 avec un FI de 3 et… de 31 avec un FI de 2. Enfin, 118 ont un FI de 1. En gros : on ne peut pas vraiment distinguer à l’intérieur de ces grands groupes, et l’ajout des décimales n’est qu’une façon arbitraire de créer des classements artificiels. Un économiste nous dira peut-être qu’une décimale est utile, mais cela laisse encore 4 revues ex aequo à 2,7 (rangs 11-14) et 18 dans le club de la World Bank Economic Review avec un FI de 1,1 (rangs 70-83). Ici, une fausse précision cache en fait une grande inexactitude.

9L’usage abusif de classements et d’indicateurs faussement précis constitue en somme un comportement qui trahit l’ignorance des propriétés des indicateurs utilisés. Seul l’opportunisme des chercheurs, qui profitent de primes mal calculées, et des revues, qui profitent de l’usage évaluatif des facteurs d’impact, peut les amener à croire, ou à feindre de croire, qu’un tel système est juste et rationnel.

L’épidémie de « l’indice h »

10Il est devenu courant de voir des chercheurs indiquer sur leur page Facebook ou dans leur curriculum vitae leur « indice h ». Au milieu des années 2000, alors que les milieux scientifiques avaient commencé à concocter des indices bibliométriques pour rendre les évaluations individuelles plus « objectives », le physicien américain Jorge E. Hirsch, de l’université de Californie à San Diego, y est allé de sa proposition : l’indice h. Cet indice est défini comme étant égal au nombre d’articles n qu’un chercheur a publiés et qui ont obtenu au moins n citations chacun depuis leur publication. Par exemple, un auteur qui a publié 20 articles parmi lesquels 10 sont cités au moins 10 fois chacun aura un indice h de 10. Le caractère improvisé de cet indice se voit déjà au titre même de l’article paru dans une revue pourtant considérée comme « prestigieuse », les Proceedings de l’Académie nationale des sciences des États- Unis : « un indice pour quantifier la production (output) scientifique d’un chercheur » (13). En fait, cet indice n’est ni une mesure de quantité (ouput), ni une mesure de qualité ou d’impact, mais un composite des deux. Il combine de façon arbitraire le nombre d’articles publiés et le nombre de citations obtenues. Cet indice est supposé contrer l’usage du seul nombre d’articles, lequel ne tient pas compte de leur « qualité ». Selon un cliché répandu, il serait facile de publier un très grand nombre d’articles de piètre qualité ; en conséquence, le nombre d’articles publiés ne serait pas un bon indicateur de la qualité d’un chercheur. Le problème c’est qu’il a rapidement été démontré que l’indice h est lui-même très fortement corrélé au nombre total d’articles et se révèle ainsi redondant (14) !

11Pis encore, il n’a aucune des propriétés de base que doit posséder un bon indicateur (15). Comme l’ont montré Ludo Waltman et Nees Jan van Eck, l’indice h est en réalité incohérent dans la manière dont il classe des chercheurs dont le nombre de citations augmente de façon proportionnelle. Ces auteurs en concluent que l’indice h « ne peut être considéré comme un indicateur approprié de l’impact scientifique global d’un chercheur » (16). Cet indice mal construit est même dangereux lorsqu’il est utilisé comme aide à la prise de décisions car il peut générer des effets pervers. Un exemple simple suffit à le démontrer. Comparons deux cas de figure : un jeune chercheur a publié seulement cinq articles, mais ceux-ci ont été cités 60 fois chacun (pour une période de temps donnée) ; un second chercheur, du même âge, est deux fois plus prolifique et possède à son actif 10 articles, cités 11 fois chacun. Ce second chercheur a donc un indice h de 10, alors que le premier a un indice h de 5 seulement. Peut-on en conclure que le second est deux fois « meilleur » que le premier et devrait donc être embauché ou promu ? Bien sûr que non… On voit ici que l’indice h ne mesure pas vraiment la qualité relative de deux chercheurs et est donc un indicateur techniquement invalide. Malgré ces défauts techniques rédhibitoires, l’usage de l’indice h s’est généralisé dans plusieurs disciplines scientifiques. Il semble taillé sur mesure pour satisfaire d’abord le narcissisme de certains chercheurs. N’oublions pas que sa diffusion rapide a aussi été facilitée par le fait qu’il est calculé directement dans toutes banques de données et s’obtient donc sans aucun effort ! Il est tout de même navrant de constater que des scientifiques pourtant supposés avoir fait des études en mathématiques perdent tout sens critique devant un chiffre simpliste - cela vient confirmer un vieil adage anglais qui a toutes les apparences d’une loi sociale : « Any number beats no number. » En d’autres termes, mieux vaut un mauvais chiffre que pas de chiffre du tout…

12Selon Hirsch, son indice favoriserait « une évaluation plus démocratique de la recherche » (17). Tout porte plutôt à croire au contraire que cette « démocratie » non armée de connaissances sur les conditions de validité d’un indicateur se transformera rapidement en populisme évaluatif. Enfin, notions que la phrase « mon indice h est de X », que l’on voit fréquemment dans les demandes de subvention et les CV des chercheurs n’a strictement aucune signification ! En effet, comme sa valeur dépend de la base de données utilisée, il faudrait toujours dire : « mon indice h est de X dans la base de données Y ». De plus, même sa valeur dans la base Scopus ou WoS, varie selon que votre institution est abonnée pour la période 1990-2014 ou 1980-2014, car le calcul est fait sur les données auxquelles vous êtes abonnés ! Or, la grande majorité des chercheurs qui utilisent cet indice ignorent totalement ces détails techniques pourtant fondamentaux.

Un univers à plusieurs dimensions

13Le plus irritant dans les débats sur l’évaluation de la recherche est la tendance à vouloir tout résumer par un seul chiffre. Le simplisme d’une telle démarche devient patent quand on observe que cela revient à transformer un espace à plusieurs dimensions en un espace de dimension zéro ! En effet, un nombre, considéré ici comme un point, est de dimension zéro, et combiner différents indicateurs pondérés pour obtenir un seul chiffre fait perdre l’information sur chacun des axes (indicateurs) d’un espace à plusieurs dimensions. Au mieux, si on considère que le point est sur une ligne, on a quand même réduit le tout à une seule dimension. Or, seule la prise en compte de plusieurs indicateurs différents permet de tenir compte des différentes dimensions d’un concept, tel ceux de qualité et d’impact de la recherche. Ainsi, le milieu académique est d’abord intéressé par l’impact scientifique des publications, mais on ne saurait négliger d’autres types d’impacts pour lesquels on trouve plus ou moins facilement des indicateurs valides. Pensons aux impacts économiques, sociétaux, culturels, environnementaux, politiques de la recherche scientifique. Ainsi, dans le cas des universités, la recherche n’est qu’une fonction de l’institution, et la qualité de l’enseignement ne se mesure pas à l’aune de la recherche, en faisant abstraction de l’environnement dans lequel baignent les étudiants (qualité des édifices, ressources bibliothécaires, etc.). Si l’on veut faire émerger ces dimensions, il faut dépasser le « syndrome du lampadaire », qui porte à chercher ses clés dans une zone éclairée plutôt qu’à l’endroit précis (mais sombre) où elles ont en fait été égarées. Il est donc nécessaire d’aller au-delà des indicateurs facilement accessibles et de faire des études de cas afin d’évaluer la présence de certains de ces impacts pour chacun des grands indicateurs. C’est une démarche qualitative coûteuse mais indispensable lorsqu’on a l’ambition de mesurer les impacts de la recherche dans plusieurs secteurs (18). Le simpliste des classements atteint son paroxysme avec la publication annuelle des classements des universités, censés identifier les « meilleures » universités au niveau mondial (19) [3].

Quantifier pour contrôler

14Les discussions animées entourant l’utilisation d’indicateurs bibliométriques dans l’évaluation des chercheurs laissent le plus souvent dans l’ombre un aspect pourtant fondamental de l’évaluation, à savoir le rôle de l’expertise des chercheurs dans le processus d’évaluation. La volonté de mieux contrôler le système très ancien d’évaluation par les pairs (peer review), qui repose sur une connaissance de première main du domaine de recherche du chercheur évalué, fait lentement place à l’idée d’évaluation par des experts (expert review) lesquels sont souvent externes au domaine de recherche considéré. L’évaluation quantitative normalisée facilite ce déplacement en fournissant des données soi-disant « objectives » qui peuvent alors être utilisées par n’importe qui. C’est dans ce contexte qu’il faut comprendre que des organismes comme l’European Science Foundation, l’European Research Council et l’Agence de l’évaluation de la recherche et de l’évaluation de l’enseignement scientifique (AERES) en France ont mis au point un classement des revues en A, B et C pour faciliter, sinon mécaniser, l’évaluation individuelle. Cela constitue de facto une forme de taylorisation de l’évaluation, une déqualification de l’expertise nécessaire à l’évaluation. Ces classements des revues semblent aller de soi alors qu’en fait ils engendrent des effets pervers facilement prévisibles que leur utilité potentielle limitée est loin de compenser. Par exemple, certains articles vont être soumis à des revues non appropriées sous prétexte que ces dernières ont été classées A, ce qui conduira bien souvent au rejet de ces articles. Autre effet pervers prévisible : de nouvelles revues dynamiques ne pourront émerger qu’avec difficulté faute de se voir attribuer un bon classement assez rapidement, ce qui aura comme conséquence que les chercheurs seront moins intéressés à leur soumettre des papiers.

15Peu sensibles à ces subtilités et aux dangers de dérives, les promoteurs d’une évaluation quantitative « mécanisée » contribuent en fait à expulser la dimension qualitative, considérée comme « subjective », du processus d’évaluation pour s’appuyer strictement sur des statistiques, qui pourront alors être analysées par des gens complètement extérieurs au domaine de recherche considéré. On est ainsi face à un paradoxe. L’évaluation d’un chercheur exige la constitution d’un comité de pairs qui connaissent bien le domaine. Ces experts savent déjà, par définition, quelles sont les bonnes revues dans leur domaine et n’ont pas besoin d’une liste préétablie par on ne sait quel groupe d’experts les classant en A, B et C. Par contre, ces classements permettent à des personnes ignorant tout d’un domaine de prétendre quand même porter un jugement autorisé. Mais alors ils ne devraient justement pas faire partie d’un comité d’évaluation ! La multiplication d’indicateurs mal construits sert donc en fait un processus de contournement de l’évaluation par les pairs, évaluation qui doit prendre en compte des indices de productivité, mais qui doit les interpréter dans le contexte spécifique de l’évaluation. Que certains chercheurs contribuent à la mise en place de ces classements, comme à l’utilisation d’indicateurs pourtant invalides, ne change rien au fait que ces méthodes ont pour effet de minimiser le rôle de l’évaluation qualitative de la recherche en la remplaçant par des évaluations mécaniques.

Évaluer sans classer

16On confond souvent évaluation et classement. En réalité, ces deux opérations sont très différentes. Si la seconde suppose la première, la première n’entraîne pas nécessairement la seconde. Contrairement à l’évaluation, qui vise à faire le point à un moment donné sur l’état du travail accompli par un individu ou une organisation et qui s’adresse donc d’abord à la personne ou à l’organisation visées, le classement est lié à une publication, une publicité. Or, le fait de rendre public n’est pas anodin et ne peut qu’engendrer des effets pervers potentiellement stigmatisants.

17Il faut aussi distinguer classement officiel et officieux. Tous les chercheurs ont dans leur tête un classement spontané des revues de leur discipline. Certaines revues ont ainsi plus de prestige que d’autres. Mais ces classements subjectifs vaguement partagés sont flexibles et varient selon les personnes. La situation change complètement quand c’est un organisme officiel qui publie une liste officielle annonçant à tous, par exemple, que la revue X est classée C et que la revue Y est classée A. Cette officialisation produira nécessairement des effets pervers que ne génèrent pas les classements spontanés des chercheurs. En effet, de nombreux articles sont publiés dans la revue X et certains sont originaux ou hors du commun et plus importants que ceux parus dans la revue Y, ce que savent reconnaître les chercheurs bien au fait de ce qui se passe dans leur domaine de recherche. Les échanges informels à l’intérieur de la communauté et les différents types d’interactions permettent une évaluation spontanée, flexible et non stigmatisante. La hiérarchie implicite des revues dans un champ donné n’équivaut donc nullement à un classement officiel.

18Il faut toutefois admettre que la communauté scientifique est elle-même souvent divisée sur ces questions. Certains chercheurs, dans certaines disciplines, ont décidé d’accepter ce classement des revues en catégories A, B ou C. D’autres chercheurs et d’autres disciplines l’ont refusé, arguant qu’il est somme toute arbitraire, et ont proposé de simplement définir un « périmètre de scientificité » permettant d’affirmer que les revues qui en font partie sont sérieuses sur le plan académique et qu’il ne s’agit pas de simples feuilles de chou. Cette seconde approche évite le piège consistant à décider de façon officielle qui est A, B ou C, alors qu’on sait tout l’arbitraire de tels classements, nécessairement soumis à des luttes de pouvoir et des rapports de force. Qui a la légitimité de décréter un tel classement ? Qui sont ceux qui apprécient d’utiliser le classement A, B, C ? Il est très significatif que toutes les grandes revues d’histoire et de sociologie des sciences aient refusé collectivement le classement proposé à l’origine par l’European Science Foundation, et publié dès 2009 un éditorial commun. Il y a donc une lutte interne au champ scientifique, dont il serait naïf de ne pas tenir compte (20). La composition des divers comités chargés à l’origine de classer les revues dans tous les domaines des sciences humaines et sociales suggère que ce ne sont pas toujours les chercheurs les plus reconnus qui ont fait partie de ces comités cooptés on ne sait trop comment. Il semble bien qu’on a ici affaire à ce que Pierre Bourdieu a osé appeler la « loi de Jdanov », selon laquelle le dominé dans un champ est plus enclin à participer à une opération de pouvoir qui affectera les dominants (21). Faire partie de ceux qui déclarent officiellement que telle revue est classée A et telle autre C peut être enivrant…

Pseudo-internationalisation et déclin des recherches locales

19Un aspect peu discuté de l’importance accordée aux facteurs d’impact et au classement des revues est qu’elle détourne indirectement de l’étude de sujets locaux, marginaux ou peu à la mode. Cela est particulièrement dangereux dans les sciences humaines et sociales, dont les objets sont par nature plus locaux que ceux des sciences de la nature. Il va de soi que certains sujets sont moins « exportables ». Les revues les plus citées étant anglo-saxonnes (et non pas « internationales »), les chances d’y accéder dépendent de l’intérêt que ces revues portent aux objets étudiés. Un chercheur qui veut publier dans les revues les plus visibles a intérêt à étudier l’économie des États-Unis plutôt que les spécificités de la Banque du Canada ou l’économie régionale du Québec, sujet de peu d’intérêt pour une revue américaine. Le sociologue dont l’objet est « international », donc délocalisé, ou qui fait de la théorie a plus de chances d’exporter ses articles que celui qui propose l’étude empirique d’un aspect précis de sa propre société. Une comparaison entre Habermas et Luhmann, par exemple, circule facilement sur le marché international car elle n’a aucun contenu empirique local qui risque de diminuer son attrait pour une revue américaine. Mais, si on souhaite étudier le comportement d’achat dans le sud de la France comparé à celui de la Bretagne, on risque aussi d’avoir plus de problèmes à « internationaliser » les résultats. Or est-ce vraiment moins important de se pencher sur cet objet que d’étudier les variations du New York Stock Exchange ? Il y a donc un danger réel que les objets locaux mais sociologiquement importants soient dévalorisés et donc, à terme, négligés si les indicateurs de citations sont utilisés mécaniquement sans que l’on tienne compte de l’indexicalité, comme disent les ethnométhodologues, des objets de recherche en sciences humaines et sociales (22). Les chercheurs vont alors abandonner certains objets de peur que ça ne puisse les amener à publier dans les revues classées A. Assez curieusement d’ailleurs, ces revues sont le plus souvent étrangères et en langue anglaise, les revues nationales tendant à être classées B, et même C. Il est difficile de ne pas déceler une forme de colonialisme dans plusieurs des classements initiaux proposés par l’European Science Foundation. En effet, si l’on se fie uniquement au total des citations, il est à peu près inévitable que les revues anglo-saxonnes soient mieux classées, car elles ont généralement un volume supérieur de citations par un simple effet démographique, le nombre potentiel de lecteurs dans une spécialité donnée étant plus élevé en anglais qu’en français, par exemple (23). Par contre, ce nombre ne dit rien sur l’origine internationale ou nationale de ces citations. Cela est particulièrement sensible en sciences sociales et humaines, pour les raisons que nous venons d’indiquer.

20Un premier indice d’internationalisation pourrait être fondé sur l’origine géographique des auteurs publiant dans une revue. Sur cette base, on trouve, par exemple, entre 2000 et 2012, que 81 % des auteurs de l’American Journal of Sociology sont originaires des États-Unis, alors que la proportion des auteurs britanniques dans le British Journal of Sociology est seulement de 61 %. La première est donc essentiellement américaine, donc locale, et moins internationale dans son ouverture que la seconde ou même que son homologue canadienne, qui accueille 72 % d’auteurs canadiens. Une autre façon utile de mesurer la visibilité internationale de ces revues est de regarder l’origine géographique de ceux qui les citent. On trouve ici encore que l’American Journal of Sociology est cité à hauteur de 97 % par des articles de langue anglaise, ce qui ne laisse que 3 % pour les autres langues. Par contraste, on ne constate, parmi les citations renvoyant à la revue Actes de la recherche en sciences sociales, qu’un taux de 64 % de sources francophones, 26 % d’anglophones et plus de 3 % d’allemandes. L’origine géographique des citations montre aussi une plus grande concentration locale pour la revue américaine de sociologie, les deux tiers des citations provenant des États-Unis, alors que seulement 40 % des renvois aux Actes de la recherche recensés dans le WoS viennent de France [4]. On voit ainsi que, si le volume total des citations de la revue américaine est dix fois plus élevé que celui de la revue française, cela n’est pas synonyme de plus grand rayonnement international.

Conclusion : juger plutôt que compter

21On entend souvent dire que ces classements sont inévitables et qu’il faut « vivre avec ». Cela est tout à fait faux. La résistance des chercheurs est tout à fait capable de bloquer de tels projets malavisés. En Australie, notamment, la vive réaction des chercheurs au classement des revues a réussi à faire plier le gouvernement, qui a abandonné l’usage de ces classements pour l’évaluation de la recherche (24, 25). En France aussi, les actions de nombreux chercheurs ont forcé les organismes qui faisaient la promotion de tels classements à passer à une simple liste de revues définissant un « périmètre de scientificité » (26, 27). Cet exemple montre bien que l’on peut définir un ensemble de revues considérées comme scientifiques dans un domaine sans tomber dans le panneau des classements qui en fait servent justement à mécaniser les décisions et à contourner l’avis des pairs.

22En somme, le monde de la recherche n’a pas à céder devant des exigences qui n’ont rien de scientifique et appartiennent à des logiques qui lui sont étrangères. D’autant plus que ce sont en fait les revues francophones et les objets de recherche locaux mais très importants pour la société qui sortiront perdantes de ces dérives de l’évaluation.

Références

  • 1
    Abelard. Universitas calamitatum : le Livre noir des réformes universitaires. Broissieux : Editions du Croquant ; 2003. 220p.
  • 2
    Charle C, Souliec C (dir.). Les Ravages de la « modernisation » universitaire en Europe. Paris : Syllepse ; 2007. 258p.
  • 3
    Schultheis F, Roca I, Escoda M, Cousin P-F (dir.). Le Cauchemar de Humboldt : les réformes de l’enseignement supérieur européen. Paris : Raisons d’agir ; 2008. 230p.
  • 4
    Brisset CA (dir.). L’Université et la recherche en colère : un mouvement social inédit. Broissieux : Editions du Croquant ; 2009. 363p.
  • 5
    Gingras Y. La fièvre de l’évaluation de la recherche. Du mauvais usage de faux indicateurs. Montréal : Note de recherche du CIRST ; 2008 May. 15p.
  • 6
    Archambault E, Larivière V. History of journal impact factor : contingencies and consequences. Scientometrics. 2009 ; 79(3) :635-49.
  • 7
    Glänzel W, Moed HF. Journal Impact Measures in Bibliometric Research. Scientometrics. 2002 ;53(2) :171-93.
  • 8
    Seglen PO. Why the impact factor of journals should not be used for evaluating research. Br Med J. 1997 Feb ;(314) :498-502.
  • 9
    Bhattacharjee Y. Saudi universities offer cash in exchange for academic prestige. Science. 2011 Dec ;(334) :1344-5.
  • 10
    Gingras Y. How to boost your university up the rankings. University World News. [Internet]. [cité le18 July 2014]. 329. Disponible sur : http://www.universityworldnews.com/article.php?story=20140715142345754
  • 11
    Chiapello E, Padis MO. Écoles de commerce : la pression de l’internationalisation. Esprit ; 2012 Jul. p. 18-25.
  • 12
    Gallois N. Les conséquences des nouveaux critères d’évaluation des chercheurs en science économique. L’Économie politique. 2013 ;(59) :98-112.
  • 13
    Hirsch JE. An index to quantify an individual’s scientific research output. Proc Natl Acad Sci USA. 2005 ;(102) :16569-72.
  • 14
    Van Leeuwen TN. Testing the validity of the Hirsch- index for research assessment purposes. Res Eval. 2008 ;(17) :157-60.
  • 15
    Gingras Y. L’évaluation de la recherche. Les dérives de l’évaluation de la recherche. Paris : Raisons d’agir Editions ; 2014. p. 83-106.
  • 16
    Waltman L, Van Eck NJ. The inconsistency of the h-index. 2011. [Internet]. [cité le 15 Mars 2015]. Disponible sur : http://arxiv.org/abs/1108.3901
  • 17
    Disponible sur http://pubs.acs.org/cen/science/86/8621sci1.html
  • 18
    Mercure S, Bertrand F, Archambault E, Gingras Y. Impacts socioéconomiques de la recherche financée par le gouvernement du Québec, via les Fonds subventionnaires québécois. Études de cas. Rapport présenté au ministère du Développement économique, de l’Innovation et de l’Exportation du Québec. 2007.
  • 19
    Gingras Y. Le classement de Shanghai n’est pas scientifique. La Recherche. 2009 May ; 430 :46-50. [Internet]. [cité le 15 mars 2015]. Disponible sur : http://www.ost.uqam.ca/Portals/0/docs/articles/2009/Evaluation.Recherche.pdf
  • 20
    Journals under threat : a joint response from history of science, technology and medicine editors. Med Hist. 2009 Jan ;53(1) :1-4.
  • 21
    Bourdieu P. Sur la télévision. Paris : Raisons d’agir Editions ; 1996. p. 72.
  • 22
    Simpson W, Herbert Emery JC. Canadian economics in decline : Implications for Canada’s economics journals. Can Public Policy. 2012 ;(38) :445-70.
  • 23
    Gingras Y, Mosbah-Natanson S. La question de la traduction en sciences sociales : les revues françaises entre visibilité internationale et ancrage national. Arch Eur Sociol. 2010 ;(51) :305-21.
  • 24
    Creagh S. Journal ranking ditched : the experts respond. The Conversation. 2011 May ; [Internet]. [Cité le 15 mars 2015]. Disponible sur : http://theconversation.com/journal-rankingsditched-the-experts-respond-1598
  • 25
    Vanclay JK. An evaluation of the Australian Research Council’s journal ranking. J Informetr. 2011 ;(5) :265-74.
  • 26
    Saada A. L’évaluation et le classement des revues de sciences humaines par l’Agence de l’évaluation de la recherche et de l’enseignement supérieur (AERES). Connexions. 2010 ;(93) :199-204.
  • 27
    Pontille D, Torny D. Rendre publique l’évaluation des SHS : les controverses sur les listes de revues de l’AERES. Quaderni. 2012 ;77(1) :11-24.

Mots-clés éditeurs : publications, indicateurs, recherche scientifique, évaluation, bibliométrie

Date de mise en ligne : 06/08/2015

https://doi.org/10.3917/rsi.121.0072

Notes

  • [1]
    Cet article est tiré en majeure partie de mon ouvrage : Les dérives de l’évaluation de la recherche. Du bon usage de la bibliométrie. Paris : Éditions Raisons d’agir ; 2014. Nous remercions les responsables de la maison d’édition d’avoir accepté que nous reprenions ici des parties de cet ouvrage, même si la structure de leur présentation est originale. Une version beaucoup plus courte de ce texte est parue dans la Revue Internationale PME, vol. 28, no 2, 2015.
  • [2]
    Voir aussi les nombreuses réactions dans Science, 335, 2 mars 2012, p. 1040-1042.
  • [3]
    J’ai montré ailleurs l’invalidité de tous ces classements fondés sur des indicateurs simplistes combinés de façon arbitraire.
  • [4]
    Cette brève analyse a été effectuée en utilisant la fonction « Analyze results » de la base de données WoS de Thomson Reuters.

Domaines

Sciences Humaines et Sociales

Sciences, techniques et médecine

Droit et Administration

bb.footer.alt.logo.cairn

Cairn.info, plateforme de référence pour les publications scientifiques francophones, vise à favoriser la découverte d’une recherche de qualité tout en cultivant l’indépendance et la diversité des acteurs de l’écosystème du savoir.

Retrouvez Cairn.info sur

Avec le soutien de

18.97.14.80

Accès institutions

Rechercher

Toutes les institutions