Chapitre d’ouvrage

Chapitre 7. Des spécificités de l’approche bayésienne et de ses justifications en statistique inférentielle

Pages 223 à 243

Citer ce chapitre


  • Robert, C.-P.
(2016). Chapitre 7. Des spécificités de l’approche bayésienne et de ses justifications en statistique inférentielle. Dans
  • I. Drouet
Le bayésianisme aujourd’hui : Fondements et pratiques (p. 223-243). Éditions Matériologiques. https://stm.cairn.info/le-bayesianisme-aujourd-hui--9782373610789-page-223?lang=fr.

  • Robert, Christian P..
« Chapitre 7. Des spécificités de l’approche bayésienne et de ses justifications en statistique inférentielle ». Le bayésianisme aujourd’hui Fondements et pratiques, Éditions Matériologiques, 2016. p.223-243. CAIRN.INFO, stm.cairn.info/le-bayesianisme-aujourd-hui--9782373610789-page-223?lang=fr.

  • ROBERT, Christian P.,
2016. Chapitre 7. Des spécificités de l’approche bayésienne et de ses justifications en statistique inférentielle. In :
  • DROUET, Isabelle,
Le bayésianisme aujourd’hui Fondements et pratiques. Paris : Éditions Matériologiques. Sciences & philosophie, p.223-243. URL : https://stm.cairn.info/le-bayesianisme-aujourd-hui--9782373610789-page-223?lang=fr.

Notes

  • [1]
    Nous dirigeons le lecteur vers C. Robert, Le Choix bayésien, Springer-Verlag, 2005, pour une couverture plus complète (en français) de cette méthodologie spécifique, de nombreux autres ouvrages étant disponibles en anglais.
  • [2]
    Prêtre presbytérien non conformiste, membre de la Royal Society, qui publia à titre posthume un Essay towards solving a Problem in the Doctrine of Chances. On connaît très peu de détails sur sa vie et le seul portrait de lui dont on dispose demeure incertain. Voir S.B. McGrayne, The Theory that Would Not Die, Yale Univ Press, 2011, pour une introduction et A.I. Dale, A History of Inverse Probability, Springer-Verlag, 1999, pour une étude plus profonde sur ses contributions à la théorie qui porte à présent son nom.
  • [3]
    P.S. Laplace, Théorie analytique des probabilités, Courcier, 1812 ; J.M. Keynes, A Treatise on Probability, Macmillan and Co., 1920.
  • [4]
    Ronald Fisher, statisticien et généticien anglais, est à l’origine de la notion de vraisemblance. Féroce critique des approches alternatives a la sienne, et en particulier de la perspective bayésienne, il proposa à la fin de sa carrière la notion de statistique fiducière qui, s’appuyant sur des quantites pivotales, ressemblait formellement à une modélisation bayésienne non informative.
  • [5]
    Pierre Simon de Laplace a contribué à formaliser et à généraliser la mise en œuvre des probabilités inverses, bien plus que Thomas Bayes. Cette approche aurait donc mérité de s’appeler laplacienne plutôt que bayésienne. Notons également que, si Keynes a été formé à la statistique suivant des principes bayésiens, il rédige son traité de 1921 dans un esprit assez critique, sans pour autant proposer une alternative constructive (C. Robert, « Reading Keynes’ Treatise on Probability », International Statistical Review, 79, 2011, p. 1-15).
  • [6]
    C.P. Robert, N. Chopin & J. Rousseau, « Theory of Probability revisited (with discussion) », Statist. Science, 24(2), 2009, p. 141-172, p. 191-194.
  • [7]
    C’est l’argument du Dutch Book, voir J.O. Berger, Statistical Decision Theory and Bayesian Analysis, 2d ed., Springer-Verlag, 1985.
  • [8]
    McGrayne, The Theory that Would Not Die, op. cit.
  • [9]
    A. Birnbaum, « On the foundations of statistical inference », J. American Statist. Assoc., 57, 1962, p. 269-306.
  • [10]
    D.G. Mayo, « An error in the argument from conditionality and sufficiency to the Likelihood Principle », in D.G. Mayo & A. Spanos (eds.), Error and inference : recent exchanges on experimental reasoning, reliability, and the objectivity and rationality of science, Cambridge University Press, 2010, p. 305-314.
  • [11]
    Abréviation de « indépendants et identiquement distribués ».
  • [12]
    Birnbaum, « On the foundations of statistical inference », op. cit.
  • [13]
    La réfutation de cette demonstration par Mayo (« An error in the argument from conditionality and sufficiency to the Likelihood Principle », op. cit.) semble découler d’une définition tautologique de la notion d’inférence.
  • [14]
    J.O. Berger & R. Wolpert, The Likelihood Principle (2nd ed.), IMS, 1988.
  • [15]
    H. Jeffreys, Theory of Probability, First ed., The Clarendon Press, 1939 ; J.O. Berger & J.M. Bernardo, « On the development of the référence prior method », in J.O. Berger et al., (eds.), Bayesian Statistics 4, Oxford University Press, 1992, p. 35-49.
  • [16]
    D.J. Lunn et al., « WinBUGS – a Bayesian modelling framework : concepts, structure, and extensibility », Statist. Comput., 10, 2000, p. 325-337 ; D.J. Lunn et al., The BUGS Book : A Practical Introduction to Bayesian Analysis, Chapman & Hall/CRC Press, 2010.
  • [17]
    Nous rappelons d’une part que BUGS signifie Bayesian analysis Using Gibbs Sampling et d’autre part que le physicien Josiah Willard Gibbs n’a rien à voir avec les algorithmes de simulation conditionnelle qui portent à présent son nom. Ces algorithmes ont simplement été utilisés pour la première fois sur des champs de Gibbs (S. Geman & D. Geman, « Stochastic relaxation, Gibbs distributions and the Bayesian restoration of images », IEEE Trans. Pattern Anal. Mach. Intell., 6, 1984, p. 721-741). Ils constituent un exemple d’algorithmes de Monte Carlo par chaînes de Markov et ont énormément contribué à l’explosion des applications bayésiennes au début des années 1990 (C. Robert & G. Casella, Monte Carlo Statistical Methods, 2nd ed., Springer-Verlag, 2004).
  • [18]
    Trop technique pour être détaillé ici, voir par exemple Robert, Le Choix bayésien, op. cit.
  • [19]
    P. Diaconis & D. Ylvisaker, « Conjugate priors for exponential families », Ann. Statist., 7, 1979, p. 269-281.
  • [20]
    R.E. Kass & L. Wasserman, « Formal rules of selecting prior distributions : a review and annotated bibliography », J. American Statist. Assoc., 91, 1996, p. 343-1370.
  • [21]
    Harold Jeffreys fut à la fois mathématicien, statisticien, géophysicien et astronome. Son livre, Theory of Probability, demeure une référence sur la formalisation de l’approche bayésienne, écrite à une époque où celle-ci n’était plus si populaire, même si certains aspects du livre sont critiquables sur le plan mathématique (Robert, Chopin & Rousseau, « Theory of Probability revisited (with discussion) », op. cit.).
  • [22]
    Cette matrice indexée par le paramètre mesure le pouvoir des données à discriminer entre deux valeurs du paramètre. Elle donne une représentation de la courbure de la surface de vraisemblance et apparaît via son inverse dans la variance asymptotique des estimateurs standard.
  • [23]
    Nous renvoyons le lecteur à Berger & Bernardo (« On the development of the référence prior method », op. cit.) et J.M. Bernardo & A.F.M. Smith (Bayesian Theory, John Wiley 1994) pour des entrées sur cette extension qui demeure peu utilisée à ce jour. Voir aussi Kass & Wasserman (« Formal rules of selecting prior distributions : a review and annotated bibliography », op. cit.), pour une revue de certains principes de détermination des lois « non informatives ».
  • [24]
    Robert, Le Choix bayésien, op. cit.
  • [25]
    Notons que cette hypothèse est peu restrictive en ce qu’elle correspond in fine à celle d’échangeabilité sur la loi du n-uplet, suivant la représentation de Bruno de Finetti. Voir par exemple Bernardo & Smith, Bayesian Theory, op. cit.
  • [26]
    T.S. Ferguson, « Prior distributions in spaces of probability measures », Ann. Statist., 2, 1974, p. 615-629.
  • [27]
    Voir par exemple N.L. Hjort, C. Holmes & P. Müller, Bayesian nonparametrics, Cambridge University Press, 2009 ; C.C. Holmes et al., Bayesian methods for nonlinear classification and regression, John Wiley, 2002.
  • [28]
    J. Sethuraman, « A constructive definition of Dirichlet priors », Statistica Sinica, 4, 1994, p. 639-650.
  • [29]
    A. van der Vaart, Asymptotic Statistics, Cambridge University Press, 1998 ; Y. Yang & A.R. Barron, « Information-theoretic determination of minimax rates of convergence », Ann. Statist., 27, 1999, p. 1564-1599 ; S. Ghosal, J. Lember & A. van der Vaart, « Nonparametric Bayesian model selection and averaging », Electronic J. of Statistics, 2, 2008, p. 63-89.
  • [30]
    Hjort, Holmes & Müller, Bayesian nonparametrics, op. cit. ; P. Müller & R. Mitra, « Bayesian Nonparametric Inference – Why and How », Bayesian Anal., 8, 2013, p. 269-302.
  • [31]
    B. Vidakovic, Statistical Modeling by Wavelets, Wiley, 1999 ; M. Clyde & E.I. George, « Flexible empirical Bayes estimation for wavelets », J. Royal Statist. Society Series B, 62, 2000, p. 681-698.
  • [32]
    Il s’agit en grande partie d’illustrations et nous renvoyons le lecteur par exemple à Robert (Le Choix bayésien, op. cit.) pour une perspective plus complète.
  • [33]
    Ce résultat découle aussi directement du principe de vraisemblance.
  • [34]
    Répétons ici la remarque que la prise en compte de la distinction entre paramètres d’intérêt et paramètres de nuisance a conduit Berger & Bernardo (« On the development of the référence prior method », op. cit.) à proposer des lois de référence reproduisant cette distinction et éliminant les paramètres de nuisance par une intégration suivant une loi de Jeffreys conditionnelle.
  • [35]
    Ou régions HPD pour highest posterior density.
  • [36]
    Voir P. Druilhet & J.M. Marin, « Invariant HPD credible sets and MAP estimators », Bayesian Analysis, 2(4), 2007, p. 681-692.
  • [37]
    Une résolution numérique plus poussée de cette dernière conduit à… [0,440, 0,558], soit donc le même intervalle (pour cette précision) que la solution symétrique !
  • [38]
    K. Lee et al., « Bayesian Inference on Mixtures of Distributions », in N.S.N. Sastry, M. Delampady & B. Rajeev (eds.), Perspectives in Mathematical Sciences I : Probability and Statistics, World Scientific, 2009, p. 165-202.
  • [39]
    Voir Robert, Le Choix bayésien, op. cit.
  • [40]
    A. Wald, Statistical Decision Functions, John Wiley, 1950.
  • [41]
    Voir par exemple A. Gelman et al., Bayesian Data Analysis, 2nd ed., Chapman and Hall, 2003.
  • [42]
    Robert, Chopin & Rousseau, « Theory of Probability revisited (with discussion) », op. cit.
  • [43]
    L’approche bayésienne des tests est souvent qualifiée de « holmesienne » en référence à la citation de Sherlock Holmes sur la sélection de l’hypothèse la moins improbable : « When you have eliminated the impossible, whatever remains, however improbable, must be the truth. »
  • [44]
    Le « presque » est dû au fait que le facteur de Bayes ne dépend plus des probabilitiés a priori des deux hypothèses en jeu.
  • [45]
    Jeffreys, Theory of Probability, op. cit.
  • [46]
    J.O. Berger & T. Sellke, « Testing a point-null hypothesis : the irreconcilability of significance levels and evidence (with discussion) », J. American Statist. Assoc., 82, 1987, p. 112-122.
  • [47]
    Voir Robert, Le Choix bayésien, op. cit., chapitre 5.
  • [48]
    D.V. Lindley, « A statistical paradox », Biometrika, 44, 1957, p. 187-192.
  • [49]
    A. Spanos, « Who should be afraid of the Jeffreys – Lindley paradox ? », Philosophy of Science, 80, 2013, p. 73-93.
  • [50]
    J. Sprenger, « Testing a precise null hypothesis : The case of Lindley’s paradox », Philosophy of Science, à paraître. Comme je le souligne dans C.P. Robert, « On the Jeffreys – Lindley’s paradox », Philosophy of Science, 81, 2014, p. 216-232, l’opposition est naturelle et doit être relativisée par l’existence de solutions convergentes dans les deux approches.
  • [51]
    M.H. DeGroot, Optimal Statistical Decisions, McGraw-Hill, 1970.
  • [52]
    J.O. Berger & L.R. Pericchi, « The Intrinsic Bayes Factor for Model Selection and Prediction », J. American Statist. Assoc., 91, 1996, p. 109-122.
  • [53]
    M. Aitkin, « Posterior Bayes factors (with discussion) », J. Royal Statist. Society Series B, 53, 1991, p. 111-142 ; M. Aitkin, Statistical Inference : A Bayesian/Likelihood approach, CRC Press, 2010 ; A. Gelman et al., Bayesian Data Analysis, third ed., Chapman and Hall, 2013.
  • [54]
    Ces critères sont néanmoins populaires car (i) ne nécessitant pas de loi a priori pour BIC et (ii) disponibles directement sur le logiciel BUGS pour DIC (Lunn et al., The BUGS Book : A Practical Introduction to Bayesian Analysis, op. cit.).
  • [55]
    Voir par exemple S.L. Lauritzen, Graphical Models, Oxford University Press, 1996.
  • [56]
    P. Müller et al., « Optimal Sample Size for Multiple Testing : the Case of Gene Expression Microarrays », J. American Statist. Assoc., 99, 2004, p. 990-1001.
  • [57]
    H. Chipman, E. George & R. McCulloch, « BART : Bayesian Additive Regression Trees », Annals of Applied Statistics, 4, 2010, p. 266-298.

La statistique bayésienne est une approche spécifique de la statistique inférentielle qui propose une réponse à la fois unitaire et globale au problème inférentiel, dans le cadre paramétrique comme dans le cadre non paramétrique. Elle se distingue des approches dites « classiques » par la construction et l’utilisation d’une loi de probabilité sur l’ensemble des notions pouvant faire l’objet d’une inférence. On peut légitimement se demander pourquoi la distinction entre cette approche bayésienne et les méthodologies (plus) classiques est nécessaire – et pourquoi elle n’est pas « classique » –, d’autant qu’elle s’accompagne de débats philosophiques particulièrement virulents et de positions militantes pouvant parfois évoquer des dérives sectaires, attitudes qui ne se retrouvent pas dans les autres approches de la statistique inférentielle.
Le principe de l’inférence bayésienne se résume assez simplement : étant donné un modèle statistique, l’ensemble des constituants (paramètres et/ou fonctions) inconnus de ce modèle est traité comme une variable aléatoire – potentiellement de dimension infinie –, donc munie d’une loi de probabilité, et l’ensemble des réponses inférentielles se fonde sur la loi de cette variable aléatoire, conditionnellement aux données. Ce qui fait la beauté de cette approche et explique en partie son attractivité est que la démarche inférentielle est alors quasi-automatique, étant donné cette loi et une mesure des performances des procédures dite fonction de coû…


Date de mise en ligne : 01/06/2022

Ce chapitre est en accès conditionnel

Acheter cet ouvrage

22,00 €

504 pages, format électronique (HTML et feuilletage, par chapitre)

Acheter ce chapitre

5,00 €

21 pages format électronique (HTML, PDF et feuilletage)
Membre d'une institution cliente ?