Faculté des sciences de base SB, Département de mathématiques, Institut de mathématiques IMA (Chaire de statistique STAT)

Computer-intensive statistical methods : saddlepoint approximations with applications in bootstrap and robust inference

Kuonen, Diego ; Davison, Anthony Christopher (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2001 ; no 2449.

Ajouter à la liste personnelle
    Summary
    The saddlepoint approximation was introduced into statistics in 1954 by Henry E. Daniels. This basic result on approximating the density function of the sample mean has been generalized to many situations. The accuracy of this approximation is very good, particularly in the tails of the distribution and for small sample sizes, compared with normal or Edgeworth approximation methods. Before applying saddlepoint approximations to the bootstrap, this thesis will focus on saddlepoint approximations for the distribution of quadratic forms in normal variables and for the distribution of the waiting time in the coupon collector's problem. Both developments illustrate the modern art of statistics relying on the computer and embodying both numeric and analytic approximations. Saddlepoint approximations are extremely accurate in both cases. This is underlined in the first development by means of an extensive study and several applications to nonparametric regression, and in the second by several examples, including the exhaustive bootstrap seen from a collector's point of view. The remaining part of this thesis is devoted to the use of saddlepoint approximations in order to replace the computer-intensive bootstrap. The recent massive increases in computer power have led to an upsurge in interest in computer-intensive statistical methods. The bootstrap is the first computer-intensive method to become widely known. It found an immediate place in statistical theory and, more slowly, in practice. The bootstrap seems to be gaining ground as the method of choice in a number of applied fields, where classical approaches are known to be unreliable, and there is sustained interest from theoreticians in its development. But it is known that, for accurate approximations in the tails, the nonparametric bootstrap requires a large number of replicates of the statistic. As this is time-intensive other methods should be considered. Saddlepoint methods can provide extremely accurate approximations to resampling distributions. As a first step I develop fast saddlepoint approximations to bootstrap distributions that work in the presence of an outlier, using a saddlepoint mixture approximation. Then I look at robust M-estimates of location like Huber's M-estimate of location and its initially MAD scaled version. One peculiarity of the current literature is that saddlepoint methods are often used to approximate the density or distribution functions of bootstrap estimators, rather than related pivots, whereas it is the latter which are more relevant for inference. Hence the aim of the final part of this thesis is to apply saddlepoint approximations to the construction of studentized confidence intervals based on robust M-estimates. As examples I consider the studentized versions of Huber's M-estimate of location, of its initially MAD scaled version and of Huber's proposal 2. In order to make robust inference about a location parameter there are three types of robustness one would like to achieve: robustness of performance for the estimator of location, robustness of validity and robustness of efficiency for the resulting confidence interval method. Hence in the context of studentized bootstrap confidence intervals I investigate these in more detail in order to give recommendations for practical use, underlined by an extensive simulation study.
    Résumé
    La technique de point de selle a été introduite en statistique en 1954 par Henry E. Daniels. A l'origine utilisé pour approcher la fonction de densité de la moyenne, ce résultat a été généralisé à beaucoup de situations. Comparé aux méthodes normales et à l'approximation d'Edgeworth, l'exactitude de cette approximation est très bonne, en particulier dans les queues de la distribution et pour des échantillons de petites tailles. Avant d'appliquer les approximations de point de selle aux méthodes de bootstrap ou de rééchantillonnage, cette thèse se concentrera sur des approximations de point de selle pour la distribution des formes quadratiques de variables normales et pour la distribution du temps d'attente dans le problème du collecteur de coupons. Les deux développements illustrent l'art moderne de la statistique se fondant sur l'informatique et mélangeant des approximations numériques et analytiques. Les approximations de point de selle sont extrêmement précises dans les deux cas. Ceci est souligné dans le premier développement au moyen d'une étude étendue et plusieurs applications à la régression non paramétrique, et dans le second par plusieurs exemples, y compris le bootstrap exhaustif dans le cas du problème du collectionneur de coupons. La partie restante de cette thèse est consacrée à l'utilisation des approximations de point de selle afin de substituer le rééchantillonnage. Les récentes augmentations massives de la puissance de calcul des ordinateurs ont mené à une croissance de l'intérêt pour des méthodes statistiques dites "computer-intensive". Le bootstrap est la première "computer-intensive" méthode à devenir largement connue. Il a trouvé un champ d'application immédiat dans la théorie statistique et, plus lentement, dans la pratique. Le bootstrap semble gagner du terrain comme méthode de choix dans un certain nombre de domaines appliqués, où des approches classiques sont connues pour être incertaines. De plus, il y a un intérêt soutenu des théoriciens dans son développement. Mais on sait que pour des approximations précises dans les queues, le bootstrap non paramétrique exige un grand nombre de répliques de la statistique. Comme ceci peut être très lent, d'autres méthodes devraient être considérées. Les méthodes de point de selle peuvent fournir des approximations extrêmement précises aux distributions de rééchantillonnage. Dans un premier temps je développe des approximations de point de selle pour des distributions de rééchantillonnage qui fonctionnent en présence d'une valeur aberrante, en utilisant une approximation de point de selle mélangée. Ensuite, je considère des M-estimateurs robustes de lieu comme le M-estimateur de lieu de Huber et sa version standardisée par le MAD. Une particularité de la littérature actuelle est que des méthodes de point de selle sont souvent employées pour approcher la densité ou la fonction de distribution des estimateurs bootstrap, plutôt que celles des pivots associés, tandis que ce sont ces derniers qui sont plus appropriés pour faire de l'inférence. Par conséquent le but de la partie finale de cette thèse est d'appliquer les approximations de point de selle à la construction d'intervalles de confiance bootstrap studentisés basés sur des M-estimateurs robustes. Les exemples que je vais considérer sont les versions studentisées du M-estimateur de Huber, de sa version standardisée par le MAD et du "proposal 2" de Huber - un M-estimateur robuste de lieu et d'échelle. Quand on veut faire de l'inférence robuste sur un paramètre de lieu, il y a trois types de robustesse dont on veut s'assurer : la robustesse de performance pour l'estimateur de lieu, la robustesse de validité et la robustesse d'efficacité pour la mèthode par intervalles de confiance résultants. Par conséquent dans le contexte des intervalles de confiance bootstrap studentisés, j'étudie ces derniers plus en détails afin de donner des recommandations pour l'usage pratique, lesquelles seront soulignées par une étude étendue de simulations.