Faculté des sciences économiques et sociales

Imputation of income variables in a survey context and estimation of variance for indicators of poverty and social exclusion

Graf, Eric ; Tillé, Yves (Dir.)

Thèse de doctorat : Université de Neuchâtel, 2014 ; 2440.

This Phd thesis proposes to develop a method of imputation for income variables allowing direct analysis of the distribution of such data, particularly the estimation of complex statistics such as indicators for poverty and social exclusion as well as the estimation of their precision. In an introduction chapter we present the Swiss Survey on Income and Living Conditions (SILC) which we... More

Add to personal list
    Résumé
    Cette thèse développe une méthode d'imputation pour des données de revenus permettant des analyses directes sur la distribution de ces variables et également l'estimation de statistiques complexes telles que des indices de pauvreté et d'exclusions sociale ainsi que l'estimation de leur précision.
    Dans un chapitre introductif, nous présentons l'enquête sur les revenus et conditions de vie (SILC) dont les données sont utilisées à plusieurs reprises pour illustrer nos recherches.
    Dans un premier article accepté pour publication, co-écrit avec Dr. Lionel Qualité, nous présentons un aperçu des méthodes actuellement utilisées à l'Office Fédéral de la Statistique (OFS). Les échantillons sont sélectionnés de manière coordonnée afin de répartir au mieux la charge d'enquête sur les ménages et les personnes. Le calcul des pondérations, dont on présente les principales étapes, est adapté aux différents besoins et aux différentes situations rencontrées. L'Office se base sur les recommandations internationales, dont il participe à l'élaboration, pour le traitement des données d'enquête et les imputations. La précision des estimateurs est systématiquement évaluée en tenant compte des traitements réalisés.
    Dans un deuxième article publié, coécrit avec le Pr. Yves Tillé, nous avons mis en œuvre la technique de linéarisation généralisée reposant sur le concept de fonction d'influence, tout comme l'a fait Osier (2009), pour estimer la variance de statistiques complexes telles que les indices de Laeken. Des simulations montrent que, pour les cas où l'on a recours à une estimation par noyau gaussien de la fonction de densité des revenus considérés, on obtient un fort biais pour la valeur estimée de la variance. On propose deux autres méthodes pour estimer la densité qui diminuent fortement le biais constaté.
    Dans un rapport de recherche, nous résumons l'idée proposée par Deville et Särndal (1994) consistant à construire un estimateur non biaisé de la variance d'un total basé uniquement sur l'information à disposition (c'est-à-dire l'échantillon sélectionné et le sous-ensemble des répondants) dans le cas d'une imputation par régression. Alors que ces auteurs ont traité le total conventionnel d'une variable d'intérêt, nous reproduisons un développement similaire dans le cas où le total considéré est celui de la variable linéarisée d'un quantile. Nous montrons à l'aide de simulations sur des données d'enquête réelles que l'imputation par régression peut avoir un impact important sur le biais de la variance estimée pour des indicateurs d'inégalité sociale. Cela nous mène à une méthode capable de prendre en compte la variance due à l'imputation, en plus de celle du plan dans le cas de quantiles.
    Dans un article soumis, nous présentons notre nouvelle méthode d'imputation pour des variables de revenus. Des études empiriques ont montré que la loi bêta généralisée de seconde espèce (GB2) s'ajuste très bien à des données monétaires. Nous présentons une méthode d'imputation paramétrique reposant sur l'utilisation de poids issus d'un calage généralisé. Une loi GB2 est ajustée sur la distribution des revenus pour valider ces poids capables de compenser même pour de la non-réponse non-ignorable. Le succès de l'opération dépend grandement du choix, qui est discuté, des variables auxiliaires et instrumentales utilisées pour le calage. Nous validons notre système d'imputation sur les données SILC et comparons les résultats avec ceux obtenus par des imputations réalisées avec le logiciel IVEware. Nous avons investi de gros efforts pour estimer les variances par linéarisation, en prenant toutes les étapes de la procédure en compte.
    La dernière partie de la thèse discute du matériel additionnel qui n'a pas pu être inclus dans les autres chapitres. Nous donnons notamment quelques détails supplémentaires sur la distribution GB2, étudions la possibilité d'utiliser des tests de Durbin-Wu-Hausman dans le cadre du calage généralisé et présentons une façon de former des classes d'imputation pour une variable de revenu.
    Summary
    This Phd thesis proposes to develop a method of imputation for income variables allowing direct analysis of the distribution of such data, particularly the estimation of complex statistics such as indicators for poverty and social exclusion as well as the estimation of their precision.
    In an introduction chapter we present the Swiss Survey on Income and Living Conditions (SILC) which we extensively used to illustrate our research.
    In a first article accepted for publication, co-written with Dr. Lionel Qualité, we present an overview of the production methods at the Swiss Federal Office of Statistics (SFSO). Samples are selected with coordination so as to spread the survey burden over the population. We present the computation of extrapolation weights adapted to different cases and needs with its main steps. The SFSO relies on international recommendations for data editing and imputation, and contributes to their elaboration. The precision of estimators is consistently evaluated, according to the different treatments and methods involved in their construction.
    In a second published article, co-written with Pr. Yves Tillé, we have used the generalized linearization technique based on the concept of influence function, as Osier (2009) has done, to estimate the variance of complex statistics such as Laeken indicators. Through simulations, we show that the use of Gaussian kernel estimation to estimate an income density function results in a strongly biased variance estimate. We propose two other density estimation methods that significantly reduce the observed bias.
    In a working paper, we resume the idea presented by Deville and Särndal (1994) which consists in constructing an unbiased estimator of the variance of a total based solely on the information at our disposal (i.e. on the selected sample and the subset of respondents) in the case of regression imputation. While these authors dealt with a conventional total of a variable of interest, we reproduce a similar development in the case where the considered total is one of the linearized variable of quantiles. We show by means of simulations on real survey data that regression imputation can have an important impact on the bias and variance estimations of social inequality indicators. This leads us to a method capable of taking into account the variance due to imputation in addition to the one due to the sampling design in the cases of quantiles.
    In a submitted article, we present our new imputation method for income variables. Empirical studies have shown that the generalized beta distribution of the second kind (GB2) fits income data very well. We present a parametric method of imputation relying on weights stemming from generalized calibration. A GB2 distribution is fitted on the income distribution in order to determine whether these weights can compensate even for nonignorable nonresponse that affects the variable of interest. The success of the operation greatly depends on the choice of auxiliary and instrumental variables used for calibration, which we discuss. We validate our imputation system on SILC data and compare it to imputations performed through the use of IVEware software. We have made great efforts to estimate variances through linearization, taking all the steps of our procedure into account.
    The last part of this Phd thesis discusses additional material which we could not include in the other chapters. Namely we give some more insights into the GB2 distribution, study the possibility of using Durbin-Wu-Hausman tests in the framework of generalized calibration and present a way of forming imputation classes for an income variable.