Pour construire des échantillons aléatoires, il faut disposer d'une base de sondage, c'est-à-dire d'une liste des N individus de la population numérotés de 1 à N.

1) On utilise ensuite les chiffres d'une table de nombres au hasard, ou des nombres obtenus par un générateur de nombres pseudo-aléatoires, pour choisir les individus :

d'un échantillon aléatoire simple, c'est-à-dire tel que chaque individu a la même probabilité d'être choisi, et de façon indépendante d'un individu à l'autre.

Si le tirage se fait sans remise dans une grande population ( n petit devant N ), tout se passe comme s'il s'agissait de tirages indépendants.

 

 

 

- Lorsque l'approximation normale est justifiée ( n "grand" ), un intervalle de confiance de niveau 1 - a pour m a pour bornes

u ( valeurs approchées: u )

- Pour p, les bornes sont :

f u ( valeurs approchées : f u )

u est le quantile 1 - a / 2 de N ( 0 , 1 )

 

 

2) Si la population se subdivise en K sous-populations distinctes relativement homogènes, appelées strates, la précision de l'estimation peut être augmentée par un sondage stratifié :

On choisit n1 , n2 , ... , nk individus au hasard parmi les N1 , N2 , ... , Nk de chaque strate.

L'estimateur retenu est la moyenne des estimateurs calculés dans chaque strate, pondérée par :

Son écart-type est :

On peut utiliser * pour calculer un intervalle de confiance comme ceux vus précédemment.

On dit alors que la marge d'erreur est u *.

- L'échantillonnage stratifié est représentatif si le taux de sondage est le même dans chaque strate, et égal au taux de sondage final :

L'estimateur de m ( ou de p ) s'obtient alors simplement en calculant ( ou f ) sur l'ensemble de l'échantillon de taille n obtenu.

- Si l'on connaît (au moins approximativement) les variances par strate, , le choix des nh conduisant à un estimateur de variance minimale est :

On dit alors que l'on a un échantillon stratifié optimal (les strates les plus hétérogènes et les plus nombreuses sont davantage prises en compte).

Il est possible pour toutes ces méthodes d'associer à chaque individu un "poids" différent de et d'effectuer un sondage à probabilités inégales.

Il existe d'autre part des méthodes empiriques de réalisation de sondages, très utilisées en France, telles la méthode des quotas ou des unités-types.

mais ces méthodes ne faisant pas appel aux techniques de probabilités et statistique ne permettent pas de calculer mathématiquement la précision des estimations faites, et sont basées essentiellement sur l'expérience.

Exercices