Pour construire des échantillons aléatoires, il faut disposer d'une base de sondage, c'est-à-dire d'une liste des N individus de la population numérotés de 1 à N.
1) On utilise ensuite les chiffres d'une table de nombres au hasard, ou des nombres obtenus par un générateur de nombres pseudo-aléatoires, pour choisir les individus :
d'un échantillon aléatoire simple, c'est-à-dire tel que chaque individu a la même probabilité d'être choisi, et de façon indépendante d'un individu à l'autre.
Si le tirage se fait sans remise dans une grande population ( n petit devant N ), tout se passe comme s'il s'agissait de tirages indépendants.
- Lorsque l'approximation normale est justifiée ( n "grand" ), un intervalle de confiance de niveau 1 - a pour m a pour bornes
u ( valeurs approchées: u )
- Pour p, les bornes sont :
f u ( valeurs approchées : f u )
u est le quantile 1 - a / 2 de N ( 0 , 1 )
2) Si la population se subdivise en K sous-populations distinctes relativement homogènes, appelées strates, la précision de l'estimation peut être augmentée par un sondage stratifié :
On choisit n1 , n2 , ... , nk individus au hasard parmi les N1 , N2 , ... , Nk de chaque strate.
L'estimateur retenu est la moyenne des estimateurs calculés dans chaque strate, pondérée par :
Son écart-type est :
On peut utiliser * pour calculer un intervalle de confiance comme ceux vus précédemment.
On dit alors que la marge d'erreur est u *.
- L'échantillonnage stratifié est représentatif si le taux de sondage est le même dans chaque strate, et égal au taux de sondage final :
L'estimateur de m ( ou de p ) s'obtient alors simplement en calculant ( ou f ) sur l'ensemble de l'échantillon de taille n obtenu.
- Si l'on connaît (au moins approximativement) les variances par strate, , le choix des nh conduisant à un estimateur de variance minimale est :
On dit alors que l'on a un échantillon stratifié optimal (les strates les plus hétérogènes et les plus nombreuses sont davantage prises en compte).
Il est possible pour toutes ces méthodes d'associer à chaque individu un "poids" différent de et d'effectuer un sondage à probabilités inégales.
Il existe d'autre part des méthodes empiriques de réalisation de sondages, très utilisées en France, telles la méthode des quotas ou des unités-types.
mais ces méthodes ne faisant pas appel aux techniques de probabilités et statistique ne permettent pas de calculer mathématiquement la précision des estimations faites, et sont basées essentiellement sur l'expérience.