Modèles stochastiques appliqués en médecine :

Nicolas Molinari

L'objet de ce cours est de donner un certains nombre d'outils statistiques pour l'analyse de données issues du contexte médical. En
particulier, sera abordé l'analyse des données de survie avec l'étude de la censure, des modèles paramétriques, non paramétriques et
semi-paramétriques. Des généralisations via des mélanges de lois, des méthodes de partitionnement, des modèles non linéaires et des modèles
multi-états seront proposées. La notion de U-statistique permettra d'introduire les modèles à risques compétitifs. Une autre thématique
sera l'étude d'événements ponctuels de R^p; ce type de données pouvant être illustré par les dates d'occurrence d'une pathologie particulière
(épidémie). De même, sera traitée la notion de méta-analyse d'études cliniques. Enfin, des notions d'analyse des données génétiques seront
abordées.

Bibliographie :

Collett, D. (1994), Modelling Survival Data in Medical Research, Chapman & Hall, London.
Lange, K. (1997), Mathematical and Statistical Methods for Gentic Analysis, Springer, New York.
Lawless, J.F. (1982), Statistical Models and Methods for Lifetime Data, John Wiley & Sons, New York.
Zhang, H. & Burton S. (1999), Recursive Partitioning in the Health Sciances, Springer, New York.

 

Processus et applications en médecine :

Jean-Pierre Daurès

Première partie :
Fondements du calcul Bayésien, fonction de risque, estimation bayésienne, décision bayésienne, applications en médecine et biologie.
Différents types de lois a priori avec discussion. Lois conjuguées, mesure de Prohorov. Application au modèle linéaire, linéaire généralisé
et en génomique (présentation succincte des méthodes numériques bayésiennes : Metropolis-Hastings, EM, SEM,...)

Deuxième partie :
Rappels sur les processus de comptage, la décomposition de Doob, la théorie des martingales et le théorème limite central des martingales. Vraisemblance partielle, application aux processus. Intérêt et application cliniques : survie avec censure non informative ou
informative, survie ajustée sur la qualité de vie, études coût efficacité et étude de bénéfice net incrémentiel.

 

Méthodes paramétriques en Biostatistique :

Gilles Ducharme

Le but de ce cours est de présenter de façon rigoureuse les outils de base de l’inférence statistique (estimateurs, tests d’hypothèses) pour les modèles paramétriques. Ces outils sont un élément essentiel de l’arsenal du statisticien. Ils constituent l’épine dorsale sur laquelle repose l’essentiel des méthodes d’inférence en biostatistique. Le cours s’articule autour de 8 leçons dont voici une courte description :

Leçons 1 et 2) Rappel des notions de base : Modes de convergence, Méthodes d’estimation classique : Moments et EVM. Trio de tests dans des modèles paramétrique

Leçon 3) Application à l’analyse de données discrètes : tables de contingence et modèles log-linéaires pour plan d’échantillonnage à 1 multinomiale

Leçon 4) suite: tables de contingence et modèles log-linéaires pour plan d’échantillonnage « X de multinomiales ». Inférence exacte dans les tables de contingence.

Leçon 5) Tests d’adéquation 1 : cas où H0 est simple. Test du , test de Kolmogorov, tests de type Cramér von Mises, tests lisses de Neyman, tests lisses de Ledwina pilotés par les données.

Leçon 6) Régression linéaire et non linéaire : Inférence et tests d’hypothèses dans le cas d’erreurs gaussiennes. Extension aux cas d’erreurs non gaussiennes.

Leçon 7) Tests d’adéquation 2 : cas où H0 est composite. Adaptation des tests présentés au Cours 5) à ce contexte. Généralisation au problème de tester l’adéquation de modèles de régression.

Leçon 8 a) Modèles GLM : Cas particulier de la régression logistique. Lien canonique et autres fonctions de lien. Modèle Poissonnien, Modèle de Gamma. Autres modèles importants.

Leçon 8 b) : Sélection de modèle : Méthode AIC, BIC. Lien avec les tests de vraisemblance maximale. Variantes.

Bibliographie :

Gouriéroux, C., Monfort, A., (1989) : Statistique et Modèles Économétriques. Vol. 1 et 2, Economica, Paris. ISBN 2-7178-1667-4 et 1668-2.
Bishop, Y.M.M., Fienberg, S.E., Holland, P.W. (1975) : Discrete Multivariate Analysis, MIT Press, Cambridge. ISBN 0-262-52040-0.
Burnham, K.P., Anderson, D.R. (2002) : Model selection and multimodel inference : a practical information-theoretic approach. Springer-Verlag, New-York, 2nd ed.
Plackett, R.L. (1981) : The Analysis of Categorical Data 2nd edition. Griffin statistical monograph #35, London. ISBN 0-85264-265-2
D’Agostino R.B., Stephens, M.A. (1986) : Goodness-of-fit Techniques. Marcel Dekker, New-York. ISBN 0-8247-7487-6.
Seber, G.A.F. (1977) : Linear Regression Analysis. Wiley, New-York.
Seber, G.A.F., Wild, C.J. (1989) : Nonlinear regression. Wiley, New York. ISBN 0-471-61760-1.
Ccullagh, P., Nelder, J.A. (1983) : Generalized Linear Models. Chapman et Hall, London. ISBN 0-412-23850-0

 

Modélisation stochastique en biologie :
Processus markoviens, algorithme EM et sélection de modèles

Yann Guédon

La première partie de ce cours est consacrée à la présentation de grandes familles de processus stochastiques : processus de renouvellement et différentes classes de processus markoviens et semi markoviens. Les chaînes de Markov d’ordre variable, les processus agrégés construits à partir de chaînes de Markov et les (semi )chaînes de Markov cachées sont notamment présentés. Ces différentes familles de processus stochastiques sont à la base de la modélisation statistique de données biologiques structurées en séquences ou en arborescences et permettent notamment d’identifier des motifs ou de détecter des zones homogènes et des ruptures dans ces données. Du fait soit de mécanismes de censure (processus de renouvellement et processus semi markoviens), soit de la présence de variables cachées ((semi )chaînes de Markov cachées), se posent des problèmes d’estimation aux données incomplètes.

La seconde partie de ce cours est consacrée aux méthodes statistiques nécessaires pour l’estimation des processus stochastiques étudiés dans le première partie : l’algorithme EM et ses variantes stochastiques dédiés aux problèmes d’estimation aux données incomplètes et les méthodes de sélection de modèles (sélection de l’ordre d’une chaîne de Markov, du nombre d’états d’une chaîne de Markov cachée). Des liens sont montrés avec d’autres champs de la statistique : chaîne de Markov cachée vue comme un modèle à espace d’états, certains modèles markoviens (cachés) vues comme des modèles graphiques …

Ce cours est illustré par divers exemples issus principalement de l’analyse de la structure et de la croissance des plantes mais aussi d’autres applications biologiques (analyse de séquences d’ADN …).


Bibliographie :

Burnham, K. P. & Anderson, D. R. (2002). Model Selection and Multimodel Inference. A Practical Information-Theoretic Approach, 2ème édition. New York : Springer.
Durbin, R., Eddy, S. R., Krogh, A. & Mitchison, G. J. (1998). Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge : Cambridge University Press.
Guttorp, P. (1995). Stochastic Modeling of Scientific Data. London : Chapman & Hall.
Karlin, S. & Taylor H. M. (1975). A First Course in Stochastic Processes. 2ème édition, Academic Press.
Karlin, S. & Taylor, H. M. (1981). A Second Course in Stochastic Processes. Academic Press.
Kulkarni, V. G. (1995). Modeling and Analysis of Stochastic Systems. London : Chapman & Hall.
MacDonald, I. L., & Zucchini, W. (1997). Hidden Markov and Other Models for Discrete-valued Time Series. London : Chapman & Hall.
McLachlan, G. J. & Krishnan, T. (1997). The EM Algorithm and Extensions. New York : Wiley.

 

Statistiques spatiales : Introduction à la Géostatistique

Denis ALLARD

Ce cours est une introduction aux statistiques spatiales, à la théorie des champs aléatoires et à la pratique de la géostatistique.

1. Théorie des champs aléatoires : les différentes hypothèses de stationnarité, propriété des fonctions de covariance et du variogramme, théorie spectrale des champs aléatoires.

2. Estimation de la fonction de covariance : le variogramme empirique, ses propriétés, l'analyse structurale.

3. Le krigeage pour la prédiction spatiale : krigeage simple, krigeage ordinaire, système de pondérations, erreur de prédiction, validation croisée.

4. Géostatistique dans le cadre non-stationnaire : krigeage universel, FAIk, krigeage avec dérive externe.

5. Simulation de champs aléatoires, simulations conditionnelles.

Ce cours s'appuiera sur des traitements de cas d'étude avec le logiciel R ( http://cran.r-project.org/ ).

Bibliographie :

Chilès, J-P. and Delfiner, P. (1999) Geostatistics : Modeling Spatial Uncertainty. Wiley Series in Probability and Statistics, Wiley, 695 p.
Cressie, N. (1991) Statistics for Spatial Data. Wiley, New-York.
Stein, M. (1999) Interpolation of spatial data : some theory for kriging. Springer-Verlag. 246 p.
Wackernagel, H. (1995) Multivariate Geostatistics. Springer-Verlag, Berlin. 256 p.

 

Théorie et pratique de la statistique bayésienne :

Christophe Abraham

Ce cours propose une étude, à la fois théorique et pratique, des principaux modèles bayésiens. Dans un premier temps, il aborde les modèles paramétriques de bases (observations binomiales ou normales) avec les lois a priori conjuguées ou non-informatives.
Les chapitres suivants sont consacrés au modèles linéaires et linéaires hiérarchiques avec une étude détaillée de la régression et du modèle mixte. Le modèle multinomial sera ensuite l'occasion d'aborder la statistique bayésienne nonparamétrique avec l'étude de la loi de Dirichlet et du processus de Dirichlet. Pour finir, le modèle nonparamétrique hiérarchique (modèle hiérarchique complété par un "étage" supplémentaire non paramétrique) sera abordé.
Suivant la vitesse de progression du cours, certains points importants comme ,par exemple, le choix de modèle, le choix de design ou la classification, pour lesquels le point de vue bayésien apporte une réponse originale, seront étudiés. De même, des sujets plus théoriques, comme la statistique asymptotique, pourront être abordés.
Ce cours est illustré par de nombreux exercices autant théoriques que pratiques. Pour ces derniers, le traitement statistique sera réalisé à l'aide du logiciel R.
Aucun pré-requis n'est, a priori, nécessaire pour suivre ce cours.

 

Statistique des événements extrêmes :

Jean-Noël Bacro

Lorsque l'on s'intéresse au comportement extrême d'un phénomène sous-jacent sur la base d'un échantillon de réalisations de ce phénomène, les approches usuelles de la statistique classique s'avèrent inadaptées : non seulement les réalisations extrêmes sont - par définition- rares, mais encore les questions posées en pratique imposent le plus souvent d'extrapoler à partir de ces réalisations extrêmes ...
Les résultats théoriques sur le comportement stochastique des extrêmes d'échantillon qu'offrent la théorie des valeurs extrêmes permettent de proposer un cadre mathématique rigoureux pour réaliser de telles extrapolations. Le but du cours est de présenter les principales notions de la théorie des valeurs extrêmes et les modélisations utilisées en statistique des extrêmes. Dans un premier temps, nous considérerons le cadre univarié i.i.d., puis nous généraliserons notre approche aux cadres stationnaires et non-stationnaires, plus proches de la réalité des applications. L'aspect multivarié sera abordé au travers des extrêmes bivariés dont l'intérêt pour la modélisation de processus temporels ou spatiaux est réel en pratique. L'accent sera mis sur les méthodes statistiques et leurs applications, et le cours s'appuiera sur un jeu de donnéees de précipitations journalières à Marseille.

Bibliographie :

Coles, S., (2001) : An introduction to statistical modelling of extreme values. Springer.
Embrechts, P., Kluppelburg, C., Mikosh, T. (1998) : Modelling Extremal events for insurance and finance. Springer
.
Galambos, J. (1987) : The asymptotic theory of extreme order statistics. Wiley.

 

Méthodes multivariées d'analyse de données expérimentales :

Robert Sabatier

Le cours débute par des compléments de calcul matriciel, en particulier sur la dérivation matricielle, la recherche d'extrema libres et liés,
ainsi que sur les inverses généralisés. Illustré d'exemples pratiques réels, issus d'expérimentations agronomiques, ou biologiques, ce cours est organisé en trois grands chapitres. Dans le premier les méthodes traditionnelles de l'analyse multivariée sont présentées (ACP, AFC, PM) mais sans oublier les théorèmes d'optimalité associés. La deuxième partie est une présentation de méthodes mettant en jeu deux tableaux, en prenant soin de differencier les méthodes de prédiction (ACP, AFD, PLS) des méthodologies où l'on s'intéresse préferentiellement à la recherche de co-information (AC et AIBT). La dernière partie est une approche des techniques à tableaux multiples et multitableaux avec STATIS, ACIMOG, DO-ACT...

Bibliographie :

Hastie, Tibshirani, Friedman (2001) : The elements of statistical learning. Springer.
Mardia, Kent, Bibby (1979) : Multivariate analysis. Academic Press.
Saporta (1990) : Probabilités Analyse des Données et Statistique. Editions Technip.

 

Traitement statistique de données avec R :

Bénédicte Fontez et Pierre Pudlo

Objectifs du cours

Le but de ce cours est de présenter est de présenter la mise en oeuvre avec le logiciel R des traitements statistiques les plus usuels. Chaque méthode fera l’objet d’un rappel méthodologique.

Plan du cours

Cet enseignement est divisé en 7 cours de 3 h.
Cours 1 : Statistique élémentaire (B. Fontez)
Cours 2 : Test (B. Fontez)
Cours 3 : Régression 1 (B. Fontez)
Cours 4 : Régression 2 (B. Fontez)
Cours 5 : Analyse de la variance et de la covariance (B. Fontez)
Cours 6 : Discrimination par la méthode des K plus proches voisins (P. Pudlo)
Cours 7 : Classification (P. Pudlo)

Contrôle des connaissances

L’évaluation sera faite sur ordinateur lors d’un examen final.

Bibliographie :

Cornillon et al (2010) : Statistiques avec R. Presse Universitaire de Rennes (2nd ed.)
Cornillon et Matzner-Lober (2007) : Régression, Théorie et application. Springer Verlag.
Everitt (2005) : An R and S-plus companion to multivariate analysis. Springer Verlag.
Millot (2009) : Comprendre et réaliser les tests statistiques à l'aide de R : manuel pour les débutants. De Boeck Université.
Venables et Rippley (2002) Modern applied statistics with S. Springer (4e ed.)

 

Méthodes de Monte-Carlo - Algorithmes stochastiques :

Jean-Michel Marin

Objectifs du cours

Le but de ce cours est de présenter les méthodes stochastiques d'approximation d'intégrale d'usage courant : méthodes de Monte-Carlo et méthodes de Monte-Carlo par Chaînes de Markov. De nombreux exemples issus de problématiques statistiques illustrent les développements. La mise en oeuvre des méthodologies exposées est effectuée à l'aide du langage R.

Plan du cours

1) Méthodes standard de simulation
2) Méthodes de Monte-Carlo
3) Rappels et compléments sur les chaînes de Markov
4) Méthodes de Monte-Carlo par Chaînes de Markov

Mots clés

Simulation, Méthodes de Monte-Carlo, Méthodes MCMC

Contrôle des connaissances

Projet : chaque étudiant devra réaliser, en binôme, à partir d'un sujet précis, un projet informatique implémentant les méthodes étudiées. Chaque binôme remettra un rapport et présentera les résultats obtenus lors d'une soutenance.

Bibliographie :

Ripley (1987) : Stochastic Simulation. Wiley.
Robert et Casella (2004) : Monte Carlo Statistical Methods. Springer-Verlag.

 

Modèles mixtes :

Christian Lavergne

Objectifs du cours

C e cours s'adresse à des étudiants de niveau M2, ayant les bases du modèles linéaires. La première partie du cours portera sur les modèles linéaires à structure de covariance paramétrée. Cette partie permettra d'introduire les fondamentaux de l'estimation par maximum de vraisemblance pour ce genre de modèle. On introduira alors l'estimateur REML. Une deuxième introduira la particularité des modèles mixtes : on introduira en particulier les estimateurs de Henderson, ainsi que ceux obtenu par un algorithme EM. Pour finir on regardera certaines extensions comme des mélanges de modèles linéaires mixtes ou autre modèles linéaires généralisés mixtes. Cet enseignement sera illustré sur exemple concret et sur le logiciel R.

Plan du cours

1) modèles linéaires à structure de covariance paramétrée
2) estimateur REML
3) modèles mixtes
4) extensions

 

Classification supervisée et non supervisée :

Elodie Brunel et Pierre Pudlo

Objectifs du cours

L'objet de ce cours est d'exposer les méthodes de classifications les plus importantes. Ce cours sera donc divisé en deux parties: la classification non supervisée et la classification supervisée ou discrimination.
La classification non supervisée est l'art de mettre en évidence des groupes d'observations relativement similaires dans les données. Ces techniques permettent de décrire les observations en les regroupant en quelques catégories. Les domaines d'applications sont nombreux : en marketing pour identifier des segments de marchés par exemple, en médecine pour comparer différents cancers, etc. Nous étudierons différents algorithmes classiques : K-means, classification hiérarchique, modèles de mélange. Si le temps le permet, nous présenterons quelques techniques non paramétriques reposant sur la détection de modes de la densité.
La seconde partie traite des méthodes de classification supervisée (discrimination). Le but de ces méthodes est d'expliquer une variable qualitative (ou label, ou appartenance à une classe) par des variables explicatives multiples. Parmi le grand nombre de méthodes existantes, nous présenterons les deux plus classiques: l'analyse discriminante au sens de Fisher et la régression logistique. Rappelons que cette dernière constitue une méthode incontournable des sciences économiques, du marketing (via le scoring) et de la biostatistique (par exemple les applications médicales).L'objet de ce cours est d'exposer les méthodes de classifications les plus importantes. Ce cours sera donc divisé en deux parties: la classification non supervisée et la classification supervisée ou discrimination.

Bibliographie :

Anderberg, M. (1973). Cluster Analysis for Applications. Academic Press, New York.
Collet, D. (2003). Modelling binary data. Chapman & Hall/CRC, London.
Duda, R.O., Hart, P.E. & Stork, D.G. (2001). Pattern classification. Wiley, New-York.
Hartigan (1975). Clustering Algorithms. Wiley, New York.
Hastie, T., Tibshirani, R. & Friedman, J. (2001). The elements of statistical learning: Data mining, inference, and prediction. Springer, New-York.
Kaufman, L. & Rousseeuw, P.J. (1990). Finding Groups in Data, An Introduction to Cluster Analysis. Wiley, New York.
Mc Cullagh, PC. & Nelder, J.A. (1989). Generalized Linear Model. Chapman & Hall/CRC, London.
Mc Lachlan, G. & Peel, D. (2000). Finite Mixture Models. Wiley, New York.

 

Processus stochastiques en temps continu pour la modélisation en écologie :

Fabien Campillo - Marc Joannides

Objectifs du cours

On se propose de présenter les bases de la théorie des processus stochastiques, essentiellement en temps continu, appropriées à la modélisation en écologie. Tout le long du cours, les outils mathématiques mis en place seront systématiquement illustrés à l’aide d’études de cas des modèles classiques et de simulation sous R. Ce cours privilégie une approche constructive en consacrant une place importante aux aspects algorithmiques, notamment de simulation de Monte Carlo.
Après des généralités sur les processus stochastiques et les processus de Markov, on introduit les processus de saut. On pose ensuite les bases du calcul stochastique d’Itô afin d’introduire les équations différentielles stochastiques comme outil de modélisation. On fait le lien entre ces deux classes de processus au moyen de théorèmes limites mais aussi d’illustrations sur des questions d’échelles en écologie.
Parmi les modèles classiques en écologie, on étudie plus particulièrement différents modèles de croissance (le modèle malthusien, le modèle logistique), des modèles d’interaction (modèle du chemostat, modèle de Lotka-Volterra), des modèles compartimentaux, le modèle neutre. On introduit enfin les modèles indvidu-centrés.

Plan du cours

1) Méthodes standard de simulation
2) Méthodes de Monte-Carlo
3) Rappels et compléments sur les chaînes de Markov
4) Méthodes de Monte-Carlo par Chaînes de Markov

Mots clés

processus stochastiques, processus de Markov, processus de saut, processus de Poisson, mouvement brownien, équations différentielles stochastiques, simulation de Monte Carlo, modélisation computationnelle, dynamique des populations

Bibliographie :

[1] Francis Comets et Thierry Meyre : Calcul stochastique et modèles de diffusions. Dunod, 2006.
[2] James R. Norris : Markov chains. Cambridge University Press, Cambridge, 1998.
[3] Bernt Øksendal : Stochastic Differential Equations. An Introduction with Applications. Universitext. Springer, 2000.
[4] Karline Soetaert et Peter M.J. Herman : A Practical Guide to Ecological Model ling : Using R as a Simulation Platform. Springer, 2008.
[5] Darren J. Wilkinson : Stochastic Model ling for Systems Biology (Mathematical and Computational Biology). Chapman & Hall, 2006.