R est à la fois un logiciel de statistique et un langage de programmation.
Ce cours est avant tout un cours de programmation. Il ne
s'agit pas de montrer comment faire tel ou tel traitement statistique avec R.
Les innombrables didacticiels en ligne, dont certains sont référencés dans
cette page, s'en chargent très bien. Notre objectif est d'apprendre (ou ré-apprendre) à
programmer en tirant profit des particularités de R : c'est un langage objet, la
structure de base est le vecteur, une bibliothèque très riche de
fonctions permettant de manipuler ces structures sont disponibles.
Le cours sera néanmoins en relation directe avec le
traitement exploratoire des données dans la mesure où la plupart des
illustrations consisteront à programmer des techniques statistiques, d'analyse
de données et de data mining.
Ce cours est dispensé en M2 Statistique.
|
Ressources
|
Supports
|
|
Le site du projet R - Le logiciel (setup) et de la documentation sont disponibles en ligne. Le logiciel peut fonctionner sous Windows, MacOS X et Linux. R est un logiciel libre, complètement gratuit.
A voir également la FAQ, les manuels en ligne, le Wiki...
|

|
|
R (Programming Language) Ce qu'on dit de R sur wikipédia.
|
 |
Introduction à R |
| R pour les débutants, de
Emmanuel Paradis. Assez courte, en français, ce document
présente rapidement le logiciel R en mettant l'accent sur les
opérations sur les vecteurs et les objets, et les
fonctionnalités graphiques, qui sont très nombreuses il faut le
reconnaître. La programmation est survolée très rapidement.
|

|
|
An introduction to R, de Venables, Smith et l'équipe de développement de R. En
anglais, ce document décrit, de manière assez succincte,
les principales fonctionnalités du logiciel, la
manipulation des données et des objets, l'accès aux
fichiers, les procédures graphiques. Un chapitre est
consacré à la programmation, sous l'angle de l'écriture
de ses propres fonctions en R. Lecture facile.
|

|
Aide mémoire R |
|
Aide mémoire R - Le langage, d'Aymeric Duclert.
L'objectif de cet aide-mémoire est de donner un rapide
coup d'oeil de quelques fonctionnalités disponibles sous
R, illustré de quelques exemples d'usage simple. Le but
est surtout de faire gagner du temps dans la réalisation
de scripts R.
|
 |
|
R reference card, de Tom
Short. En anglais, sur 4 pages, la listes des
principales fonctions de R regroupées par thèmes : accès
aux données, création de vecteurs, transformation de
variables, fonctions mathématiques, manipulation des
chaînes de caractères, création de graphiques,
modélisation, etc. S'il y a un document qu'il faut avoir
constamment sous la main, tout du moins dans la phase
d'apprentissage du langage, c'est bien celui-ci.
|
 |
|
R reference card, de Robison-Cox. En anglais, sur 2 pages, la listes des
principales fonctions de R regroupées par thèmes. Par rapport à celui de T.Short, son principal intérêt est qu'il tient sur 2 pages.
|
 |
| Simplified help pages for R commands, de Stem et Tendril
Une organisation bien commande pour présenter une grande
majorité des commandes de R. Il est un peu plus élaboré que le simple fichier d'aide. Accès en ligne uniquement. On peut
néanmoins charger le PDF pour chaque thème statistique
abordé.
|

|
| R: A Language and Environment for
Statistical Computing - Reference index, de The R Core
Development team. En anglais, énorme, il s'agit du fichier
d'aide sous forme PDF imprimable (plus de 2500 pages !). Il
référence toutes les fonctions dans les packages les plus connus
(27 librairies recensées). La meilleure utilisation est de
procéder par " rechercher " pour obtenir la description de la
méthode qui nous intéresse. Attention, certaines techniques sont
disponibles sous des appellations différentes dans plusieurs
packages. Il se peut que le paramétrage ne soit pas exactement
le même.
Le document fait plus de 12Mo, mieux vaut le charger en local pour le consulter plutôt que de l'ouvrir directement en ligne. |

|
Programmation sous R |
|
Introduction à la programmation en S, de
Vincent Goulet. Il s'agit ni plus ni moins que d'un
ouvrage sur la programmation sous S, avec une prédisposition aux applications statistiques. Le
langage décrit est S, mais la transposition à R ne pose
aucun problème. Un grand nombre d'exemples et d'exercices corrigés sont disponibles. |

|
|
Programmation statistique avec R -
Les bases du langage, de Lobry. Ces slides en
français présentent la programmation sous R. Elle correspond à un
cours de programmation à destination des statisticiens,
ayant de bonnes bases en programmation, mais non-informaticiens et ne
désirant pas s'investir outre mesure dans le développement. |
 |
|
Programming with R, de
Ihaka et Gentleman. Très similaire, dans l'esprit, à celui de Lobry,
ces slides présentent les éléments importants de la
programmation statistique sous R.
|

|
|
Programming in R, de
Girke. En anglais, cette page web recense la grande
majorité des éléments importants à savoir pour
programmer correctement avec R. La particularité du site
est qu'un nombre important d'exemples corrigés permet de
s'exercer, et accessoirement de mesurer à quel point la
programmation sous R peut être performante. Il s'agit essentiellement d'exemples en bioinformatique mais la transposition dans d'autres domaines est facile.
|

|
|
Programming in R, de Zoonekynd. Une
description rapide des principales caractéristiques du
langage. Nous nous intéressons avant tout à la première
partie consacrée aux structures de données et aux
constructions algorithmiques que permet le langage de
programmation. |

|
Ouvrages en ligne - Tour d'horizon des méthodes stat. |
|
An Introduction to R: Software for
Statistical Modelling & Computing, de Kuhnert et
Venables. En anglais, Ce document s'attache à
décrire les principales commandes et fonctions de R à
travers des applications. Il est subdivisé en chapitres
consacrés à différents thèmes du traitement statistique
des données : exploration graphique, régression
linéaire, régression logistique, arbres de décision,
etc. Les exemples sont abondamment commentés et
illustrés (code R, sorties associées, graphiques
produits, etc.). Raffinement suprême, le texte est
disponible dans une archive comprenant les scripts R et
les données utilisées. |

|
|
Statistics Using R with Biological
Examples, de Seefeld et Linder . En anglais,
ce document fait un large tour d'horizon du logiciel R
(plus de 300 pages) en découpant la présentation selon
les thèmes statistiques abordés. Cet ouvrage, parce que
c'en est bien un, décrit autant le pourquoi et le
comment des méthodes que leur mise en œuvre avec R.
Comme le titre l'indique, les exemples proviennent en
priorité de la biologie. Les chapitres 2 à 5 sont les plus intéressants pour nous.
|

|
|
Analysis of epidemiological data using R and Epicalc, de Chongsuvivatwong . En anglais,
ce document décrit la mise en oeuvre de R dans le domaine de l'épidémiologie
(plus de 300 pages). A noter en particulier les chapitres consacrés à la régression logistique binaire, polytomique, polytomique ordinale, et la régression de poisson.
|

|
|
Statistics with R, de Zoonekynd . En anglais,
Ce site web présente les fonctions de R par thèmes statistiques. Une particularité importante, le document est sous licence Common Creatives, nous pouvons le compléter, le reprendre, etc., en respectant la licence bien entendu. Le code R de toutes les illustrations est téléchargeable.
|

|
Quelques tutoriels pour le cours |
|
Installation et gestion des packages.
|
|
|
Régression linéaire multiple. Diagnostic de la régression, détection des points atypiques, diagnostic de la colinéarité et sélection de variables.
|
|
|
Analyse en Composantes Principales (ACP). Cercle des corrélations, projection des observations dans les plans factoriels, caractérisation à l'aide des variables illustratives quantitatives et qualitatives, projection des individus illustratifs (supplémentaires).
|
|
|
R et Tanagra. Comparer la mise en oeuvre et les résultats de différentes techniques statistiques sous R et Tanagra (régression logistique, régression PLS, arbres de décision CART, support vector machine, validation croisée, etc.). Si les commandes diffèrent, les résultats sont les mêmes. C'est ce qui importe. Ceci est vrai pour la grande majorité des logiciels libres.
|
|
D'autres fiches TD - Comment faire avec R |
|
Forum des utilisateurs de R, en français.
|

|
|
Enseignements de Statistique en biologie, du Pôle Bioinformatique Lyonnais (Lyon 1).
Un site extraordinaire, avec des fiches TD pour tout ce
qui est en rapport, de près ou de loin, à l'analyse
statistique des données. Chaque fiche comprend le thème,
les données utilisées, les commandes R, une description
des résultats et de leurs interprétations. Le thème central est la biologie, mais la transposition dans d'autres domaines est aisée. Vraiment un
travail considérable et de très grande qualité. Bravo.
|

|
|
Analyse multivariée avec R, de A. Bouchier. En français, documents utilisés lors des cours de statistiques diffusés dans le cadre de la FP-INRA
(analyse en composantes principales - ACP ; analyse factorielle des correspondances - ACM ; analyse factorielle des correspondances multiples - AFCM ou ACM ; classification ascendante hiérarchique - CAH ; et d'autres domaines encore - accès aux bases de données, etc.).
|

|
|
Resources to help you learn and use R. En anglais, descriptions et données. On peut faire le parallèle avec d'autres logiciels telles que SAS, STATA et SPSS. Très intéressant pour identifier ce qui est important dans les sorties des logiciels.
|

|