Le
traitement de données consiste à rassembler des données
sous une forme utilisable dans l'analyse. Durant cette phase, il
est généralement nécessaire d'écrire rapidement des programmes
spécifiques.
Chaque statisticien utilise ses propres outils (et quelques secrets...)
et doit pouvoir s'adapter au contexte opérationnel. Bases de données SQL,
fichiers plats "csv", XML,
middleware, etc.
Les opérations classiques sont des agrégations spatiales
ou temporelles, des jointures selon une ou plusieurs clés,
le codage ou recodage de facteurs.
Cette phase comporte souvent une partie "design" de l'architecture
des données la mieux adaptée à la suite des opérations. Une mauvaise
architecture compliquera ensuite énormément le travail.
Cette phase demande à la fois de
bonnes connaissances
informatiques,
expérience,
minutie et
concentration. Il faut savoir identifier
rapidement les bugs, les erreurs dans les données ou
données manquantes, les cas particuliers non prévus, etc.