Faire du data mining avec Google : comment tromper big brother ? | Libertés Numériques | Scoop.it

Après Elsevier et Gallica, voici un nouvel épisode de ma série sur le data mining. Cette fois-ci je m’attaque à L’industrie majeure du web, celle qui fait figure de métaphore de l’internet tout entier : Google. Ou, plus exactement, son service d’indexation bibliométrique des articles scientifiques, Google Scholar (même si les problématiques abordées ici sont largement applicables à l’ensemble de l’écosystème Google).

Les techniques de data mining (ou extraction automatique des données en bon français) s’apparentent à autant de sympathiques secrétaires, prompts à assister le chercheur dans la moindre de ses tâches. Ils peuvent être employées dans des projets d’analyse classique portant sur un corpus proprement délimité (c’était l’objectif de ma petite application d’extraction des textes journalistiques hébergés sur Gallica, Pyllica). Ils ont aussi une vocation plus méta : permettre de saisir rapidement un champ de recherche en moissonnant les méta-données bibliographiques.