Abstract :
[fr] La multiplication de sites ou plateformes web de plus en plus complexes collectant des données sur leurs utilisateurs, la place déterminante des moteurs de recherche et, surtout, de l’un d’entre eux en particulier, la croissance extraordinaire du rôle des réseaux sociaux numériques et la place qu’ils ont pris dans la vie d’une très grande partie de la population mondiale, ont donné lieu à la naissance de la notion protéiforme de Big Data, que l’on peut traduire sous le nom de données massives.
Ces données massives sont, parfois, dès aujourd’hui, exploitables par les chercheurs et chercheuses en sciences humaines et sociales, y compris historiennes et historiens.
L’accès à ces données, que l’on peut considérer comme des sources primaires nées numériques, nées hors du papier, hors d’un support matériel (mais non sans matérialité si l’on considère l’infrastructure informatique nécessaire pour les produire et les pérenniser), sous forme d’un signal informatique originellement fait de 0 et de 1, n’est pas toujours aisé. L’un des moyens de les collecter est d’utiliser ce que l’on appelle une interface de programmation.
Une interface de programmation – ou Application Programming Interface (API) – est un dispositif logiciel qui permet à deux programmes d’échanger, par exemple, des fonctionnalités ou des données. De nombreux sites web en proposent à leurs utilisateurs. Sur une page web, vous voyez un petit bouton « J’aime » provenant du réseau social numérique Facebook? Le concepteur de cette page web a fait appel à l’interface de programmation de Facebook.
Ces API permettent parfois également de collecter des donnés de manière massive. Ainsi, ai-je pu collecter quatre millions de tweets liés à la Première Guerre mondiale ou à son centenaire depuis avril 2014. Cette collecte ira jusqu’à la fin du mois de juin 2019, c’est-à-dire jusqu’au Centenaire du traité de Versailles.