J’ai le plaisir de vous annoncer la mise à disposition de Press corpus scraper, un nouvel outil pour la constitution de corpus d’articles de presse.

Press corpus scraper est une extension pour navigateur (compatible Firefox et Chrome/Edge) qui injecte dans les sites web de journaux pris en charge une interface permettant, à l’issue d’une recherche par mots-clefs, d’extraire et télécharger le texte de tout ou partie des articles, à raison d’un fichier par article. Deux formats de fichier sont proposés : .txt pour du texte brut, .xml pour des textes préparés pour une importation dans le logiciel de textométrie TXM (module d’importation XML-TEI Zero + CSV).

Les sites pris en charge à ce jour sont Le Monde, Le Figaro, Le Point et L’Humanité côté français, ainsi que The Guardian et The New York Times. D’autres publications seront ajoutées ultérieurement.

Nouveau : Europresse est également pris en charge.

Voici à quoi ressemble l’interface injectée par l’extension sur la page de résultats de recherche d’un site comme Le Monde :

La possibilité est offerte de télécharger l’intégralité des résultats de recherche, ou seulement ceux de la page actuellement affichée à l’écran.

Pour The Guardian et The New York Times, les choses sont un peu différentes puisque ces deux journaux offrent une API qui permet de bâtir des requêtes et de récupérer directement les données et métadonnées des articles. Dans leur cas, l’extension ajoute un simple bouton dans la barre de menus du site :

Un clic sur le bouton affiche une interface de recherche, comme ici pour The Guardian :

On peut y bâtir une requête personnalisée avec combinaison de mots-clefs, rubriques, dates de début et de fin… avant de lancer le processus d’extraction proprement dit.

N.B. La recherche sur The Guardian ou The New York Times nécessite la création d’une clef personnelle, qui peut être obtenue gratuitement : ici pour le premier et pour le second.

A l’issue du processus, une archive .zip contenant tous les fichiers .txt ou .xml est téléchargée. Il suffit alors de décompresser l’archive et de charger les fichiers dans le logiciel d’analyse textuelle de son choix, comme ci-dessous dans TXM :

Les fichiers sont nommés selon le schéma AAAA-MM-JJ_Source_Auteur. Comme on peut le voir ci-dessus, les XML comportent 4 métadonnées (source, auteur·e, titre et date) et un lien renvoyant à l’article sur le site d’origine.

N.B. Cette ressource est un work in progress par un total autodidacte ! Il est possible, voire probable qu’il subsiste quelques bugs, et que le code puisse être optimisé. Tout retour d’expérience bienveillant sera donc le bienvenu !

Pour en savoir davantage et installer l’extension, c’est par là : >clic<