Press corpus scraper

Une extension pour extraire et télécharger des articles de presse à des fins de fouille textuelle.

Citer ce programme

Si vous utilisez cette extension pour vos travaux de recherche, merci de la référencer de la façon suivante :

Moncomble, F. (2024). *Press Corpus Scraper* (Version 0.9) [JavaScript]. Arras, France : Université d’Artois. Disponible à l’adresse : https://fmoncomble.github.io/press-corpus-scraper/

Installation

Firefox (recommandé : mises à jour automatiques)

Chrome/Edge

Télécharger l’archive .zip
Décompresser l’archive
Ouvrir le gestionnaire d’extensions : chrome://extensions ou edge://extensions
- Activer le « mode développeur »
- Cliquer sur « charger l’extension non empaquetée »
- Sélectionner le dossier décompressé

Mode d’emploi

Naviguer ver le site d’un journal pris en charge :
- Le Figaro
- L’Humanité
- Le Monde
- Le Point
- The Guardian
- The New York Times
Ou le portail Europresse de votre établissement : liste des établissements pris en charge
Sites français / Europresse :
- Effectuer une recherche simple ou avancée par mots-clefs
- Un encadré apparait en haut de la page de résultats. Exemple du Monde :

The Guardian / The New York Times :
- Cliquer sur le bouton PCScraper qui apparait en haut à droite dans la barre de menus du site pour ouvrir la fenêtre de recherche.
- Construire une requête dans l’interface, puis cliquer sur Search

Sélectionner le format de fichier souhaité : TXT ou XML/XTZ (pour import dans TXM à l’aide du module XML-TEI Zero + CSV)
Cliquer sur Extraire
- Les articles réservés aux abonné·e·s ne sont pas téléchargés mais listés sous forme de liens
- Les articles que l’extension échoue à extraire sont listés sous forme de liens
- A l’issue de l’extraction :
  - Firefox : l’archive .zip contenant les fichiers est automatiquement téléchargée dans le dossier par défaut
  - Chrome/Edge : sélectionner le dossier de destination de l’archive .zip
Décompresser l’archive obtenue pour charger les fichiers dans une application d’analyse textuelle

Limites et problèmes connus

Sites français

Même avec un compte abonné actif, l’extension n’a pas accès au texte intégral des articles premium (le cookie n’est pas accepté par le serveur distant). Seuls les articles en accès libre sont donc récupérés, les autres étant listés sous forme de liens.

Europresse

affiche les métadonnées des articles de façon très aléatoire, sans éléments HTML dédiés, ce qui peut donner lieu à des incohérences dans la structure des fichiers téléchargés (chapô en lieu et place du nom d’auteur.e, etc.). Ce n’est pas un problème de l’extension mais d’Europresse !
n’autorise l’extraction que de 20 pages de résultats (1000 articles) à la fois.

Guardian et New York Times

La recherche s’appuie sur les API offertes par ces deux publications. Une clef d’accès est requise ; son obtention est gratuite et automatique aux liens suivants :
- The Guardian
- The New York Times
New York Times : un abonnement actif est indispensable pour accéder au texte intégral de tous les articles, il faut donc être connecté à son compte au préalable. Le serveur distant accepte le cookie envoyé par l’extension (pour le moment), mais celle-ci doit composer avec certaines limitations et dispositifs de sécurité :
- les requêtes ne renvoient que 10 résultats à la fois, et l’API n’autorise que 5 requêtes par minute : celles-ci sont donc espacées de 12 secondes pour éviter tout blocage
- le serveur bloque les accès trop nombreux et trop rapides : le contenu des articles n’est donc extrait qu’à raison d’1 article par seconde. Malgré cela, un blocage peut survenir : l’extension invite alors à cliquer sur un lien pour prouver qu’on n’est pas un robot…
- le compte abonné peut être déconnecté à tout moment : l’extension se met alors en pause et invite à cliquer sur un lien d’authentification afin de pouvoir reprendre la récupération de contenu.
The New York Times sous Firefox : à cause de la façon dont Firefox gère le chargement dynamique de la page d’accueil, celle-ci doit être ouverte dans un nouvel onglet ou une nouvelle fenêtre. Dans le cas contraire, le bouton de l’extension apparait brièvement avant de disparaitre.

M	T	W	T	F	S	S
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Press corpus scraper

Citer ce programme

Installation

Firefox (recommandé : mises à jour automatiques)

Chrome/Edge

Mode d’emploi

Limites et problèmes connus

Sites français

Europresse

Guardian et New York Times

Leave a Reply Cancel reply

Articles récents

Archives

Meta

Press corpus scraper

Citer ce programme

Installation

Firefox (recommandé : mises à jour automatiques)

Chrome/Edge

Mode d’emploi

Limites et problèmes connus

Sites français

Europresse

Guardian et New York Times

Share this:

Leave a Reply Cancel reply

Articles récents

Archives

Meta