(English version)

Une extension pour extraire et télécharger des articles de presse à des fins de fouille textuelle.

Citer ce programme

Si vous utilisez cette extension pour vos travaux de recherche, merci de la référencer de la façon suivante :

Moncomble, F. (2024). *Press Corpus Scraper* (Version 0.9) [JavaScript]. Arras, France : Université d’Artois. Disponible à l’adresse : https://fmoncomble.github.io/press-corpus-scraper/

Installation

Firefox (recommandé : mises à jour automatiques)

Chrome/Edge

  • Télécharger l’archive .zip
  • Décompresser l’archive
  • Ouvrir le gestionnaire d’extensions : chrome://extensions ou edge://extensions
    • Activer le « mode développeur »
    • Cliquer sur « charger l’extension non empaquetée »
    • Sélectionner le dossier décompressé

Mode d’emploi

  • The Guardian / The New York Times :
    • Cliquer sur le bouton PCScraper qui apparait en haut à droite dans la barre de menus du site pour ouvrir la fenêtre de recherche.
    • Construire une requête dans l’interface, puis cliquer sur Search
  • Sélectionner le format de fichier souhaité : TXT ou XML/XTZ (pour import dans TXM à l’aide du module XML-TEI Zero + CSV)
  • Cliquer sur Extraire
    • Les articles réservés aux abonné·e·s ne sont pas téléchargés mais listés sous forme de liens
    • Les articles que l’extension échoue à extraire sont listés sous forme de liens
    • A l’issue de l’extraction :
      • Firefox : l’archive .zip contenant les fichiers est automatiquement téléchargée dans le dossier par défaut
      • Chrome/Edge : sélectionner le dossier de destination de l’archive .zip
  • Décompresser l’archive obtenue pour charger les fichiers dans une application d’analyse textuelle

Limites et problèmes connus

Sites français

Même avec un compte abonné actif, l’extension n’a pas accès au texte intégral des articles premium (le cookie n’est pas accepté par le serveur distant). Seuls les articles en accès libre sont donc récupérés, les autres étant listés sous forme de liens.

Europresse

  • affiche les métadonnées des articles de façon très aléatoire, sans éléments HTML dédiés, ce qui peut donner lieu à des incohérences dans la structure des fichiers téléchargés (chapô en lieu et place du nom d’auteur.e, etc.). Ce n’est pas un problème de l’extension mais d’Europresse !
  • n’autorise l’extraction que de 20 pages de résultats (1000 articles) à la fois.

Guardian et New York Times

  • La recherche s’appuie sur les API offertes par ces deux publications. Une clef d’accès est requise ; son obtention est gratuite et automatique aux liens suivants :
  • New York Times : un abonnement actif est indispensable pour accéder au texte intégral de tous les articles, il faut donc être connecté à son compte au préalable. Le serveur distant accepte le cookie envoyé par l’extension (pour le moment), mais celle-ci doit composer avec certaines limitations et dispositifs de sécurité :
    • les requêtes ne renvoient que 10 résultats à la fois, et l’API n’autorise que 5 requêtes par minute : celles-ci sont donc espacées de 12 secondes pour éviter tout blocage
    • le serveur bloque les accès trop nombreux et trop rapides : le contenu des articles n’est donc extrait qu’à raison d’1 article par seconde. Malgré cela, un blocage peut survenir : l’extension invite alors à cliquer sur un lien pour prouver qu’on n’est pas un robot…
    • le compte abonné peut être déconnecté à tout moment : l’extension se met alors en pause et invite à cliquer sur un lien d’authentification afin de pouvoir reprendre la récupération de contenu.
  • The New York Times sous Firefox : à cause de la façon dont Firefox gère le chargement dynamique de la page d’accueil, celle-ci doit être ouverte dans un nouvel onglet ou une nouvelle fenêtre. Dans le cas contraire, le bouton de l’extension apparait brièvement avant de disparaitre.