Une extension pour extraire et télécharger des articles de presse à des fins de fouille textuelle.
Citer ce programme
Si vous utilisez cette extension pour vos travaux de recherche, merci de la référencer de la façon suivante :
Moncomble, F. (2024). *Press Corpus Scraper* (Version 0.9) [JavaScript]. Arras, France : Université d’Artois. Disponible à l’adresse : https://fmoncomble.github.io/press-corpus-scraper/
Installation
Firefox (recommandé : mises à jour automatiques)
Chrome/Edge
- Télécharger l’archive .zip
- Décompresser l’archive
- Ouvrir le gestionnaire d’extensions :
chrome://extensions
ouedge://extensions
- Activer le « mode développeur »
- Cliquer sur « charger l’extension non empaquetée »
- Sélectionner le dossier décompressé
Mode d’emploi
- Naviguer ver le site d’un journal pris en charge :
- Ou le portail Europresse de votre établissement : liste des établissements pris en charge
- Sites français / Europresse :
- Effectuer une recherche simple ou avancée par mots-clefs
- Un encadré apparait en haut de la page de résultats. Exemple du Monde :
- The Guardian / The New York Times :
- Cliquer sur le bouton
PCScraper
qui apparait en haut à droite dans la barre de menus du site pour ouvrir la fenêtre de recherche. - Construire une requête dans l’interface, puis cliquer sur
Search
- Cliquer sur le bouton
- Sélectionner le format de fichier souhaité :
TXT
ouXML/XTZ
(pour import dans TXM à l’aide du moduleXML-TEI Zero + CSV
) - Cliquer sur
Extraire
- Les articles réservés aux abonné·e·s ne sont pas téléchargés mais listés sous forme de liens
- Les articles que l’extension échoue à extraire sont listés sous forme de liens
- A l’issue de l’extraction :
- Firefox : l’archive .zip contenant les fichiers est automatiquement téléchargée dans le dossier par défaut
- Chrome/Edge : sélectionner le dossier de destination de l’archive .zip
- Décompresser l’archive obtenue pour charger les fichiers dans une application d’analyse textuelle
Limites et problèmes connus
Sites français
Même avec un compte abonné actif, l’extension n’a pas accès au texte intégral des articles premium (le cookie n’est pas accepté par le serveur distant). Seuls les articles en accès libre sont donc récupérés, les autres étant listés sous forme de liens.
Europresse
- affiche les métadonnées des articles de façon très aléatoire, sans éléments HTML dédiés, ce qui peut donner lieu à des incohérences dans la structure des fichiers téléchargés (chapô en lieu et place du nom d’auteur.e, etc.). Ce n’est pas un problème de l’extension mais d’Europresse !
- n’autorise l’extraction que de 20 pages de résultats (1000 articles) à la fois.
Guardian et New York Times
- La recherche s’appuie sur les API offertes par ces deux publications. Une clef d’accès est requise ; son obtention est gratuite et automatique aux liens suivants :
- New York Times : un abonnement actif est indispensable pour accéder au texte intégral de tous les articles, il faut donc être connecté à son compte au préalable. Le serveur distant accepte le cookie envoyé par l’extension (pour le moment), mais celle-ci doit composer avec certaines limitations et dispositifs de sécurité :
- les requêtes ne renvoient que 10 résultats à la fois, et l’API n’autorise que 5 requêtes par minute : celles-ci sont donc espacées de 12 secondes pour éviter tout blocage
- le serveur bloque les accès trop nombreux et trop rapides : le contenu des articles n’est donc extrait qu’à raison d’1 article par seconde. Malgré cela, un blocage peut survenir : l’extension invite alors à cliquer sur un lien pour prouver qu’on n’est pas un robot…
- le compte abonné peut être déconnecté à tout moment : l’extension se met alors en pause et invite à cliquer sur un lien d’authentification afin de pouvoir reprendre la récupération de contenu.
- The New York Times sous Firefox : à cause de la façon dont Firefox gère le chargement dynamique de la page d’accueil, celle-ci doit être ouverte dans un nouvel onglet ou une nouvelle fenêtre. Dans le cas contraire, le bouton de l’extension apparait brièvement avant de disparaitre.
Leave a Reply