Récupérer les pdf d’un site

Supposons que l’on veuille récupérer tous les fichiers pdf en lien sur une page web. Il existe un outil magique pour ce genre d’opérations : wget. La commande est très simple :

 wget http://www.page_pleine_de_pdf.html -r -l 1 -A pdf

Remarque : sous linux, wget est installé par défaut. Sous Mac OS X il faut l’installer soit en compilant les sources, soit en récupérant un package précompilé par exemple ici (en fait OSX intègre un autre outil similaire : curl).

Laissez un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *