Extraire les adresses email d'une page web
Voici une petite astuce qui permet de récupérer toutes les adresses emails d'une page Internet, en une seule ligne de commande sous Linux.
Il faudra bien sûr adapter l'adresse du site avant de lancer la commande :
wget -q -O - http://url-du-site.com | grep -oe '\w*.\w*@\w*.\w*.\w\+' | sort -u
Exemple d'utilisation avec cette page :
wget -q -O - http://www.tux-planet.fr/extraire-les-adresses-email-d-une-page-web | grep -oe '\w*.\w*@\w*.\w*.\w\+' | sort -u
...
pseudo@gmail.com
prenom.nom@yahoo.fr
Maintenant on comprend mieux pourquoi les spammeurs n'ont aucun mal à trouver les adresses email de leurs futures victimes.
L'astuce a été donnée par un certain "batp".
13 Commentaires pour "Extraire les adresses email d'une page web"
Flux des commentaires de cet article Ajouter un commentaireA mon avis, tu parles de "Bapt".
C'est un cador du shell et mainteneur de zsh
++
Mmmh, j'aurais plutôt fait ça avec un sed moi... question d'habitude sans doute... En plus avec un xargs, ya moyen de faire vraiment ce qu'on veut de la liste...
@divarel : l'avantage avec le grep suivit des options -oe, c'est que tu n'affiche que le morceau de la chaine qui correspond et toute la ligne entière. j'ai pas trop chercher à faire mieux, mais la méthode me semble pas mal quand même.
@prentonmantoonsenva : c'est peut-être lui, il viendra nous le dire en personne avec un peu de chance.
Oui prentonmantoonsenva c'est bien moi, mais de la à dire un cador du shell...
Ok, ta modestie t'honore
En tout cas, c'est bien de faire profiter tes connaissances et savoirs pour la communauté.
Bonne continuation
Oui c'est déconcertant de voir avec quelle facilité les, adresses email peuvent être aspirées.
Autre exemple, une application web terriblement efficace : http://www.tictacmail.com je ne sais pas si vous connaissez ?
Le premier principe de précaution de l'internaute est de toute façon, de ne jamais publier sur le Net, les adresses de ses comptes courriels qu'il souhaite préserver "du spam". En effet des robots utilisés par les spammeurs, (il existe de nombreux logiciels disponibles sur le marché), surfent de pages en pages en suivant les liens, tout en "aspirant" les adresses de courriels qui y traînent. Il est possible par ce moyen (contestable) de se constituer une énorme base de données de cibles potentielles avec une étonnante facilité!...
Bonjour,
sympa ce petit script. Comment l'améliorer pour qu'il fonctionne sur cette page :
il y a un problème d'encadrement des adresses et je ne manipule ni grep ni les expressions régulières et autres outils de cette puissance pour y arriver seul.
Avez-vous des pistes à me donner ?
Cordialement.
Je me réponds :
fonctionne mieux
Peut on recupere des URL d'une page de la même facon au lieu des adresses élecronique. Si oui comment y arriver et merci d'avance.
@Guillaume : essaye cette comande :
la dernière commande wget -q -O - http://site.com | grep -o "http://[^ '\"]*"
me retourne cette erreur: Unmatched ".
ca serait quoi l'alternative avec un fichier mail .eml ?
simplement inclure le fichier dans le grep en argument ? pas besoin du pipe ?
--
sinon je constate qu'avec les chaines de mail pour des hoax, blagues ou autres,
des mails contenant des centaines et parfois des milliers d'adresses tournent pendant des mois !
… suffit de faire partie de la liste de diffusion … et >> SPAM <<
Ici, malgré toutes les précautions, on peut pas faire grand chose,
puisque ce sont nos amis/famille qui communiquent involontairement nos adresses privées …
je me demande même si certain hoax n'auraient pas cet objectif …
EDIT :
au sujet de Tictacmail … après lecture rapide > meme pb !
comment avoir confiance en une entité qui ne communique pas clairement sur son identité …
et risquer de voir des listes de mails collectées, analysées, voire revendues … ?
Sebastien