Extraire les adresses email d'une page web


Peinture
Voici une petite astuce qui permet de récupérer toutes les adresses emails d'une page Internet, en une seule ligne de commande sous Linux.

Il faudra bien sûr adapter l'adresse du site avant de lancer la commande :

wget -q -O - http://url-du-site.com | grep -oe '\w*.\w*@\w*.\w*.\w\+' | sort -u

Exemple d'utilisation avec cette page :

wget -q -O - http://www.tux-planet.fr/extraire-les-adresses-email-d-une-page-web | grep -oe '\w*.\w*@\w*.\w*.\w\+' | sort -u
...
pseudo@gmail.com
prenom.nom@yahoo.fr

Maintenant on comprend mieux pourquoi les spammeurs n'ont aucun mal à trouver les adresses email de leurs futures victimes.

L'astuce a été donnée par un certain "batp".


13 Commentaires pour "Extraire les adresses email d'une page web"

Flux des commentaires de cet article Ajouter un commentaire
  •  

    A mon avis, tu parles de "Bapt".
    C'est un cador du shell et mainteneur de zsh :)
    ++

    RépondreRépondre
    prentonmantoonsenva , le 15 avril 2008 à 19:51
  •  

    Mmmh, j'aurais plutôt fait ça avec un sed moi... question d'habitude sans doute... En plus avec un xargs, ya moyen de faire vraiment ce qu'on veut de la liste...

    RépondreRépondre
    divarvel , le 15 avril 2008 à 19:48
  •  

    @divarel : l'avantage avec le grep suivit des options -oe, c'est que tu n'affiche que le morceau de la chaine qui correspond et toute la ligne entière. j'ai pas trop chercher à faire mieux, mais la méthode me semble pas mal quand même.

    @prentonmantoonsenva : c'est peut-être lui, il viendra nous le dire en personne avec un peu de chance.

    RépondreRépondre
    pti-seb , le 15 avril 2008 à 20:12
  •  

    Oui prentonmantoonsenva c'est bien moi, mais de la à dire un cador du shell...

    RépondreRépondre
    Bapt , le 15 avril 2008 à 20:27
  •  

    Ok, ta modestie t'honore ;) En tout cas, c'est bien de faire profiter tes connaissances et savoirs pour la communauté.

    Bonne continuation :)

    RépondreRépondre
    prentonmantoonsenva , le 15 avril 2008 à 20:43
  •  

    Oui c'est déconcertant de voir avec quelle facilité les, adresses email peuvent être aspirées.
    Autre exemple, une application web terriblement efficace : http://www.tictacmail.com je ne sais pas si vous connaissez ?

    RépondreRépondre
    Sylvain , le 27 avril 2008 à 19:42
  •  

    Le premier principe de précaution de l'internaute est de toute façon, de ne jamais publier sur le Net, les adresses de ses comptes courriels qu'il souhaite préserver "du spam". En effet des robots utilisés par les spammeurs, (il existe de nombreux logiciels disponibles sur le marché), surfent de pages en pages en suivant les liens, tout en "aspirant" les adresses de courriels qui y traînent. Il est possible par ce moyen (contestable) de se constituer une énorme base de données de cibles potentielles avec une étonnante facilité!...

    RépondreRépondre
    YANN , le 28 juillet 2008 à 15:16
  •  

    Bonjour,
    sympa ce petit script. Comment l'améliorer pour qu'il fonctionne sur cette page :

    wget -q -O - http://xxx/test.html | grep -oe '\w*.\w*@\w*.\w*.\w\+' | sort -u

    il y a un problème d'encadrement des adresses et je ne manipule ni grep ni les expressions régulières et autres outils de cette puissance pour y arriver seul.
    Avez-vous des pistes à me donner ?

    Cordialement.

    RépondreRépondre
    xof , le 30 septembre 2008 à 15:04
  •  

    Je me réponds :

    wget -q -O -http://xxx/test.html | grep -iEo '[a-z\.0-9\-\_]{1,}@[a-z0-9\-\_]*\.[a-z]{2,4}' | sort -u

    fonctionne mieux

    RépondreRépondre
    xof , le 30 septembre 2008 à 18:21
  •  

    Peut on recupere des URL d'une page de la même facon au lieu des adresses élecronique. Si oui comment y arriver et merci d'avance.

    RépondreRépondre
    Guillaume , le 6 septembre 2009 à 18:09
  •  

    @Guillaume : essaye cette comande :

    wget -q -O - http://site.com | grep -o "http://[^ '\"]*"

    RépondreRépondre
    pti-seb , le 7 septembre 2009 à 08:36
  •  

    la dernière commande wget -q -O - http://site.com | grep -o "http://[^ '\"]*"

    me retourne cette erreur: Unmatched ".

    RépondreRépondre
    lolo , le 21 janvier 2011 à 12:49
  •  

    ca serait quoi l'alternative avec un fichier mail .eml ?
    simplement inclure le fichier dans le grep en argument ? pas besoin du pipe ?

    --

    sinon je constate qu'avec les chaines de mail pour des hoax, blagues ou autres,
    des mails contenant des centaines et parfois des milliers d'adresses tournent pendant des mois !
    … suffit de faire partie de la liste de diffusion … et >> SPAM <<

    Ici, malgré toutes les précautions, on peut pas faire grand chose,
    puisque ce sont nos amis/famille qui communiquent involontairement nos adresses privées …

    je me demande même si certain hoax n'auraient pas cet objectif …

    EDIT :
    au sujet de Tictacmail … après lecture rapide > meme pb !
    comment avoir confiance en une entité qui ne communique pas clairement sur son identité …
    et risquer de voir des listes de mails collectées, analysées, voire revendues … ?

    Sebastien

    RépondreRépondre
    aem , le 31 juillet 2011 à 09:44
 

Ajouter un commentaire

actualité android apache apple astuce astuces bash bilboblog blog boot chrome clavier commande commandes conky date debian Desktop développement elementary exploit faille fedora firefox flash gimp gnome google graphique Graphisme hack hacking Hardware humour intel internet iphone jailbreak Jeux Kde kernel libre Linux log logiciels Logiciels Libres lucid lynx maemo mail maquette metasploit microsoft mobile mockup monitoring mozilla multi-touch musique mysql n900 nautilus nokia noyau openoffice open source password photos php Planet publicité redhat red hat rpm réseau screenshot script serveur serveurs shell sql ssh statistiques sysadmin system Sécurité thème tux-planet tv twitter ubuntu unity vidéo vidéos vlc voyage wallpaper windows wordpress yum