fév 04

Extraire les liens d’une page web, htmlparser lib

Tag: Développement, Idéeskarl verger @ 22:27

exemple d’utilisation de la lib htmlparser pour extraire les liens d’une page web, ca peut servir dans la mise en place d’un petit spider bot ou tout autre chose, à vous de voir.

import java.net.URL;
import java.util.Vector;
import org.htmlparser.beans.StringBean;
import org.htmlparser.tags.LinkTag;
public class ExtractLink {
    static org.htmlparser.beans.LinkBean lb = null;
    static Vector visitedPage = new Vector();

    public static void main(String[] args){
            extractLink("http://www.yahoo.fr");
    }
    public static void extractLink(String url){
        new LinkTag().setMailLink(true);
        System.err.println("extractLink");
        lb = new org.htmlparser.beans.LinkBean();
        lb.setURL (url);

        URL[] urls = lb.getLinks ();
        for (int i = 0; i < urls.length; i++){
            System.out.println (urls[i]);
        }
    }
    public static void extractString(String url){
      StringBean sb = new StringBean ();
      sb.setLinks (false);
      sb.setReplaceNonBreakingSpaces (true);
      sb.setCollapse (true);
      sb.setURL (url); // the HTTP is performed here
      String s = sb.getStrings ();
      System.out.println(s);
    }
}

Leave a Reply