fév 04
Extraire les liens d’une page web, htmlparser lib
exemple d’utilisation de la lib htmlparser pour extraire les liens d’une page web, ca peut servir dans la mise en place d’un petit spider bot ou tout autre chose, à vous de voir.
import java.net.URL;
import java.util.Vector;
import org.htmlparser.beans.StringBean;
import org.htmlparser.tags.LinkTag;
public class ExtractLink {
static org.htmlparser.beans.LinkBean lb = null;
static Vector visitedPage = new Vector();
public static void main(String[] args){
extractLink("http://www.yahoo.fr");
}
public static void extractLink(String url){
new LinkTag().setMailLink(true);
System.err.println("extractLink");
lb = new org.htmlparser.beans.LinkBean();
lb.setURL (url);
URL[] urls = lb.getLinks ();
for (int i = 0; i < urls.length; i++){
System.out.println (urls[i]);
}
}
public static void extractString(String url){
StringBean sb = new StringBean ();
sb.setLinks (false);
sb.setReplaceNonBreakingSpaces (true);
sb.setCollapse (true);
sb.setURL (url); // the HTTP is performed here
String s = sb.getStrings ();
System.out.println(s);
}
}
