HTML Pretty Printer, Java

För att kunna exekvera XPATH-uttryck, så behöver källan vara välformatterad, lämpligtvis XML. Nu vill jag använda XPATH-uttryck för att extrahera länkar och text ur vanliga webbplatser, sådanna som mer än sällan är välformatterad. Det är ett problem som jag inte löst, det räcker i min tänkta tillämpning att lura XPATH-exekvering att tro, att dokumentet är välformaterat. Jag önskar mig alltså en skrivare som tar ful-html och gör om det till fin-html, en HTML Pretty Printer till Java. Har du något förslag på lösning?

Leave a Reply

Your email address will not be published. Required fields are marked *

You may use these HTML tags and attributes: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>