HTML Pretty Printer, Java

För att kunna exekvera XPATH-uttryck, så behöver källan vara välformatterad, lämpligtvis XML. Nu vill jag använda XPATH-uttryck för att extrahera länkar och text ur vanliga webbplatser, sådanna som mer än sällan är välformatterad. Det är ett problem som jag inte löst, det räcker i min tänkta tillämpning att lura XPATH-exekvering att tro, att dokumentet är välformaterat. Jag önskar mig alltså en skrivare som tar ful-html och gör om det till fin-html, en HTML Pretty Printer till Java. Har du något förslag på lösning?