Parsen mit HtmlCleaner

  • Antworten:2
Hermann S.
  • Forum-Beiträge: 45

12.09.2011, 21:56:21 via Website

Hallo, ich möchte eine einzelne, statische HTML-Seite parsen. Die Seite verwendet ausschließlich Inlinestyle und besitzt keinerlei Klassen, an denen ein Inhalt identifiziert werden könnte. Der Aufbau der Seite lässt sich folgendermaßen beschreiben.

1...
2<h2>Titel_1</h2>
3...
4<table>...</table>
5<table>...</table>
6...
7<table>...</table>
8
9<h2>Titel_n</h2>
10...
11<table>...</table>
12...

Unter diesem Link, findet ihr den vollständigen Quelltext der Seite: www.tomodachi.de/html/ant/service/tv_planer.html

Da die Tabellen selbst keinerlei Hinweis geben, um welchen Inhalt es sich handelt, muss zur Identifizierung der Text in der Überschrift zur Hilfe genommen werden. Leider ist es mit dem XPATH oder getElementsByName nur möglich eine getrennte Liste der Tabellen oder Überschriften zu extrahieren. Mir fällt nicht ein, wie man aus der Liste mit den Tabellen raus bekommt, welche Tabelle(n) zu welcher Überschrift gehören.

Ich habe mir überlegt den Tag-Baum vom Html-Cleaner in einer XML abzuspeichern, die ich anschließend mit dem SaxParser bearbeite, habe aber das Gefühl Fliegen mit Elefanten zu erschlagen. Bin erst gestern auf den HtmlCleaner aufmerksam geworden, kenne ihn daher noch nicht so gut. Wäre mein Vorhaben ausschließlich mit dem HtmlCleaner möglich, oder würdet ihr mir raten den Weg mit den Elefanten zu gehen?

— geändert am 12.09.2011, 22:00:11

Antworten
Hermann S.
  • Forum-Beiträge: 45

15.09.2011, 23:44:17 via Website

Hab es nun doch mit einem eigenen Iterator gemacht, ist vermutlich auch effektiver. Auf diese Weise lässt sich der eine oder andere unwichtige Knoten überspringen und gleich die Datenbank füttern. :-)

Antworten