Parsen mit HtmlCleaner

Hermann S.

Forum-Beiträge: 45

12.09.2011, 21:56:21 via Website

12.09.2011 21:56:21 via Website

Hallo, ich möchte eine einzelne, statische HTML-Seite parsen. Die Seite verwendet ausschließlich Inlinestyle und besitzt keinerlei Klassen, an denen ein Inhalt identifiziert werden könnte. Der Aufbau der Seite lässt sich folgendermaßen beschreiben.

1...
2<h2>Titel_1</h2>
3...
4<table>...</table>
5<table>...</table>
6...
7<table>...</table>
8
9<h2>Titel_n</h2>
10...
11<table>...</table>
12...

Unter diesem Link, findet ihr den vollständigen Quelltext der Seite: www.tomodachi.de/html/ant/service/tv_planer.html

Da die Tabellen selbst keinerlei Hinweis geben, um welchen Inhalt es sich handelt, muss zur Identifizierung der Text in der Überschrift zur Hilfe genommen werden. Leider ist es mit dem XPATH oder getElementsByName nur möglich eine getrennte Liste der Tabellen oder Überschriften zu extrahieren. Mir fällt nicht ein, wie man aus der Liste mit den Tabellen raus bekommt, welche Tabelle(n) zu welcher Überschrift gehören.

Ich habe mir überlegt den Tag-Baum vom Html-Cleaner in einer XML abzuspeichern, die ich anschließend mit dem SaxParser bearbeite, habe aber das Gefühl Fliegen mit Elefanten zu erschlagen. Bin erst gestern auf den HtmlCleaner aufmerksam geworden, kenne ihn daher noch nicht so gut. Wäre mein Vorhaben ausschließlich mit dem HtmlCleaner möglich, oder würdet ihr mir raten den Weg mit den Elefanten zu gehen?

— geändert am 12.09.2011, 22:00:11

Antworten

Rafael K.

Forum-Beiträge: 2.359

13.09.2011, 08:25:55 via Website

13.09.2011 08:25:55 via Website

Du könntest auch mit Regular Expressions die einzelnen Tags rausfiltern und nach Fund-Index sortieren.
Dann brauchst du zumindest keine zusätzliche Lib.

Crystal Math - Numbers On Speed -- Verkaufswert Rechner -- Trader Radar - Insider Trade News

Antworten

Hermann S.

Forum-Beiträge: 45

15.09.2011, 23:44:17 via Website

15.09.2011 23:44:17 via Website

Hab es nun doch mit einem eigenen Iterator gemacht, ist vermutlich auch effektiver. Auf diese Weise lässt sich der eine oder andere unwichtige Knoten überspringen und gleich die Datenbank füttern. :-)

Antworten