Hermann S.
- Forum-Beiträge: 45
12.09.2011, 21:56:21 via Website
12.09.2011 21:56:21 via Website
Hallo, ich möchte eine einzelne, statische HTML-Seite parsen. Die Seite verwendet ausschließlich Inlinestyle und besitzt keinerlei Klassen, an denen ein Inhalt identifiziert werden könnte. Der Aufbau der Seite lässt sich folgendermaßen beschreiben.
Unter diesem Link, findet ihr den vollständigen Quelltext der Seite: www.tomodachi.de/html/ant/service/tv_planer.html
Da die Tabellen selbst keinerlei Hinweis geben, um welchen Inhalt es sich handelt, muss zur Identifizierung der Text in der Überschrift zur Hilfe genommen werden. Leider ist es mit dem XPATH oder getElementsByName nur möglich eine getrennte Liste der Tabellen oder Überschriften zu extrahieren. Mir fällt nicht ein, wie man aus der Liste mit den Tabellen raus bekommt, welche Tabelle(n) zu welcher Überschrift gehören.
Ich habe mir überlegt den Tag-Baum vom Html-Cleaner in einer XML abzuspeichern, die ich anschließend mit dem SaxParser bearbeite, habe aber das Gefühl Fliegen mit Elefanten zu erschlagen. Bin erst gestern auf den HtmlCleaner aufmerksam geworden, kenne ihn daher noch nicht so gut. Wäre mein Vorhaben ausschließlich mit dem HtmlCleaner möglich, oder würdet ihr mir raten den Weg mit den Elefanten zu gehen?
1...
2<h2>Titel_1</h2>
3...
4<table>...</table>
5<table>...</table>
6...
7<table>...</table>
8
9<h2>Titel_n</h2>
10...
11<table>...</table>
12...
2<h2>Titel_1</h2>
3...
4<table>...</table>
5<table>...</table>
6...
7<table>...</table>
8
9<h2>Titel_n</h2>
10...
11<table>...</table>
12...
Unter diesem Link, findet ihr den vollständigen Quelltext der Seite: www.tomodachi.de/html/ant/service/tv_planer.html
Da die Tabellen selbst keinerlei Hinweis geben, um welchen Inhalt es sich handelt, muss zur Identifizierung der Text in der Überschrift zur Hilfe genommen werden. Leider ist es mit dem XPATH oder getElementsByName nur möglich eine getrennte Liste der Tabellen oder Überschriften zu extrahieren. Mir fällt nicht ein, wie man aus der Liste mit den Tabellen raus bekommt, welche Tabelle(n) zu welcher Überschrift gehören.
Ich habe mir überlegt den Tag-Baum vom Html-Cleaner in einer XML abzuspeichern, die ich anschließend mit dem SaxParser bearbeite, habe aber das Gefühl Fliegen mit Elefanten zu erschlagen. Bin erst gestern auf den HtmlCleaner aufmerksam geworden, kenne ihn daher noch nicht so gut. Wäre mein Vorhaben ausschließlich mit dem HtmlCleaner möglich, oder würdet ihr mir raten den Weg mit den Elefanten zu gehen?
— geändert am 12.09.2011, 22:00:11
Empfohlener redaktioneller Inhalt
Mit Deiner Zustimmung wird hier ein externer Inhalt geladen.
Mit Klick auf den oben stehenden Button erklärst Du Dich damit einverstanden, dass Dir externe Inhalte angezeigt werden dürfen. Dabei können personenbezogene Daten an Drittanbieter übermittelt werden. Mehr Infos dazu findest Du in unserer Datenschutzerklärung.