01 — LIVE DEMO
Crawler Terminal
Simulierter Crawl von www.ecobau.ch — identisch mit dem echten Python-Script das im BFH-Projekt läuft.
$ python crawler.py
Bereit. Drücke «Crawl simulieren» um zu starten.
Bereit. Drücke «Crawl simulieren» um zu starten.
Seiten besucht
0
PDFs gefunden
0
Queue
0
Status
Bereit
02 — OUTPUT
Gefundene PDFs
Einzigartige direkte PDF-URLs (.../resources/uploads/...) — keine Duplikate, keine Bewertungszertifikate, keine Session-PDFs.
Crawl-Datum
—
Letzter Crawl
PDFs total
—
Einzigartige direkte .pdf URLs
Seiten gecrawlt
—
www.ecobau.ch Seiten besucht
Fehler (404)
3
PDFs verlinkt aber nicht mehr vorhanden
03 — METHODIK
Wie der Crawler funktioniert
10 parallele Threads durchsuchen systematisch alle Seiten von www.ecobau.ch nach direkten .pdf Links.
01 — START
Startseiten
Crawler startet auf /de/ und /fr/ sowie bekannten News-Archiv-Seiten (index.cfm?Nav=29).
02 — CRAWL
BFS mit 10 Threads
Breadth-First-Search, 0.1s Delay, Timeout 10s. Jede URL wird genau einmal besucht.
03 — FILTER
Ausschlüsse
action=print (Zertifikate), FileID= (Session-PDFs), Nav=27 (Produkte), test.ecobau.ch, externe Domains.
04 — ERKENNUNG
PDF-Detektion
Links die auf .pdf enden werden als Typ-1-Dokumente (resources/uploads/) registriert.
05 — EXPORT
CSV laufend
Titel, URL, Fundseite und Datum werden bei jedem Fund sofort in die CSV geschrieben.
06 — DOWNLOAD
scraper.py
Lädt alle gefundenen PDFs herunter. 272/275 erfolgreich — 3 Fehler (404 Not Found).