ecobau PDF Crawler

01 — LIVE DEMO

Crawler Terminal

Simulierter Crawl von www.ecobau.ch — identisch mit dem echten Python-Script das im BFH-Projekt läuft.

python crawler.py — ecobau.ch PDF Crawler v3

$ python crawler.py
Bereit. Drücke «Crawl simulieren» um zu starten.

Seiten besucht

0

PDFs gefunden

0

Queue

0

Status

Bereit

02 — OUTPUT

Gefundene PDFs

Einzigartige direkte PDF-URLs (.../resources/uploads/...) — keine Duplikate, keine Bewertungszertifikate, keine Session-PDFs.

Crawl-Datum

—

Letzter Crawl

PDFs total

—

Einzigartige direkte .pdf URLs

Seiten gecrawlt

—

www.ecobau.ch Seiten besucht

Fehler (404)

3

PDFs verlinkt aber nicht mehr vorhanden

03 — METHODIK

Wie der Crawler funktioniert

10 parallele Threads durchsuchen systematisch alle Seiten von www.ecobau.ch nach direkten .pdf Links.

01 — START

Startseiten

Crawler startet auf /de/ und /fr/ sowie bekannten News-Archiv-Seiten (index.cfm?Nav=29).

02 — CRAWL

BFS mit 10 Threads

Breadth-First-Search, 0.1s Delay, Timeout 10s. Jede URL wird genau einmal besucht.

03 — FILTER

Ausschlüsse

action=print (Zertifikate), FileID= (Session-PDFs), Nav=27 (Produkte), test.ecobau.ch, externe Domains.

04 — ERKENNUNG

PDF-Detektion

Links die auf .pdf enden werden als Typ-1-Dokumente (resources/uploads/) registriert.

05 — EXPORT

CSV laufend

Titel, URL, Fundseite und Datum werden bei jedem Fund sofort in die CSV geschrieben.

06 — DOWNLOAD

scraper.py

Lädt alle gefundenen PDFs herunter. 272/275 erfolgreich — 3 Fehler (404 Not Found).

ecobau.ch PDF Crawler.

Crawler Terminal

Gefundene PDFs

Wie der Crawler funktioniert