LignoAI
← Zurück zu Referenzen
[ BFH INFORMATIKPROJEKT FS2026 — VEREIN ECOBAU ]

ecobau.ch PDF Crawler.

Automatisierte Erkennung aller öffentlich zugänglichen PDF-Dokumente auf ecobau.ch — entwickelt im Rahmen des BFH Informatikprojekts FS2026 für Verein ecobau.

Ergebnisse ansehen
275PDFs gefunden
196Seiten gecrawlt
10Threads parallel
3Fehler (404)

Crawler Terminal

Simulierter Crawl von www.ecobau.ch — identisch mit dem echten Python-Script das im BFH-Projekt läuft.

python crawler.py — ecobau.ch PDF Crawler v3
$ python crawler.py
Bereit. Drücke «Crawl simulieren» um zu starten.
Seiten besucht
0
PDFs gefunden
0
Queue
0
Status
Bereit

Gefundene PDFs

Einzigartige direkte PDF-URLs (.../resources/uploads/...) — keine Duplikate, keine Bewertungszertifikate, keine Session-PDFs.

Crawl-Datum
Letzter Crawl
PDFs total
Einzigartige direkte .pdf URLs
Seiten gecrawlt
www.ecobau.ch Seiten besucht
Fehler (404)
3
PDFs verlinkt aber nicht mehr vorhanden

Wie der Crawler funktioniert

10 parallele Threads durchsuchen systematisch alle Seiten von www.ecobau.ch nach direkten .pdf Links.

01 — START
Startseiten
Crawler startet auf /de/ und /fr/ sowie bekannten News-Archiv-Seiten (index.cfm?Nav=29).
02 — CRAWL
BFS mit 10 Threads
Breadth-First-Search, 0.1s Delay, Timeout 10s. Jede URL wird genau einmal besucht.
03 — FILTER
Ausschlüsse
action=print (Zertifikate), FileID= (Session-PDFs), Nav=27 (Produkte), test.ecobau.ch, externe Domains.
04 — ERKENNUNG
PDF-Detektion
Links die auf .pdf enden werden als Typ-1-Dokumente (resources/uploads/) registriert.
05 — EXPORT
CSV laufend
Titel, URL, Fundseite und Datum werden bei jedem Fund sofort in die CSV geschrieben.
06 — DOWNLOAD
scraper.py
Lädt alle gefundenen PDFs herunter. 272/275 erfolgreich — 3 Fehler (404 Not Found).