Website Crawling Pobleme und Fehlercodes

<aside> 💡

Im Rahmen unserer KI Features können Sie ggf. automatisiert Daten Ihrer Website einlesen. Dazu erfasst unser System mittels Crawling die relevanten Daten und speichert sie in Lime Connect. Dieser Artikel erklärt, warum es mitunter nicht möglich ist, bestimmte URLs zu erfassen.

</aside>

Gründe, warum Crawling nicht möglich ist

Robots.txt-Sperre
- Die Datei robots.txt kann bestimmte Bereiche oder die gesamte Website für Crawler ausschließen.
Meta-Tags / Header
- Tags wie <meta name="robots" content="noindex,nofollow"> oder ein X-Robots-Tag im Header verhindern Indexierung oder Crawling.
Technische Sperren
- IP-Blocking, Captchas oder Bot-Schutz (z. B. Cloudflare, reCAPTCHA, WAF) können Crawler aussperren.
- Rate Limiting: zu viele Anfragen in kurzer Zeit → Blockierung.
Fehlende Erreichbarkeit
- Server ist down, DNS-Probleme oder Timeouts.
Dynamische Inhalte
- Inhalte werden nur per JavaScript nachgeladen, was unser Crawler nicht verarbeiten können.
Zugriffsrechte / Authentifizierung
- Seiten hinter Logins oder Paywalls sind für Crawler nicht erreichbar.

Wichtige HTTP-Statuscodes beim Crawling

2xx (Erfolg)
- 200 OK: Seite erfolgreich geladen.
- 204 No Content: keine Inhalte geliefert.
3xx (Weiterleitungen)
- 301 Moved Permanently: permanente Weiterleitung.
- 302 Found / 307 Temporary Redirect: temporäre Weiterleitung.
- 304 Not Modified: Seite nicht verändert (Cacheresponse).
4xx (Clientfehler)
- 400 Bad Request: fehlerhafte Anfrage.
- 401 Unauthorized: Login erforderlich.
- 403 Forbidden: Zugriff verweigert (z. B. Crawler blockiert).
- 404 Not Found: Seite existiert nicht.
- 410 Gone: Seite dauerhaft entfernt.
- 429 Too Many Requests: zu viele Anfragen → Crawling gesperrt.
5xx (Serverfehler)
- 500 Internal Server Error: Serverproblem.
- 502 Bad Gateway: fehlerhafte Antwort vom Upstream-Server.
- 503 Service Unavailable: Server überlastet oder Wartung.
- 504 Gateway Timeout: Server antwortet nicht rechtzeitig.