Indexiert, obwohl durch robots.txt-Datei blockiert

Thema wurde von Rene84, 2. Juli 2020 erstellt.

  1. Rene84

    Rene84 Aktives Mitglied

    Registriert seit:
    12. November 2017
    Beiträge:
    28
    Danke erhalten:
    3
    Danke vergeben:
    2
    Hallo,
    Google Search Console schimpft "Indexiert, obwohl durch robots.txt-Datei blockiert"

    für folgende Dateien:

    https://www.Beispiel.de/password_double_opt.php
    27.06.2020
    https://www.Beispiel.de/shop.php?do=CreateRegistree
    27.06.2020
    https://www.Beispiel.de/?manufacturers_id=3&page=2
    27.06.2020
    https://www.Beispiel.de/shop_content.php?coID=2
    25.06.2020
    https://www.Beispiel.de/?manufacturers_id=1&page=2
    11.06.2020
    https://www.Beispiel.de/?manufacturers_id=3
    10.06.2020
    https://www.Beispiel.de/shopping_cart.php
    08.06.2020
    https://www.Beispiel.de/?manufacturers_id=1
    08.06.2020
    https://www.Beispiel.de/shop_content.php?coID=38...
    02.06.2020
    https://wwwBeispiel.de/popup/versand-und-zahlungsbedingungen.html?XTCsid=9f1874....
    02.05.2020

    Was kann die Ursache dafür sein?
    Wenn das ausgeschlossen wurde sollte es doch normal nicht indexiert werden oder?
    oder egal?


    Hab bei Gambio schon ein Ticket eröffnet aber deran Antwort war leider nicht hilfreich:

    Hallo,

    wir haben uns das bei dir im Shop angeschaut. Die robots.txt listet die entsprechende Einträge. Warum Google sie dennoch indexiert, obwohl es selbst anmerkt, dass diese Seiten ausgeschlossen sind, können wir dir nicht beantworten. Da müsstest du einmal bei Google nachfragen.
     
  2. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    23. Januar 2020
    Beiträge:
    121
    Danke erhalten:
    52
    Danke vergeben:
    96
    Das gleiche Problem bei uns auch.
     
  3. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    19. Juni 2012
    Beiträge:
    4.831
    Danke erhalten:
    1.122
    Danke vergeben:
    947
    Liegt daran, dass man mit der robots.txt nicht steuert, ob eine Seite indexiert wird oder nicht, sondern nur ob bei der Indexierung der Inhalt aufgenommen wird oder nicht. Vermutlich habt ihr in den Seiten auch noch einen canonical Tag ( link rel=”canonical” href=”aufgerufene seite") als explizite Anweisung, diese Seite zu indexieren... Könnt ja mal im Quelltext nachsehen oder mit diesem Tool prüfen:
    (Link nur für registrierte Nutzer sichtbar.)
     
  4. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.309
    Danke vergeben:
    2.208
    Das ist nicht unbedingt schlimm.

    https://www.sistrix.de/frag-sistrix...ots-txt-gesperrte-url-in-den-suchergebnissen/

    Kurzum: Wenn ein Crawler genug Links auf eine Seite findet um die wichtig zu finden kann die URL selbst im Google Index auftauchen. Das ist nicht unbedingt tragisch und auch nicht wirklich ein Fehler. Es ist mehr einfach ein Hinweis.

    Ein canonical Tag ist keine explizite Anweisung eine Seite zu indexieren, es geht rein um die Kanonität.
     
  5. Rene84

    Rene84 Aktives Mitglied

    Registriert seit:
    12. November 2017
    Beiträge:
    28
    Danke erhalten:
    3
    Danke vergeben:
    2
    Canonical Tag Check sagt
    "Diese Seite ist für den Seobility Bot nicht erreichbar. Unser Bot wird von der Robots.txt Datei ausgeschlossen. Der Seobility Bot crawlt nichts was Seobility oder * ausschließt."


    Im Quelltext vom Impressum sieht das bei mir so aus:


    <meta name="robots" content="noindex,follow" />
    <link rel="canonical" href="https://www.Beispiel.de/info/impressum.html" />
    <meta property="og:url" content="https://www.Beispiel.de/info/impressum.html">


    Ich möchte halt nicht, das meine Rechtstexte über google zu finden sind, sondern meine Produkte...