Indexiert, obwohl durch robots.txt-Datei blockiert

Thema wurde von Anonymous, 23. November 2018 erstellt.

  1. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Ja Dominik, richtig. Hatte ich weiter unten auch so erwähnt bzw. so gemeint.

    Aber wie können wir dem armen Mann denn nun helfen? Im Moment haben wir hier einen Haufen Text, aber keine Lösung....
     
  2. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Sorry, Klaus, dann hatte ich wohl etwas falsch verstanden oder überlesen.

    Es ist auch nur eine Hypothese, aber ich halte es für wahrscheinlich, dass das Problem bereits gelöst ist und in der Search Console nur die Nachwirkungen zu sehen sind...
     
  3. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Auf der GoogleSearchConsole kann man die Auswirkungen von Korrekturen gleich validieren lassen. Und Google gibt auch ausführliche Hinweise (englisch) zu diesen Meldungen.

    Ich sehe leider keine Lösung, vielleicht weil uns ein wichtiges Puzzleteil fehlt.
     
  4. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Wilken, ich habe etwas Zweifel, ob diese "Schaltung" weiterhilft...

    Denn... das Problem sind Seiten, welche durch die eine oder andere Weise bereits in den Index von Google gelangt sind, und zwar *bevor* diese durch einen Eintrag in der robotst.txt blockiert wurden.

    Das Dilemma ist nun, daß für Google diese Seiten (durch das Dissalow) quasi unsichtbar geworden sind und nicht mehr ausgelesen werden. Wenn ich dort nun ein "Noindex" setzte, nützt das nichts mehr, weil Google das gar nicht mehr wahrnimmt. Die Datei bleibt indexiert.

    Vermutliche Lösung also: Die Datei muss ein "noindex" bekommen und aus der robots.txt *rausgenommen* werden. So lange bis diese aus dem Index von Google genommen wurde.

    Das lässt sich aber anscheinen mit der obigen Einstellung nicht realisieren.
     
  5. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Wenn Google merkt, dass die Seiten nicht gelesen werden sollen, fliegen die auch irgendwann aus dem Index raus - das dauert aber eine Weile.
    Du kannst das ein bisschen beschleunigen, indem Du die Seiten bei google löschen lässt.
    Was bei 500 oder mehr allerdings auch ein gewaltiger Aufwand ist.
     
  6. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Nee, ich bin der mit den 10 Seiten, von ganz oben...:)
    Danke Barbara
    Klaus
     
  7. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    @klaus_wengel Ups, sorry, ich war so auf die 500 Seiten fokussiert, dass ich Deine 10 Seiten ganz übersehen hatte ;-) Du hast es absolut verstanden.

    heißt mit anderen Worten: Wir fügen ein Meta-Tag robots noindex ein, verbieten aber gleichzeitig Google via robots.txt, es zu lesen. Es ist somit leider völlig wirkungslos. Oder wie es Google selbst schreibt:
    "Sie sollten in diesem Fall die Seite nicht mit "disallow" in der robots.txt-Datei sperren, da die Seite gecrawlt werden muss, damit das Tag erkannt und befolgt werden kann." (https://support.google.com/webmasters/answer/7424835?hl=de#h17)

    Also: Crawling der Seiten nicht mehr via robots.txt verbieten, damit Google die robots-noindex-Angabe überhaupt lesen darf.
     
  8. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    #28 Anonymous, 19. Dezember 2018
    Zuletzt bearbeitet: 19. Dezember 2018
    Eine provisorische Lösung (für 3.1.2.0) wäre vielleicht, dass man für die entsprechenden Seiten den robots-Schalter auf 'an' schaltet und so einen noindex-Tag erzeugt und dann im Nachhinnein händisch den Eintrag aus der robots.txt wieder rausnimmt. Bei 10 Dateien kein Aufwand. Allerdings sollte man immer wieder mal nachsehen...

    So lange bis die Seiten nicht mehr im Index stehen. Dann wieder zumachen mit der robots.txt.

    Ich fang mal mit der 'shopping_cart.php' an. Mal sehen was passiert.
     
  9. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Wenn Du die Seiten dann aber wieder in die robots.txt aufnimmst, ist das Noindex-Meta-Tag wieder nicht erkennbar und die Seiten wieder zur Indexierung freigegeben. Evtl. ist das von Barbara vorgeschlagene Löschen über die Search Console nachhaltiger - da kenne ich mich leider nicht aus.
     
  10. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    Hallo,

    danke für die rege Anteilnahme und Hilfeversuche. Jetzt möchte ich erstmal auf einige Fragen Antworten. Es handelte sich um Version 3.10.1.0, und ist jetzt aber seit gestern auf 3.11.1.2. erhöht. Die Domain ist fintabo.de. Die genaue Fehlermeldung lautet ,,Indexiert, obwohl durch robots.txt-Datei blockiert,, An der Robots.txt habe ich nie was geändert. Aber, ich hatte in der htaccess Weiterleitungen drinn, da ich einige Pfade geändert hatte und damit die Zugriffe nicht ins Leere laufen eben diese Weiterleitungen eingebaut. Die habe ich entfernt und im Webmastertool eine neue Prüfung angefordert. Die ist gestern fertig durchgelaufen und das Ergebnis ist das gleiche wie vorher. (Überprüfung Fehlgeschlagen
    Startdatum: 17.12.2018 Nicht bestanden: 18.12.2018) Jetzt ist die Frage, Fehlgeschlagen oder nicht bestanden? Ein typisches Beispiel ist fintabo.de/podestleiter-rollbar.html?products_qty=1&page=14 ist im Index und sollte eigentlich nicht, Artikelseite fintabo.de/podestleiter-rollbar.html ist im Index wie es sein soll.
     
  11. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    in der robots.txt ist die URL wie gesagt geblockt, der Test zeigt das auch so.
    Bildschirmfoto vom 2018-12-19 14-07-38.png
     
  12. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Hi Charly,
    sind die zuvor von Dir genannten Seiten mit nur page-Parameter (z.B. https://domain.de/rollbehaelter-01.html?page=12) auch immer noch blockiert? Nein, oder?

    Bei der podestleiter-rollbar.html?products_qty=1&page=14 ist das gleiche Problem wie bei Klaus. Mit den Parametern hat die Seite den Meta-Tag robots noindex,follow - das ist richtig, wenn Du die Seite nicht im Index haben möchtest und nur podestleiter-rollbar.html ohne Parameter hat index,follow - also richtig, wenn Du die indexiert haben möchtet.

    Nur bekommt Google von dem Meta-Tag der podestleiter-rollbar.html?products_qty=1&page=14 nichts mit, weil es die Seite wegen der rot markierten Zeile in der robots.txt auf Deinem Screenshot nicht crawlen darf. Folglich wendet es den Standard an, der da lautet: index,follow.

    Lösung: Rot markierte Zeile aus der robots.txt entfernen, damit Google erkennen kann, dass die Seite nicht in den Index soll.
     
  13. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    Wenn ich die Zeile mit Disallow: /*products_qty* entferne, indexiert Google dann nicht automatisch alles was nach der gewünschten Produkt-URL kommt?

    Disallow: /*page=SN_* auch entfernen?
     
  14. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Indem Du die Zeile entfernst, erlaubst Du Google, den Inhalt der Seiten zu lesen, deren URL products_qty enthält. Das ist weder ein Verbot noch eine Erlaubnis zur Indexierung, ermöglicht Google (anderen Suchmaschinen natürlich auch, kann man ja mal erwähnen) aber, eine Noindex-Angabe für die Seite überhaupt erst zu erkennen. Im Moment weiß Google nicht, dass Du die Seiten nicht im Index haben möchtest...

    Einen Überblick, welche indexierten Seiten betroffen sind, kannst Du Dir verschaffen, indem Du danach suchst: site:fintabo.de inurl:products_qty

    page=SN_ sagt mir nichts, ist auch gemäß site:fintabo.de inurl:page=SN_ nichts indexiert.

    Ich will jetzt nicht durch bestimmte Empfehlungen wieder eine Grundsatz-Diskussion hervorrufen. Meine robots.txt sieht so aus
    User-agent: *
    Allow: /
    Dazu noch ein Link zur Sitemap und gut ist's.

    Edit: Statt des merkwürdigen Smileys ein : und ein p. Kopieren lassen müsste es sich aber trotzdem.
     
  15. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.309
    Danke vergeben:
    2.208
    Ich müsste hier eigentlich mal eben ein langes Pamphlet schreiben, mir mangelts aber gerade an der Stunde dafür. Der products_qty Parameter gehört gesperrt. Keine URL mit dem Parameter hat etwas bei Google verloren. Wer das entfernt tut sich zu 100% sicher keinen Gefallen.

    Genauso gehören Artikelseiten (vorher gezeigten URLs endeten auf .html im Pfad und haben kein /info/ im Pfad, ergo sind es Artikelseiten...) mit Page Parameter nicht in den Google Index, die gehören gesperrt, die URLs sind Unsinn. Gleichzeitig gehören aber Kategorien mit Page Parameter in den Index. Den Page Parameter kann man also nicht pauschal gloibal sperren, das ist Quatsch, das machen wir aber auch nicht.

    Für 3.12 ist das Thema übrigens sehr wohl bedacht und auch gelöst, ab 3.11 ist alles nötige da. Ab dort gibt es seitens des Shops seitentypspezifisches GET-Parameter Blacklist Filter. Müsste man mal schauen ob da jetzt noch ein Listenelement fehlt, aber das ist systematisch alles abgedeckt.
     
  16. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Ja, darum geht es doch die ganze Zeit. Genau deshalb muss ja der Eintrag aus der robots.txt raus, wie in #24 und #27 bemerkt...
     
  17. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    ah ok das habe ich so nicht verstanden, aber das versuche ich jetzt mal.
     
  18. Dominik Späte

    Dominik Späte Erfahrener Benutzer

    Registriert seit:
    16. Oktober 2018
    Beiträge:
    940
    Danke erhalten:
    811
    Danke vergeben:
    301
    Achso, ich habe möglicherweise die Anwendersicht aus den Augen verloren: Das Häkchen im Gambio-Admin muss schon so bleiben, damit auch die Noindex-Angabe bleibt. Nur aus der robots.txt muss die Zeile raus - erstmal händisch und dann bin ich ja mal auf 3.12 gespannt :)
     
  19. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    Könnte mit vielleicht jemand ein Screenshoot zeigen wie die Einstellungen unter SEO Tools / Statische Seiten
    Sitemap u. Robots-Disallow optimal eingestellt sein sollen? Oder kann das nicht so pauschal gesagt werden?
     
  20. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Die Parameter haben keine eigene Seite, die Du sperren kannst.