Ja Dominik, richtig. Hatte ich weiter unten auch so erwähnt bzw. so gemeint. Aber wie können wir dem armen Mann denn nun helfen? Im Moment haben wir hier einen Haufen Text, aber keine Lösung....
Sorry, Klaus, dann hatte ich wohl etwas falsch verstanden oder überlesen. Es ist auch nur eine Hypothese, aber ich halte es für wahrscheinlich, dass das Problem bereits gelöst ist und in der Search Console nur die Nachwirkungen zu sehen sind...
Auf der GoogleSearchConsole kann man die Auswirkungen von Korrekturen gleich validieren lassen. Und Google gibt auch ausführliche Hinweise (englisch) zu diesen Meldungen. Ich sehe leider keine Lösung, vielleicht weil uns ein wichtiges Puzzleteil fehlt.
Wilken, ich habe etwas Zweifel, ob diese "Schaltung" weiterhilft... Denn... das Problem sind Seiten, welche durch die eine oder andere Weise bereits in den Index von Google gelangt sind, und zwar *bevor* diese durch einen Eintrag in der robotst.txt blockiert wurden. Das Dilemma ist nun, daß für Google diese Seiten (durch das Dissalow) quasi unsichtbar geworden sind und nicht mehr ausgelesen werden. Wenn ich dort nun ein "Noindex" setzte, nützt das nichts mehr, weil Google das gar nicht mehr wahrnimmt. Die Datei bleibt indexiert. Vermutliche Lösung also: Die Datei muss ein "noindex" bekommen und aus der robots.txt *rausgenommen* werden. So lange bis diese aus dem Index von Google genommen wurde. Das lässt sich aber anscheinen mit der obigen Einstellung nicht realisieren.
Wenn Google merkt, dass die Seiten nicht gelesen werden sollen, fliegen die auch irgendwann aus dem Index raus - das dauert aber eine Weile. Du kannst das ein bisschen beschleunigen, indem Du die Seiten bei google löschen lässt. Was bei 500 oder mehr allerdings auch ein gewaltiger Aufwand ist.
@klaus_wengel Ups, sorry, ich war so auf die 500 Seiten fokussiert, dass ich Deine 10 Seiten ganz übersehen hatte ;-) Du hast es absolut verstanden. heißt mit anderen Worten: Wir fügen ein Meta-Tag robots noindex ein, verbieten aber gleichzeitig Google via robots.txt, es zu lesen. Es ist somit leider völlig wirkungslos. Oder wie es Google selbst schreibt: "Sie sollten in diesem Fall die Seite nicht mit "disallow" in der robots.txt-Datei sperren, da die Seite gecrawlt werden muss, damit das Tag erkannt und befolgt werden kann." (https://support.google.com/webmasters/answer/7424835?hl=de#h17) Also: Crawling der Seiten nicht mehr via robots.txt verbieten, damit Google die robots-noindex-Angabe überhaupt lesen darf.
Eine provisorische Lösung (für 3.1.2.0) wäre vielleicht, dass man für die entsprechenden Seiten den robots-Schalter auf 'an' schaltet und so einen noindex-Tag erzeugt und dann im Nachhinnein händisch den Eintrag aus der robots.txt wieder rausnimmt. Bei 10 Dateien kein Aufwand. Allerdings sollte man immer wieder mal nachsehen... So lange bis die Seiten nicht mehr im Index stehen. Dann wieder zumachen mit der robots.txt. Ich fang mal mit der 'shopping_cart.php' an. Mal sehen was passiert.
Wenn Du die Seiten dann aber wieder in die robots.txt aufnimmst, ist das Noindex-Meta-Tag wieder nicht erkennbar und die Seiten wieder zur Indexierung freigegeben. Evtl. ist das von Barbara vorgeschlagene Löschen über die Search Console nachhaltiger - da kenne ich mich leider nicht aus.
Hallo, danke für die rege Anteilnahme und Hilfeversuche. Jetzt möchte ich erstmal auf einige Fragen Antworten. Es handelte sich um Version 3.10.1.0, und ist jetzt aber seit gestern auf 3.11.1.2. erhöht. Die Domain ist fintabo.de. Die genaue Fehlermeldung lautet ,,Indexiert, obwohl durch robots.txt-Datei blockiert,, An der Robots.txt habe ich nie was geändert. Aber, ich hatte in der htaccess Weiterleitungen drinn, da ich einige Pfade geändert hatte und damit die Zugriffe nicht ins Leere laufen eben diese Weiterleitungen eingebaut. Die habe ich entfernt und im Webmastertool eine neue Prüfung angefordert. Die ist gestern fertig durchgelaufen und das Ergebnis ist das gleiche wie vorher. (Überprüfung Fehlgeschlagen Startdatum: 17.12.2018 Nicht bestanden: 18.12.2018) Jetzt ist die Frage, Fehlgeschlagen oder nicht bestanden? Ein typisches Beispiel ist fintabo.de/podestleiter-rollbar.html?products_qty=1&page=14 ist im Index und sollte eigentlich nicht, Artikelseite fintabo.de/podestleiter-rollbar.html ist im Index wie es sein soll.
Hi Charly, sind die zuvor von Dir genannten Seiten mit nur page-Parameter (z.B. https://domain.de/rollbehaelter-01.html?page=12) auch immer noch blockiert? Nein, oder? Bei der podestleiter-rollbar.html?products_qty=1&page=14 ist das gleiche Problem wie bei Klaus. Mit den Parametern hat die Seite den Meta-Tag robots noindex,follow - das ist richtig, wenn Du die Seite nicht im Index haben möchtest und nur podestleiter-rollbar.html ohne Parameter hat index,follow - also richtig, wenn Du die indexiert haben möchtet. Nur bekommt Google von dem Meta-Tag der podestleiter-rollbar.html?products_qty=1&page=14 nichts mit, weil es die Seite wegen der rot markierten Zeile in der robots.txt auf Deinem Screenshot nicht crawlen darf. Folglich wendet es den Standard an, der da lautet: index,follow. Lösung: Rot markierte Zeile aus der robots.txt entfernen, damit Google erkennen kann, dass die Seite nicht in den Index soll.
Wenn ich die Zeile mit Disallow: /*products_qty* entferne, indexiert Google dann nicht automatisch alles was nach der gewünschten Produkt-URL kommt? Disallow: /*page=SN_* auch entfernen?
Indem Du die Zeile entfernst, erlaubst Du Google, den Inhalt der Seiten zu lesen, deren URL products_qty enthält. Das ist weder ein Verbot noch eine Erlaubnis zur Indexierung, ermöglicht Google (anderen Suchmaschinen natürlich auch, kann man ja mal erwähnen) aber, eine Noindex-Angabe für die Seite überhaupt erst zu erkennen. Im Moment weiß Google nicht, dass Du die Seiten nicht im Index haben möchtest... Einen Überblick, welche indexierten Seiten betroffen sind, kannst Du Dir verschaffen, indem Du danach suchst: site:fintabo.de inurlroducts_qty page=SN_ sagt mir nichts, ist auch gemäß site:fintabo.de inurlage=SN_ nichts indexiert. Ich will jetzt nicht durch bestimmte Empfehlungen wieder eine Grundsatz-Diskussion hervorrufen. Meine robots.txt sieht so aus User-agent: * Allow: / Dazu noch ein Link zur Sitemap und gut ist's. Edit: Statt des merkwürdigen Smileys ein : und ein p. Kopieren lassen müsste es sich aber trotzdem.
Ich müsste hier eigentlich mal eben ein langes Pamphlet schreiben, mir mangelts aber gerade an der Stunde dafür. Der products_qty Parameter gehört gesperrt. Keine URL mit dem Parameter hat etwas bei Google verloren. Wer das entfernt tut sich zu 100% sicher keinen Gefallen. Genauso gehören Artikelseiten (vorher gezeigten URLs endeten auf .html im Pfad und haben kein /info/ im Pfad, ergo sind es Artikelseiten...) mit Page Parameter nicht in den Google Index, die gehören gesperrt, die URLs sind Unsinn. Gleichzeitig gehören aber Kategorien mit Page Parameter in den Index. Den Page Parameter kann man also nicht pauschal gloibal sperren, das ist Quatsch, das machen wir aber auch nicht. Für 3.12 ist das Thema übrigens sehr wohl bedacht und auch gelöst, ab 3.11 ist alles nötige da. Ab dort gibt es seitens des Shops seitentypspezifisches GET-Parameter Blacklist Filter. Müsste man mal schauen ob da jetzt noch ein Listenelement fehlt, aber das ist systematisch alles abgedeckt.
Ja, darum geht es doch die ganze Zeit. Genau deshalb muss ja der Eintrag aus der robots.txt raus, wie in #24 und #27 bemerkt...
Achso, ich habe möglicherweise die Anwendersicht aus den Augen verloren: Das Häkchen im Gambio-Admin muss schon so bleiben, damit auch die Noindex-Angabe bleibt. Nur aus der robots.txt muss die Zeile raus - erstmal händisch und dann bin ich ja mal auf 3.12 gespannt
Könnte mit vielleicht jemand ein Screenshoot zeigen wie die Einstellungen unter SEO Tools / Statische Seiten Sitemap u. Robots-Disallow optimal eingestellt sein sollen? Oder kann das nicht so pauschal gesagt werden?