Indexiert, obwohl durch robots.txt-Datei blockiert

Anonymous · 19. Dezember 2018

Zitat von barbara: ↑

Die Parameter haben keine eigene Seite, die Du sperren kannst.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Dann setzt Gambio die Noindex-Angabe wohl automatisch richtig bei den Seiten mit entsprechenden Parametern.

Mir war es nur noch wichtig, zu ergänzen, dass ich mit "aus der robots.txt entfernen" tatsächlich das Entfernen aus der Datei meinte und kein Häkchen-Switchen im Admin-Bereich. Bei OP Klaus waren ja bspw. Content-Seiten betroffen, bei denen das schon möglich wäre.

Anonymous · 19. Dezember 2018

Zitat von Wilken (Gambio): ↑

Der products_qty Parameter gehört gesperrt. Keine URL mit dem Parameter hat etwas bei Google verloren. Wer das entfernt tut sich zu 100% sicher keinen Gefallen.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Jetzt bin ich doch etwas verwirrt.
Den products_qty Parameter habe ich heute aus der robots.txt entfernt nachdem der auch bei mir (neben anderen) indexiert ist.
War das jetzt OK oder habe ich mir damit zu 100% sicher keinen Gefallen getan?

Anonymous · 19. Dezember 2018

Zitat von Wilken (Gambio): ↑

Für 3.12 ist das Thema übrigens sehr wohl bedacht und auch gelöst, ab 3.11 ist alles nötige da. Ab dort gibt es seitens des Shops seitentypspezifisches GET-Parameter Blacklist Filter. Müsste man mal schauen ob da jetzt noch ein Listenelement fehlt, aber das ist systematisch alles abgedeckt.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Dazu eine Frage.

ist es Richtig das z.B. die Impressum-Seite oder diese Seite aus unserem Shop
https://www.sus-verbindungstechnik.de/?manufacturers_id=10&page=3
diesen Eintrag im Head haben <meta name="robots" content="noindex,follow"> müsste das nicht nofollow sein?

Anonymous · 19. Dezember 2018

Zitat von michael_matecki: ↑

ist es Richtig das z.B. die Impressum-Seite oder diese Seite aus unserem Shop
https://www.sus-verbindungstechnik.de/?manufacturers_id=10&page=3
diesen Eintrag im Head haben <meta name="robots" content="noindex,follow"> müsste das nicht nofollow sein?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

An sich ist follow schon richtig. Du möchtest ja bestimmt nur die Seite nicht indexiert haben, aber Suchmaschinen sollen den Links auf der Seite durchaus folgen.

Dank dieser beiden Zeilen in der robots.txt wird aber kein Googlebot den Eintrag im Head der beiden genannten Seiten jemals zu Gesicht bekommen:
Disallow: /*manufacturers_id*
Disallow: /info/impressum.html
In den Seiten kann dann auch <meta name="robots" content="I love you"> stehen - es ist völlig egal...

Anonymous · 19. Dezember 2018

Zitat von Dominik Späte: ↑

An sich ist follow schon richtig. Du möchtest ja bestimmt nur die Seite nicht indexiert haben, aber Suchmaschinen sollen den Links auf der Seite durchaus folgen.

Dank dieser beiden Zeilen in der robots.txt wird aber kein Googlebot den Eintrag im Head der beiden genannten Seiten jemals zu Gesicht bekommen:
Disallow: /*manufacturers_id*
Disallow: /info/impressum.html
In den Seiten kann dann auch <meta name="robots" content="I love you"> stehen - es ist völlig egal...
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

ich habe seit dem 25 Nov. 2018 so ca. 43.000 ausgeschlossen Seiten weil durch robots.txt blokiert sein sollen in der GSC, überwiegend Artikel- und Kategorieseiten die unnötiger Weise mit den parametern ?manufacturers_id= sowie &page= in unterschiedlichster Kombination dort gelistet sind.......und seit Anfang Nov. 2018 ca. 160 Seiten die indexiert wurden obwohl durch robots.txt blockiert- die gleichen Parameter.....

Nachtrag. seit Anfang Nov. 2018 werden Kategorien mit dem zusätzlichen Parameter &page= durch den noindex-Tag ausgeschlossen und somit nicht indexiert.

Anonymous · 20. Dezember 2018

Zitat von michael_matecki: ↑

ich habe seit dem 25 Nov. 2018 so ca. 43.000 ausgeschlossen Seiten weil durch robots.txt blokiert sein sollen in der GSC, überwiegen Artikel- und Kategorieseiten die unnötiger Weise mit den parametern ?manufacturers_id= s
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Da gab es in einer Version mal einen Bug.
Der sollte aber mittlerweile behoben sein. Es dauert nur eine Weile, bis das bei Google wieder raus ist.

Anonymous · 20. Dezember 2018

Zitat von Anonymous: ↑

Jetzt bin ich doch etwas verwirrt.
Den products_qty Parameter habe ich heute aus der robots.txt entfernt nachdem der auch bei mir (neben anderen) indexiert ist.
War das jetzt OK oder habe ich mir damit zu 100% sicher keinen Gefallen getan?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Es gibt meines Erachtens keinerlei Grund den Parameter aus der robots.txt zu entfernen, weil es sowieso ein disallow ist. Die Seiten landen ja nicht wegen der robots.txt im Index, sondern weil sie irgendwo auftauchen. Entweder per Link oder über die Sitemap.

Wurde ja auch schon das Beispiel mit manufacturers angesprochen. Das tritt/trat vor allem bei Shops auf, die die Hersteller-Filter Box aktiviert hatten. Google fand den Link, ging ihm nach, indexierte die Seite und stellte dann fest "ich darf hier gar nicht sein".

Deswegen wäre ja mal ein Screenshot mit der Liste der URLs interessant. Dann könnte man schauen, welche Seiten genau betroffen sind und mal suchen woher Google die zieht. Dann kann man das mit der Disallow Liste der Robots.txt vergleichen. Entweder ist das Problem schon behoben (z.T.) und Google SC braucht einfach einige Zeit das zu verstehen oder man muss z.B. Einträge aus der Sitemap entfernen.

Wenn sich hier URLs auftun, die weiter rätselhaft/problematisch sind, dann kann man an der Stelle weitermachen.

Generell ist aber auch zu sagen, dass die Warnung an sich kein Drama ist.

Anonymous · 20. Dezember 2018

Danke für die Erklärung,
den products_qty Parameter hatte ich ja schon aus der robots.txt entfernt.

Ist das jetzt ein Problem? Muss der wieder zurück?

Anonymous · 20. Dezember 2018

Wenn Du eine Seite aus der robots.txt rausnimmst, erlaubst Du Google damit diese Seite wieder zu lesen, was vorher nicht möglich war.

Wenn Du jetzt für Google eine noindex-Botschaft auf Deiner Seite angebracht hast, dann wird Google das Signal verstehen und, früher oder später, die Seite aus dem Index nehmen. Danach kann der Zugriff in der robots.txt wieder gesperrt werden.

Ein „Noindex“ auf der Seite und gleichzeitig ein „Disallow“ in der robots.txt bringt uns in diesem Fall nicht weiter. Google kann das Noindex nicht lesen, weil die Seite ja durch das "Disallow" gesperrt ist.

Also, wenn die o.g. Warnung auftaucht: Seite aus der robots.txt nehmen und noch mal schauen ob der noindex.Tag wirklich auf der Seite gesetzt ist. Dann sollte es gelingen.

Weitere Möglichkeiten, die hier schon genannt wurden: Abwarten oder Seiten aus dem Index löschen lassen. Und, klar,
Orange Raven hat recht, diese Meldung ist nicht das große Drama.

Den noindex-Tag automatisch mit dem Eintrag in der robots.txt zu setzen, so wie jetzt in Version 3.11.2.0 in den „Statischen Seiten“ eingerichtet wurde, ist anscheinend problematisch. Eventuell sollte man das trennen.

Sitemap - Robots-Disallow - noindex

Anonymous · 20. Dezember 2018

OK danke, jetzt habe sogar ich die Geschichte begriffen (behaupte ich mal ganz optimistisch).
Also Noindex auf der Seite markiert und Dissalow aus der robots.txt rausgenommen

Interessant wäre natürlich wenn die betreffenden Einstellungen schon im Shop voreingestellt wären.

Anonymous · 20. Dezember 2018

Zitat von Anonymous: ↑

Wenn Du jetzt für Google eine noindex-Botschaft auf Deiner Seite angebracht hast, dann wird Google das Signal verstehen und, früher oder später, die Seite aus dem Index nehmen. Danach kann der Zugriff in der robots.txt wieder gesperrt werden.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Und wie machst Du das für Parameter, die Google von irgendwo zieht und anhängt?

Anonymous · 20. Dezember 2018

Zitat von Anonymous: ↑

Wenn Du eine Seite aus der robots.txt rausnimmst, erlaubst Du Google damit diese Seite wieder zu lesen, was vorher nicht möglich war.

Wenn Du jetzt für Google eine noindex-Botschaft auf Deiner Seite angebracht hast, dann wird Google das Signal verstehen und, früher oder später, die Seite aus dem Index nehmen. Danach kann der Zugriff in der robots.txt wieder gesperrt werden.

Ein „Noindex“ auf der Seite und gleichzeitig ein „Disallow“ in der robots.txt bringt uns in diesem Fall nicht weiter. Google kann das Noindex nicht lesen, weil die Seite ja durch das "Disallow" gesperrt ist.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Ich lerne gerne dazu: Wie kommst du darauf, dass Google eine Seite der Robots.txt die mit disallow gekennzeichnet ist überhaupt in den Index aufnimmt? Das ist aus meiner Sicht widersinnig und es macht keinen Unterschied ob die Seite als Disallow in der robots.txt steht oder nicht. Mit Disallow kommt die Seite meines Wissens nach nicht in den Index.

Anonymous · 20. Dezember 2018

Zitat von Orange Raven: ↑

Ich lerne gerne dazu: Wie kommst du darauf, dass Google eine Seite der Robots.txt die mit disallow gekennzeichnet ist überhaupt in den Index aufnimmt? Das ist aus meiner Sicht widersinnig und es macht keinen Unterschied ob die Seite als Disallow in der robots.txt steht oder nicht. Mit Disallow kommt die Seite meines Wissens nach nicht in den Index.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Disallow bedeutet ja nur das der Bot die Seite oder Bereiche nicht lesen soll, aber Indexierung ist möglich!
In Verbindung mit verschiedenen Parametern die z.B. Google sich da zusammen bastelt kann da schon mal was indexiert werden.

Zitat aus Seobility

Die Robots.txt ist eine Textdatei mit Anweisungen für die Crawler der Suchmaschinen. In ihr wird festgelegt, welche Bereiche einer Webseite von den Webcrawlern durchsucht werden dürfen. Diese werden allerdings nicht explizit durch die Robots.txt ausgesperrt. Vielmehr werden bestimmte Bereiche nicht zum Durchsuchen freigegeben.

In diesem Zusammenhang ist jedoch zu beachten, dass die Robots.txt keine Garantie für die Nicht-Indexierung von Webseiten und Unterseiten darstellt. Sie steuert lediglich das Crawling der Seiten einer Domain, jedoch nicht die Indexierung. Sollen Seiten nicht in den Index aufgenommen werden, muss die Anweisung <meta name="robots" content="noindex"> im Header einer Webseite untergebracht werden.

Anonymous · 20. Dezember 2018

Zitat von michael_matecki: ↑

Disallow bedeutet ja nur das der Bot die Seite oder Bereiche nicht lesen soll, aber Indexierung ist möglich!
In Verbindung mit verschiedenen Parametern die z.B. Google sich da zusammen bastelt kann da schon mal was indexiert werden.

Zitat aus Seobility

Die Robots.txt ist eine Textdatei mit Anweisungen für die Crawler der Suchmaschinen. In ihr wird festgelegt, welche Bereiche einer Webseite von den Webcrawlern durchsucht werden dürfen. Diese werden allerdings nicht explizit durch die Robots.txt ausgesperrt. Vielmehr werden bestimmte Bereiche nicht zum Durchsuchen freigegeben.

In diesem Zusammenhang ist jedoch zu beachten, dass die Robots.txt keine Garantie für die Nicht-Indexierung von Webseiten und Unterseiten darstellt. Sie steuert lediglich das Crawling der Seiten einer Domain, jedoch nicht die Indexierung. Sollen Seiten nicht in den Index aufgenommen werden, muss die Anweisung <meta name="robots" content="noindex"> im Header einer Webseite untergebracht werden.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Was eine Robots.txt ist weiß ich. Ich frage nochmal anders: Warum sollte das Entfernen eines Disallow Eintrags aus der Robots.txt dazu führen, dass die Seite aus dem Index entfernt wird bzw. seit wann soll Google Disallow Einträge in der Robots.txt als Anweisung zur Indexierung verstehen.

Das eine Indexierung trotz eines Disallows möglich ist klar. Deswegen gibts ja noch den No-Index Tag. Aber Google indexiert keine Disallow Einträge, was weiter oben ja als möglicher Grund für die Indexierung angeführt wurde. Das ist aus meiner Sicht unlogisch.

Anonymous · 20. Dezember 2018

Zitat von Orange Raven: ↑

Was eine Robots.txt ist weiß ich. Ich frage nochmal anders: Warum sollte das Entfernen eines Disallow Eintrags aus der Robots.txt dazu führen, dass die Seite aus dem Index entfernt wird bzw. seit wann soll Google Disallow Einträge in der Robots.txt als Anweisung zur Indexierung verstehen.

Das eine Indexierung trotz eines Disallows möglich ist klar. Deswegen gibts ja noch den No-Index Tag. Aber Google indexiert keine Disallow Einträge, was weiter oben ja als möglicher Grund für die Indexierung angeführt wurde. Das ist aus meiner Sicht unlogisch.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Weil der Google Bot Bereiche nicht lesen kann sucht er in der Domain. Bei mir z.B. die Herstellerseite ?manufacturers_id= und packt dann die &page= dazu.

Die Seite hat zwar einen noindex Tag aber steht auf follow! Also könnten die Artikel in allen kombinationen mit diesem Parametern indexiert werden obwohl blockiert.......

Aktuell am 17.12 durch Google gecrawlt z.b. diese Seite
https://www.sus-verbindungstechnik....gas-zaunklammergeraet.html?manufacturers_id=5
https://www.sus-verbindungstechnik.de/zubehoer/?manufacturers_id=1&page=18

Indexiert obwohl der Parameter ?manufacturers_id= und &page= in der robots.txt blockiert!

Anonymous · 20. Dezember 2018

Zitat von michael_matecki: ↑

Weil der Google Bot Bereiche nicht lesen kann sucht er in der Domain. Bei mir z.B. die Herstellerseite ?manufacturers_id= und packt dann die &page= dazu.

Die Seite hat zwar einen noindex Tag aber steht auf follow! Also könnten die Artikel in allen kombinationen mit diesem Parametern indexiert werden obwohl blockiert.......

Aktuell am 17.12 durch Google gecrawlt z.b. diese Seite
https://www.sus-verbindungstechnik....gas-zaunklammergeraet.html?manufacturers_id=5
https://www.sus-verbindungstechnik.de/zubehoer/?manufacturers_id=1&page=18

Indexiert obwohl der Parameter ?manufacturers_id= und &page= in der robots.txt blockiert!
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Ich glaube du verstehst mich nicht. Das ist mir schon klar, dass Seiten auch indexiert werden obwohl sie robots.txt Disallow haben.

Es wurde weiter vorne im Thread aber eine Kausalität angemerkt. Steht die Seite in der Robots.txt als disallow drin, dann wird sie u.U. indexiert. Entfernt man den Disallow Eintrag dort und lässt nur die No-Index Eintrag, wird sie nicht indexiert. Und diese Kausalität gibt es schlicht nicht. Google indexiert eine Seite nicht weil sie in der Robots.txt als Disallow steht, sondern obwohl. Die Gründe dafür sind dann andere wie z.B. Follow Links an anderer Stelle, Einträge in die Sitemap, ein Backlink und kein No-Index Tag usw.

Es gibt an der Stelle meines Erachtens nicht nur keine Kausalität zwischen Disallow Eintrag und ungewollter Indexierung, selbst eine Korrelation ist für mich auszuschließen. Eben weil der Robots Eintrag eher ein "Bitte nicht lesen" und kein "Diese Seite nicht indexieren" Befehl ist.

Anonymous · 20. Dezember 2018

Zitat von Orange Raven: ↑

Das eine Indexierung trotz eines Disallows möglich ist klar. Deswegen gibts ja noch den No-Index Tag. Aber Google indexiert keine Disallow Einträge, was weiter oben ja als möglicher Grund für die Indexierung angeführt wurde. Das ist aus meiner Sicht unlogisch.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Jetzt versuche ich es auch nochmal: Wegen des Disallow-Eintrags darf Google die Seite nicht crawlen, die die Noindex-Angabe enthält. Der Disallow-Eintrag selbst hat mit der Indexierung nichts zu tun. Aber er verhindert, dass Google die Noindex-Angabe lesen kann.

Der Zusammenhang ist also ganz einfach der, dass index/noindex völlig wirkungslos in Seiten sind, auf die der Zugriff via robots.txt blockiert ist.

Mit Sicherheit ist bei über 40.000 ungewollt indexierten Seiten in der Vergangenheit etwas anderes schief gelaufen. Aber jetzt geht es ja darum, die Seiten aus dem Index zu bekommen. Und das wird schwierig, wenn Google die Noindex-Angaben nicht lesen darf.

Anonymous · 20. Dezember 2018

Zitat von Orange Raven: ↑

Ich lerne gerne dazu: Wie kommst du darauf, dass Google eine Seite der Robots.txt die mit disallow gekennzeichnet ist überhaupt in den Index aufnimmt?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Nein, das wurde nie so gesagt.

Bitte noch einmal: Bei einem "Disallow" nimmt Google diese Seite nicht mehr in die Hand. Egal was da drinsteht und ob indexiert oder nicht. Zu ist zu.

Um Google dazu zu bewegen die Seite aus dem Index zu nehmen, muss Google sie wieder auslesen können, um den noindex-Befehl auszuführen. Dafür muss die "Tür" geöffnet werden. Deshalb für einige Zeit den Eintrag in der robots.txt händisch löschen, bis die Seite aus dem Index ist.

Wie kommt es zur indexierung trotz "Disallow"? Ich kann mir das nur so erklären, dass die robots.txt eine zeitlang ausgefallen ist. Vielleicht vorrübergend ein falscher Pfad, oder während eines Updates oder einer Neuinstallation. Vielleicht auch ein Syntax-Fehler? Kann man die robots.txt irgenwo auf Schlüssigkeit testen?

Anonymous · 20. Dezember 2018

Zitat von Anonymous: ↑

den products_qty Parameter hatte ich ja schon aus der robots.txt entfernt.
Ist das jetzt ein Problem? Muss der wieder zurück?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Ja.

Zitat von michael_matecki: ↑

Indexiert obwohl der Parameter ?manufacturers_id= und &page= in der robots.txt blockiert!
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Den Page Parameter nicht sperren, dann kriegst du Probleme mit mehrseitigen Kategorien und anderen ähnlichen Strukturen.

Zitat von Anonymous: ↑

Wie kommt es zur indexierung trotz "Disallow"?
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

https://www.sistrix.de/frag-sistrix...ots-txt-gesperrte-url-in-den-suchergebnissen/

Eine Seite muss nur ausreichend relevant verlinkt sein, dann hat man die URL im Index. Der Seiteninhalt ist ne andere Frage.

Anonymous · 20. Dezember 2018

Zitat von Anonymous: ↑

Um Google dazu zu bewegen die Seite aus dem Index zu nehmen, muss Googel sie wieder auslesen können, um den noindex-Befehl auszuführen. Dafür muss die "Tür" geöffnet werden. Deshalb für einige Zeit den Eintrag in der robots.txt händisch löschen, bis die Seite aus dem Index ist.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Ich wiederhole meine Frage:
Wie machst Du das bei Seiten, an die Google (willkürlich) irgendwelche Parameter hängt?