v3.10.x Disallow Einträge in robots.txt ohne funktion?

Thema wurde von mmatecki, 13. Juli 2018 erstellt.

  1. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    #1 mmatecki, 13. Juli 2018
    Zuletzt bearbeitet: 13. Juli 2018
    Seit dem Update in unserem Shop von Version 3.6 auf 3.7 im Oktober 2017 und alle Nachfolgenden Service Packs und Versionsupdates steigt die Anzahl der Fehler im Crawling und der blockierten Seiten stetig an.

    Indexiert, obwohl durch robots.txt-Datei blockiert, shopping_cart.php, password_double_opt.php, impressum.html und soweiter, erstmals erkannt am 27.12.2017, gab es hier ein Problem mit Service Pack 3.7.3.0?

    Bei folgenden Einträgen in der robots.txt steigen die Blockierungen und Fehlermeldungen in der Search Konsaole rapide an:
    Disallow: /*XTCsid*
    Disallow: /*products_qty*

    Diese Seiten werden zwar nicht gecrawlt aber sind bei Google indexiert! Da die Seiten indexiert sind will Google lesen darf es aber nicht und schmeist Fehler raus!

    Mittlerweile sind wir seit ein paar Tagen in der Shopversion 3.10 und die Anzahl der indexierten Seite als auch die blockierten Seiten explodieren förmlich in dem Googel Indexierungsstatus.

    Ticket am 11.07 eröffnet, aber bisher keine Rückmeldung, jemand die gleichen Erfahrungen gemacht?
     
  2. Wilken (Gambio)

    Wilken (Gambio) Erfahrener Benutzer

    Registriert seit:
    7. November 2012
    Beiträge:
    18.737
    Danke erhalten:
    7.309
    Danke vergeben:
    2.208
    Nichts bekannt.

    Es ist korrekt, dass Seiten mit den Parametern nicht gecrawled gehören. Wenn Google also klagt die nicht lesen zu können, dann ist das exakt nach Plan.

    Die Seiten gehören nicht in den Index. Wenn die jetzt angemault werden, läuft etwas in die richtige Richtung.

    Das ist ziemlich sicher gut.
     
  3. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    #3 mmatecki, 13. Juli 2018
    Zuletzt bearbeitet: 13. Juli 2018
    Hallo Wilken, das Ganze geht aber bereits seit gut einem Jahr so, neu ist seit einigen Wochen das bei Disallow: /*products_qty* die manufactor Seiten indexiert wurden und hier ein zuwachs von mittlerweile mehr als 1000 Einträge an indexierten und blockierten Seiten im Indexstatus innerhalb einer Woche habe.

    Die Verweise zum indexieren oder crawlen kommen dabei anscheinend aus dem Shop selber, von den Produktseiten!?

    Wie sieht das hier mit doppeltem Content aus wenn die manufactor Seiten indexiert sind? kann ja nicht weil google die manufactor Seiten zwar indexiert aber nicht lesen kann oder wie sieht Gambio das?
     
  4. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Gerade weil Du von DC redest:
    vor gar nicht allzu langer Zeit, hatte ich z.B: das Problem, dass Google alle Artikel mit allen Hersteller-Parametern gelistet hat.
    Ich hatte jeden Artikel so um die 15x im Index und Google hat daraus irgend einen in der Suche angezeigt.
    Dann habe ich die Parameter blockiert.
    Google hat erstmal gemeckert, dass die Seiten blockiert sind, gleichzeitig sind die Meldungen zum DC aber auch verschwunden.

    (Link nur für registrierte Nutzer sichtbar.)

    Dein Problem ist eigentlich nicht, dass Google die Seiten nicht lesen kann, sondern dass er sie lesen will, weil er sie kennt.
    Die seiten bei Google löschen lassen, kann helfen, ist bei so vielen Seiten aber eher mühsam.
     
  5. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    Hallo Barbara, ja. nur sind das die Seiten nach Hersteller indexiert worden. Beispiel Makita und alle Produkte die mit Makita zutun haben.

    Die Seiten sind ja eigendlich durch robots.txt blockiert aber irgendwie hängt das mit den Updates ab Version 3.7 zusammen ab da wurden erstmals Seiten bei mir blockiert nur jetzt nimmt das überhand.

    Einfach auf noindex setzten wäre eine möglichkeit, dann wird zwar nicht indexiert und mein ranking geht flöten aber google freut sich und kann endlich lesen:)
     
  6. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    19. Juni 2012
    Beiträge:
    4.831
    Danke erhalten:
    1.122
    Danke vergeben:
    947
    Das Problem kenne ich auch. Für Gambio ist das aber nur Theorie die in der Praxis nicht vorkommt.
     
  7. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    tja, nur sieht es in der Paxis tatsächlich anders aus. Ich habe 2 Shops beide immer zeitgleich upgedatet. Der 2 Shop fing ganz gemächlich Anfang Dez. 2017 an Seiten zu indexieren und als blockiert zumelden. Das stieg bis zum 13.05.2018 bis auf 160 Seite aber dann gings da auch los vom 13.05 bis heute 1300 Seiten steil ansteigend.
    Da ausschließlich nur die Manufactor Seiten trotz Disallow: /*XTCsid*
     
  8. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    Das schlimme dabei ist, wir haben im Shop zur zeit nur 1298 Seiten eingereicht und über die Sitemap indexiert. Seit dem wir im Juni 2017 die Version 3.5 installiert haben sind ca. 4000 Seiten indexiert und blockierte Seiten aktuell ca. 9000. Außerdem seit einem Jahr sehr starke Schwankungen im Ranking bei Google. Mal sind wir mit unseren Keywords sichtbar und nächsten Tag schon wieder ganz raus!
    Darüber bin ich sehr angespannt!
     
  9. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Schau mal hier:
    (Link nur für registrierte Nutzer sichtbar.)

    Danach bringt ein "noindex" in der robots ganz genau nichts bei Google.

    Ein noindex kommt normalerweise in die Meta-Daten in den Heat.
    Da aber eigentlich nur Parameter blockiert werden, durch die eine Seite mehrfach aufgerufen werden kann, kannst Du keinen Meta-Tag dafür setzten (denke ich zumindest :))
     
  10. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    19. Juni 2012
    Beiträge:
    4.831
    Danke erhalten:
    1.122
    Danke vergeben:
    947
    Ich hole nochmal weiter aus Michael: Aus meiner Sicht und auch gemäß meinen professionellen SEO-Quellen und gemäß der Empfehlung von offiziellen Quellen und Google selbst (und das widerspricht der Sichtweise von Gambio diametral) ist das Problem der Canonical Tag bzw. die Art und Weise wie Gambio das implementiert hat: Canonical heißt für Google: Dies ist die Hauptseite, die muss indexiert werden. Also wenn

    (Link nur für registrierte Nutzer sichtbar.)
    (Link nur für registrierte Nutzer sichtbar.)
    (Link nur für registrierte Nutzer sichtbar.)
    (Link nur für registrierte Nutzer sichtbar.)
    (Link nur für registrierte Nutzer sichtbar.)
    (Link nur für registrierte Nutzer sichtbar.)

    alle die selbe Seite anzeigen, dann wäre es sinnvoll, auf allen Seiten den canonical tag auf (Link nur für registrierte Nutzer sichtbar.) zu setzen. Das ist die einzige Seite, die Google in den Index aufnehmen soll, alle anderen sind Duplikate (= Double Content).

    Gambio macht das anders: JEDE Seite die du aufrust wird als canonical Seite deklariert, auch wenn sie gar keine ist. Und auch wenn die Seite gar nicht existiert. Die doppelten/unerwünschten werden dann aber von der Indexierung durch Google durch die robots.txt ausgeschlossen, also in obigem Beispiel die unteren 5 URLs.

    Ergebnis: Der Google Bot besucht die Seiten und sieht: Aha!! Die sind total wichtig! Das sind die Hauptseiten, mit einzigartigem Content, die in den Google Index sollen. Aber: Er DARF nicht, weil die robots.txt das Crawlen behindert. Dann kann sowas kommen, dass Seiten im Index sind, die da nicht rein sollen, und dazu noch ohne Inhalt.

    Beispiel auf deiner Seite: Auf der AGB-Seite steht:

    <meta name="robots" content="index,follow" /> <link rel="canonical" href="(Link nur für registrierte Nutzer sichtbar.)" />

    Also, lieber Bot, bitte auf jeden Fall indexieren! Dies ist auch die Haupt-URL. Aber bitte nicht den Inhalt auslesen.

    Das Problem dürfte seit der Einführung der canonical Tags bestehen. Soweit ich weiß seit Einführung von GX 3.0 ?
     
  11. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    19. Juni 2012
    Beiträge:
    4.831
    Danke erhalten:
    1.122
    Danke vergeben:
    947
    Wenn das alles unbedingt so bleiben muss, dann wäre zumindest als Feature sinnvoll, dass man für jede statische Seite auch <meta name="robots" content="index,follow" /> auf "noindex" umstellen kann.
     
  12. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    Hallo L&B vielen Dank für deine Info.

    Das kann ich so nachvollziehen und bestätigen
     
  13. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    Jupp ich weis, damit die blockierten Seiten bei Google verschwinden muss Google die lesen Können.
     
  14. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    Aber mal so am Rande das Problem haben doch nicht nur wir beide alleine oder?
     
  15. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    19. Juni 2012
    Beiträge:
    4.831
    Danke erhalten:
    1.122
    Danke vergeben:
    947
    Sicherlich nicht. @kiamh und @Teefax haben es offensichtlich auch schon festgestellt.
     
  16. Ist bei uns genau gleich, einmal so, dann wieder anders. Sehr instabil das ganze, drückt spürbar am Umsatz.
    Wir werden uns diesen Winter überlegen ob wir mit Gambio weiter machen werden.
     
  17. #17 Teefax, 18. Juli 2018
    Zuletzt von einem Moderator bearbeitet: 18. Juli 2018
    Was mir bei diesem Thema auffällt ist die Tatsache dass sich Gambio irgendwie aus diesem Thema raushält. Entweder liegt das an der Unfähigkeit einer professionellen SEO Verbesserung od. die Software ist diesbezüglich komplett unübersichtlich geskryptet, so dass nicht mal mehr die Gambioleute eine Übersicht haben. Ich tippe auf letzteres. Ist auch kein Wunder wenn praktisch im Monatstakt ein Update rauskommt um die Fehler des letzten Updates zu korrigieren. Unter Professionalität verstehe ich was anderes! Diese Kritik habe ich schon an anderer Stelle angebracht. Irgendwie fühlen sich aber gewisse Gambioleute angegriffen bzw. können keine Kritik ertragen.
     
  18. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Gambio liest im Forum Viel, aber nciht alles.
    Wenn Du eine Antwort von Gambio möchtest, musst Du Dich an Gambio direkt wenden (Ticket).

    Wenn ich mir mal so ansehe, wie oft Micorsoft sein Windows updatet, nur um Fehler zu korrigieren und ohne neue Funktionen bereit zu stellen - dann sind die ja so etwas von unfähig und unprofessionell.....
    Bei so einem Mega - Unternehmen kann man doch wirklich erwarten, dass die alles 1000fach testen und in der Lage sind ein 100% Perfekt funktionierendes Produkt zu liefern, ohne ständig Updates zur Fehlerbeseitigung raus bringen zu müssen....

    Nachtrag:
    Gambio (Wilken) hat übrigens gesetern auf so ein Thema geantwortet. Nur da mehrere dieser Themen im Umlauf sind, eben nicht hier sondern an einer anderen Stelle.
     
  19. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    639
    Danke erhalten:
    109
    Danke vergeben:
    69
    @barbara das ganze Thema ist ja nicht neu, es wird auch viel getan von Gambio, ohne Zweifel. Nur gerade bei diesem Thema, Seiten Indexierung durch Google obwohl durch disalow in robots gesperrt und die meiner Meinung nach stetig steigende Anzahl an blockierten Seiten weil Google die manufactor Seiten lesen will aber nicht darf, da habe ich das Gefühl ich steh irgendwie im Regen.

    Ich will doch nur diese blockierten Seiten loswerden.........

    Das ja so als wenn du mit deinem Auto in die Werkstatt fährts und bemängelst das die Kiste nach rechts zieht und das Lenkrad schief steht und die Werkstatt dir antwortet das Lenkrad können wir gerade setzten aber die Kiste wird weiter nach rechts ziehen!
     
  20. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Die wirst du so lange haben, wie google die im Index behält.
    Genau das ist das Problem bei dir.
    Google hat die Seiten noch im Index und will die immer wieder Crawlen -was es nicht soll.
    Und darüber meckert Google.
    Das wird aber so bleiben, solange die falschen Seiten im Index bei google sind.

    In meiner Sitemap stehen 1400 Seiten und 2200 Bilder
    Trotzdem hatte google bis Ende 2017 fast 10.000 Seiten im Index.
    Also etliche Seiten mit Parametern, die da nicht hin sollten.
    (Ich vermute) mit dem Update auf 3.8 und der neue Sitemap ging das dann bergab. erst fast 4 Wochen nur etwas und dann ging es steil nach unten.
    Unbenannt.JPG

    Mit dem sinken der Indexierten Seiten sind auch die blockierten Seiten gesunken.
    Jetzt ist das im Index, was da rein soll.

    Wenn das bei dir so viel ist, was wegen der Parameter blockiert wird, würde ich mal einen (den häufigsten)
    als URL-Parameter anlegen und schauen, ob das hilft.