Indexiert, obwohl durch robots.txt-Datei blockiert

Thema wurde von Anonymous, 23. November 2018 erstellt.

  1. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    ... Barbara, ein Satz, der hier nur selten fällt. Ich weiß es nicht...
     
  2. Orange Raven

    Orange Raven Erfahrener Benutzer

    Registriert seit:
    3. April 2013
    Beiträge:
    359
    Danke erhalten:
    139
    Danke vergeben:
    50
    Hier war mein Hänger, jetzt weiß ich was oben gemeint war. Das hatte ich falsch verstanden/gelesen. Es ging nicht darum, dass der Disallow Eintrag die Indexierung verursacht und entfernt werden muss (so dachte ich meinte es der Autor), sondern dass Google die Seite einmal neu betritt um den No-Index Meta Tag zu lesen. Daran hatte ich tatsächlich gerade nicht gedacht, weil ich komplett erstaunt war, dass jemand behauptet der Disallow Eintrag verursacht eine Indexierung. :D .

    Logisch, dass man auf machen muss, damit der No-Index Tag gelesen wird, sonst holt sich Google die Seite (zumindest eine ganze Weile lang) aus dem Cache.
     
  3. Orange Raven

    Orange Raven Erfahrener Benutzer

    Registriert seit:
    3. April 2013
    Beiträge:
    359
    Danke erhalten:
    139
    Danke vergeben:
    50
    Für Disallow könnte man die Parameter ja in die Robots mit aufnehmen, allerdings ist die Frage, wie Google no-Index Meta bei den Parametern liest. Theoretisch müsste der Tag ja trotz Parameter im Head Bereich mit stehen und somit auch auf die Parameter bezogen werden. Müsste man mal testen.

    Ansonsten fällt mir als Krücke eben noch ein die ungewollten Parameter per 301-Redirect (Wilrdcard) auf die passende Seite weiterzuleiten. Das sollte zumindest das Ausgeben in den Serps komplett verhindern.
     
  4. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Das Problem ist, das man die Hauptseite "Artikelname.hmtl" ja durchaus im Index haben möchte, aber eine
    "Artikelname.html?hier_steht_irgend_etwas" nicht.
    Obwohl "?hier_steht_irgend_etwas" in der robots.txt steht, landet es als Anhang im Index.

    Ich denke, man müsste klären, warum / wodurch das passiert und dazu müsste man den betroffenen Shop wohl auseinander nehmen.
     
  5. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    646
    Danke erhalten:
    110
    Danke vergeben:
    69
    Ich hab den Parameter in der robots.txt nicht gesperrt. Ich drück auf ´s Knöpfchen > robots.txt erstellen und schwupps schon ist der Parameter in der robots.txt als Disallow: /*page=SN_* drinne?

    Bug?
     
  6. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Ok, wer heilt hat recht.

    Ich habe jetzt bei mir alles so eingestellt, wie oben beschrieben. Ich werde berichten, wenn ich etwas erreicht habe.
     
  7. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Hallo Wilken, das kann sicher ein Grund sein.

    Aber meine 'wish_list.php' ist z.B. auch betroffen. Die ist erst seit ein paar Wochen online. Das die schon eine solch unglaubliche Relevanz hat, mit unzähligen Verweisen, dass Google darauf aufmerksam wurde, möchte ich bezweifeln.

    Meiner Ansicht nach muss das andere Gründe haben.
     
  8. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    646
    Danke erhalten:
    110
    Danke vergeben:
    69
    #68 mmatecki, 20. Dezember 2018
    Zuletzt bearbeitet: 20. Dezember 2018
    Och da biste nicht der einzigste:
    index.php?manufacturers_id=16
    /info/widerrufsrecht-widerrufsformular.html
    /popup/versand-zahlungsbedingungen.html
    /password_double_opt.php
    /wish_list.php
    /login.php
    /info/allgemeine-geschaeftsbedingungen.html
    /info/Verpackungs--und-Batterieverordnung.html
    /info/privatsphaere-und-datenschutz.html
    /info/versand-zahlungsbedingungen.html
    /info/impressum.html
    /advanced_search.php
    /shopping_cart.php

    Alle Seiten wurden in der Zeit vom 09-17.12.2018 von Google angeblich indexiert obwohl durch robots.txt und noindex blockiert..........am 30.11. hatte ich Service-Pack v3.11.2.0 eingespielt! was ist da wieder los Gambio?


    Support-Ticket #100691738
     
  9. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    15. Juni 2018
    Beiträge:
    106
    Danke erhalten:
    1
    Danke vergeben:
    32
    #69 Anonymous, 20. Dezember 2018
    Zuletzt bearbeitet: 20. Dezember 2018
    Hallo

    Hallo,
    ich hatte das gleiche problem im GX2 2.4.0.1 und jetzt im GX3 3.11.2.0 auch!
    Ich habe robots.txt ein bischen geaendert, einfach am Ende diese Eintrage eingebaut
    und hat es fuktioniert...

    Disallow: /shop_content.php*coID=3889895
    Disallow: /popup_content.php*coID=3889895
    Disallow: /shop_content.php*coID=3889896
    Disallow: /popup_content.php*coID=3889896
    Disallow: /shop_content.php*coID=3889897
    Disallow: /popup_content.php*coID=3889897
    Disallow: /shop_content.php*coID=3889898
    Disallow: /popup_content.php*coID=3889898
    Disallow: /shop_content.php*coID=3889899
    Disallow: /popup_content.php*coID=3889899
    Disallow: */coID/2/
    Disallow: */coID/3/
    Disallow: */coID/4/
    Disallow: */coID/9/
    Disallow: */coID/3889891/
    Disallow: */coID/3889895/
    Disallow: */coID/3889896/
    Disallow: */coID/3889897/
    Disallow: */coID/3889898/
    Disallow: */coID/3889899/

    lg
    slavek
     
  10. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    #70 Charly, 23. Dezember 2018
    Zuletzt bearbeitet: 23. Dezember 2018
    Hallo,

    bei mir hat das Enfernen von Disallow: /*products_qty* und erneuter Prüfung durch Google Webmastertool nix gebracht. Die Einträge sind alle noch vorhanden.

    Die Liste der URLś passt hier nicht rein, also wie kann ich die zeigen?
     
  11. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Das bringt nur, dass Google Seiten mit dem Parameter crawlen darf und das dann auch im Index landet.
    Das erzeugt dann doppelten Content, weil es die Seite mit und ohne Parameter gibt.

    Aber, bis google etwas aus der Liste raus nimmt, kann es Wochen / Monate / Jahre dauern.
    Ich habe Artikel, die es schon seit 2 oder 3 Jahren nicht mehr gibt (Artikel sind gelöscht), da steht auch nichts mehr in der Sitemap. Trotzdem holt google die URLs immer wieder vor und schreibt das als 404-nicht gefunden in die Liste.
     
  12. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    Das ist ja bei mir das Problem, das hatte ich vorher schon im Index obwohl per Disallow geperrt.
     
  13. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Und warum sollte es aus dem Index kommen, wenn Du das jetzt erlaubst?

    Man müsster versuchen herauszufinden, warum das im Index gelandet ist. Also woher google den Link mit den Parametern nimmt.
    Wenn es z.B. irgendwo im Netz Links zu Deiner Seite mit diesen Parametern gibt, wird Google diesen Links immer wieder folgen. Dann bekommst du das nie aus dem Index.
     
  14. Charly

    Charly Erfahrener Benutzer

    Registriert seit:
    27. Februar 2013
    Beiträge:
    87
    Danke erhalten:
    1
    Danke vergeben:
    1
    hast die Erklärung hier nicht gelesen, es wird ausführlich begründet warum. Jetzt habe ich es aber wieder rein gemacht, da es nix gebracht hat. Diese Links sind meiner Recherche nach nirgenwo im Netz verlinkt, nur bei Gurgel.
     
  15. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    Doch, habe ich.
    Ich habe aber auch schon mehrfach geschrieben:
    Es gibt statische Seiten, wie z.B. "neue Artikel", da kann das funktionieren, wenn ein "noindex" gesetzt wird.
    Aber eine Seite, an die google einfach Parameter anhängt, ist nicht statisch. da kann man kein noindex setzten
    Das würde nur auf der Hauptseite gehen, die Du aber sicher weiter im Index haben möchtest.
    Von daher nützt das nichts, den Parameter aus der robots.txt zu löschen.
    Das bewirkt genau das Gegenteil von dem, was du haben möchtest.
     
  16. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    646
    Danke erhalten:
    110
    Danke vergeben:
    69
    Kannst nur in der alten Google SC unter CRAWLING > URL-Parameter, Google erstmal anweisen welche URLs mit diesem Parameter soll der Googlebot nicht crawlen soll!
     
  17. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    #77 Anonymous, 26. Dezember 2018
    Zuletzt bearbeitet: 26. Dezember 2018
    Seit 23.12.2018 haben nun 9 von den 10 beanstandeten Seiten keine Warnmeldung mehr. Ein Test mit 'site:URL' hat ergeben, dass die Seiten auch aus dem Index genommen wurden.

    Also hat diese Methode anscheinend funktioniert. Ich habe jetzt einen neue robots.txt generiert und hoffe, dass das Problem nun langfristig gelöst wurde.

    Die letzte verbleibende Seite
    ... /popup/Versand-und-Zahlungsbedingungen.html
    ist etwas komplizierter. Im Moment habe ich noch kein 'noindex' auf diese Seite bekommen.
     
  18. mmatecki

    mmatecki Erfahrener Benutzer

    Registriert seit:
    24. Juni 2018
    Beiträge:
    646
    Danke erhalten:
    110
    Danke vergeben:
    69

    Da ja ab Version 3.11. der noindex Metatag vohanden sein soll habe ich mal eine generelle Frage zu SEO statische Seiten:

    Ich habe folgende Grundeinstellung im Shop Version 3.11.2


    Bild1.jpg

    Google SC sagt aber folgendes, im Index obwohl durch robots.txt blockiert wie bereits im ersten Thread


    /info/Widerrufsrecht-und-Muster-Widerrufsformular.html
    /login.php
    /info/privatsphaere-und-datenschutz.html
    /info/allgemeine-geschaeftsbedingungen.html
    /popup/Versand-und-Zahlungsbedingungen.html
    /advanced_search.php
    /info/impressum.html
    /password_double_opt.php
    /shopping_cart.php
    /wish_list.php

    Diese Seiden wurden indexiert obwohl der Robots Schalter dafür eingeschaltet.

    Durch noindex ausgeschlossenen Seiten 19, da drunter verschiedene Kategorien mit dem Parameteranhang ?page=
    sowie specials.php mit Parameteranhang ?page=6
    Bild2.jpg

    Die specials.php ist unter SEO statische Seiten nicht eingeschaltet und wurde trotzdem wegen noindex Metatag für die Googleindexierung ausgeschlossen!

    Habt Ihr da die Drähte am Robots Ein-Ausschalter vertauscht und oder warum werden Kategorien teilweise nicht mehr indexiert?
     
  19. andreas_solkner

    andreas_solkner Aktives Mitglied

    Registriert seit:
    23. Dezember 2018
    Beiträge:
    29
    Danke erhalten:
    0
    Danke vergeben:
    4
    Gibt es für das Problem nun eine Lösung?
    Ich bekomme seit heute die selbe Google Warnung für die selben Einträge wie Michael

    /shopping_cart.php
    /info/impressum.html
    /info/allgemeine-geschaeftsbedingungen.html
    /login.php
    /info/Widerrufsrecht-und-Muster-Widerrufsformular.html
    /info/Versand-und-Zahlungsbedingungen.html
    /advanced_search.php
    /password_double_opt.php
    /wish_list.php

    Beste Grüße
     
  20. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    20. Juni 2018
    Beiträge:
    316
    Danke erhalten:
    14
    Danke vergeben:
    132
    Bitte siehe weiter oben....

    Bei mir hat das so funktioniert. Google hat verhältnismäßig schnell reagiert und die Dateien aus dem Index genommen.