robots.txt und Disallow: /*XTCsid*

Thema wurde von Anonymous, 5. August 2014 erstellt.

  1. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    2. Dezember 2012
    Beiträge:
    598
    Danke erhalten:
    69
    Danke vergeben:
    243
    Ich habe eine Verständnis Problem. Wir nutzen seit kurzem die Sistrix Toolbox. Jetzt haben wir die Information von Sistrix, dass deren Crawler, wie auch der Google Bot, die Mehrzahl unserer Seiten nicht crawlen kann. Der Grund ist der oben genannte Disallow Eintrag in der robots.txt.

    Kann ich diesen Eintrag ohne negative Auswirkungen löschen?
    Woher kommen die rot markierten Zeichen nach der eigentlichen Url?
    (Link nur für registrierte Nutzer sichtbar.)?XTCsid=2not3hmgtoap4fl7u2qhgkg0r6

    Die Seite ist also sowohl unter
    (Link nur für registrierte Nutzer sichtbar.) , als auch unter
    (Link nur für registrierte Nutzer sichtbar.) erreichbar
     
  2. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    hallo,

    das rote ist die Session-ID, die tut nichts.

    Die Einträge in der robots.txt sollen verhindern, das z.B. Abmahner per Google Deine Texte prüfen können, oder das Checkout-Seiten per Google aufgerufen werden können.
    Da muss man genau schaun, was man da raus nimmt und ob das wirklich von Nutzen ist.
     
  3. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    10. August 2012
    Beiträge:
    1.554
    Danke erhalten:
    455
    Danke vergeben:
    96
    Normale Suchmaschinen wie Google crawlen die Seite normalerweise ohne Session, wenn du das unter Konfiguration -> Suchmaschinen eingestellt hast. Der Sinn dahinter ist, dass man so verhindert dass Seiten mit der Session ID von den Suchmaschinen indexiert werden.
     
  4. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    2. Dezember 2012
    Beiträge:
    598
    Danke erhalten:
    69
    Danke vergeben:
    243
    Bei Spider Sessions vermeiden? ist Ja aktiviert.
     
  5. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    10. August 2012
    Beiträge:
    1.554
    Danke erhalten:
    455
    Danke vergeben:
    96
    Dann sollte zumindest der Google Bot keine Probleme haben. Der darf dann crawlen ohne dass ihm dieser ?XTCsid Anhang zugewiesen wird.

    Falls die Meldung von Sistrix aus kam dass Google das nicht crawlen kann ignorier das einfach. Du kannst in den Google Webmaster Tools selber testen, welche Seiten Google crawlen kann und welche nicht. Das findest dort du unter Crawling -> robots.txt Tester. Falls was blockiert wird, wird die Zeile hervorgehoben in der die Regel steht.

    Ob der Sistrix Bot damit Probleme hat, kann ich nicht sagen. Der ist bei uns separat blockiert ;)
     
  6. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    2. Dezember 2012
    Beiträge:
    598
    Danke erhalten:
    69
    Danke vergeben:
    243
    Der Google Bot hat damit keine Probleme, wohl aber der von Sistrix.
     
  7. MP Solution

    MP Solution Erfahrener Benutzer

    Registriert seit:
    2. Oktober 2013
    Beiträge:
    2.945
    Danke erhalten:
    456
    Danke vergeben:
    93
    Eine Alternative wäre dieser Part hier :
    User-agent: *
    Disallow: Sitemap: http://www.deine Domain.de/sitemap.xml

    Somit entscheidest Du was genommen wird von dem Bot.

    LG
    Jörg
     
  8. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    10. August 2012
    Beiträge:
    1.554
    Danke erhalten:
    455
    Danke vergeben:
    96
    Soll der Code für alle User-Agents die Sitemap verbieten? Abgesehen davon, dass der Code dafür falsch ist, ist das doch eine SEO-technisch fragwürdige Lösung. Außerdem ziemlicher Overkill wenn man einfach nur ?XTCsid Links auch crawlen lassen will.

    @Tosula: Wenn du den Eintrag Disallow: /*XTCsid* rausnimmst, kann es halt passieren dass die Seiten auch so von diversen Bots gecrawlt und gespeichert werden. Wenn das bei Sistrix wirklich so gar nicht funktioniert entferne die Zeile mit XTCsid und nimm zumindest folgende beiden Blöcke am Anfang der Datei mit auf:
    Code:
    User-agent: Googlebot
    Disallow: /*XTCsid*
    
    User-agent: bingbot
    Disallow: /*XTCsid*
    Damit verbietest du speziell Google und Bing die XTCsid Links zu crawlen.
     
  9. MP Solution

    MP Solution Erfahrener Benutzer

    Registriert seit:
    2. Oktober 2013
    Beiträge:
    2.945
    Danke erhalten:
    456
    Danke vergeben:
    93
    Es wird hier lediglich auf die Sitemap verwiesen. es sind viele Seitenbetreiber, die mit diesem Code im robots.txt arbeiten. Daher ist deine Aussage nicht ganz korrekt.

    LG
    Jörg
     
  10. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    10. August 2012
    Beiträge:
    1.554
    Danke erhalten:
    455
    Danke vergeben:
    96
    Die Sitemap für Gambio-Shops wird in der robots.txt so angegeben:

    Code:
    Sitemap: http://www.domain.de/sitemap1.xml
    Nicht wie von dir geschrieben mit "Disallow:" .... denn das bedeutet verbieten. Inwiefern die Aufnahme der Sitemap in die robots.txt nun bei dem Problem hilft, dass in der Standardversion der Datei via Disallow: /*XTCsid* Links mit Session IDs vom Crawling ausgeschlossen werden erschließt sich mir auch nicht so ganz.
     
  11. MP Solution

    MP Solution Erfahrener Benutzer

    Registriert seit:
    2. Oktober 2013
    Beiträge:
    2.945
    Danke erhalten:
    456
    Danke vergeben:
    93
    Die Variante wurde mal vor langer Zeit so eingebaut. Soweit ich Informiert bin, wird der robots.txt hier nicht übergangen, sondern er nimmt den Weg zur Sitemap. In der Sitemap ist im eigendlichen Sinne der Part der Wichtig ist. Somit wird der Account oder alles andere im Shop nicht mit ausgelesen. Sofern es ein anständiger Bot ist:D

    LG
    Jörg
     
  12. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    10. August 2012
    Beiträge:
    1.554
    Danke erhalten:
    455
    Danke vergeben:
    96
    Du solltest deine Infos mal überprüfen.

    "Disallow: Sitemap: (Link nur für registrierte Nutzer sichtbar.) Domain.de/sitemap.xml" ist schlicht falsche Syntax (prüfbar z.B. mit (Link nur für registrierte Nutzer sichtbar.)). Bei dir ist übrigens weder auf Mega Pumping noch auf Lanakey der Sitemap Eintrag in der robots.txt.

    Bots crawlen auch Seiten, die sie nicht über die Sitemap gefüttert bekommen. Die Sitemap kann man in etwa mit einem Stadtplan beim Autofahren vergleichen. Wenn du weißt, wo's langgeht brauchst du keinen. Die robots.txt dagegen kann man mit Verkehrsschildern vergleichen. Dort werden die Regeln gezeigt, an die man sich halten sollte.
     
  13. MP Solution

    MP Solution Erfahrener Benutzer

    Registriert seit:
    2. Oktober 2013
    Beiträge:
    2.945
    Danke erhalten:
    456
    Danke vergeben:
    93
    Ich habe es anders gelöst.

    Und Danke für Richtigstellung.
    LG
    Jörg
     
  14. Anonymous

    Anonymous Erfahrener Benutzer

    Registriert seit:
    2. Dezember 2012
    Beiträge:
    598
    Danke erhalten:
    69
    Danke vergeben:
    243
    Sistrix kann die Url Struktur, welche vom Gambio System ausgegeben wird, nicht handeln. Wir haben daher die Toolbox gekündigt. Schade, denn das Tool bez. die einzelnen Module sind sehr gut. Der Support ist bisher das Beste in Bezug auf Schnelligkeit und Professionalität, was ich in den letzen Jahren im Bereich SEO erlebt habe.
     
  15. alfredtheiss

    alfredtheiss Mitglied

    Registriert seit:
    19. Februar 2014
    Beiträge:
    15
    Danke erhalten:
    1
    Danke vergeben:
    5
    Hallo habe folgendes Problem entdeckt mehrere URL können von Google nicht indexiert werden laut Crawling Tester da heißt es blockiert.
    Fehler Disallow: /*XTCsid*
    Was soll das sein?
    Es sind nur Bestimmte Produkte betroffen andere können indexiert werden.
    Wer weiß hier bescheid?
    Vielen Dank!
     
  16. barbara

    barbara G-WARD 2014-2020

    Registriert seit:
    14. August 2011
    Beiträge:
    35.352
    Danke erhalten:
    11.198
    Danke vergeben:
    1.601
    XTCsid
    dahinter kommt normal eine lange Nummer und ist die Session-ID von Dir oder Deinen Kunden.