robots.txt und Disallow: /XTCsid

Anonymous · 5. August 2014

Ich habe eine Verständnis Problem. Wir nutzen seit kurzem die Sistrix Toolbox. Jetzt haben wir die Information von Sistrix, dass deren Crawler, wie auch der Google Bot, die Mehrzahl unserer Seiten nicht crawlen kann. Der Grund ist der oben genannte Disallow Eintrag in der robots.txt.

Kann ich diesen Eintrag ohne negative Auswirkungen löschen?
Woher kommen die rot markierten Zeichen nach der eigentlichen Url?
(Link nur für registrierte Nutzer sichtbar.)?XTCsid=2not3hmgtoap4fl7u2qhgkg0r6

Die Seite ist also sowohl unter
(Link nur für registrierte Nutzer sichtbar.) , als auch unter
(Link nur für registrierte Nutzer sichtbar.) erreichbar

Anonymous · 5. August 2014

hallo,

das rote ist die Session-ID, die tut nichts.

Die Einträge in der robots.txt sollen verhindern, das z.B. Abmahner per Google Deine Texte prüfen können, oder das Checkout-Seiten per Google aufgerufen werden können.
Da muss man genau schaun, was man da raus nimmt und ob das wirklich von Nutzen ist.

Anonymous · 6. August 2014

Normale Suchmaschinen wie Google crawlen die Seite normalerweise ohne Session, wenn du das unter Konfiguration -> Suchmaschinen eingestellt hast. Der Sinn dahinter ist, dass man so verhindert dass Seiten mit der Session ID von den Suchmaschinen indexiert werden.

Anonymous · 6. August 2014

Bei Spider Sessions vermeiden? ist Ja aktiviert.

Anonymous · 7. August 2014

Dann sollte zumindest der Google Bot keine Probleme haben. Der darf dann crawlen ohne dass ihm dieser ?XTCsid Anhang zugewiesen wird.

Falls die Meldung von Sistrix aus kam dass Google das nicht crawlen kann ignorier das einfach. Du kannst in den Google Webmaster Tools selber testen, welche Seiten Google crawlen kann und welche nicht. Das findest dort du unter Crawling -> robots.txt Tester. Falls was blockiert wird, wird die Zeile hervorgehoben in der die Regel steht.

Ob der Sistrix Bot damit Probleme hat, kann ich nicht sagen. Der ist bei uns separat blockiert

Anonymous · 8. August 2014

Der Google Bot hat damit keine Probleme, wohl aber der von Sistrix.

Anonymous · 8. August 2014

Eine Alternative wäre dieser Part hier :
User-agent: *
Disallow: Sitemap: http://www.deine Domain.de/sitemap.xml

Somit entscheidest Du was genommen wird von dem Bot.

LG
Jörg

Anonymous · 8. August 2014

Zitat von MP Solution: ↑

Eine Alternative wäre dieser Part hier :
User-agent: *
Disallow: Sitemap: (Link nur für registrierte Nutzer sichtbar.)

Somit entscheidest Du was genommen wird von dem Bot.
Klicke in dieses Feld, um es in vollständiger Größe anzuzeigen.

Soll der Code für alle User-Agents die Sitemap verbieten? Abgesehen davon, dass der Code dafür falsch ist, ist das doch eine SEO-technisch fragwürdige Lösung. Außerdem ziemlicher Overkill wenn man einfach nur ?XTCsid Links auch crawlen lassen will.

@Tosula: Wenn du den Eintrag Disallow: /*XTCsid* rausnimmst, kann es halt passieren dass die Seiten auch so von diversen Bots gecrawlt und gespeichert werden. Wenn das bei Sistrix wirklich so gar nicht funktioniert entferne die Zeile mit XTCsid und nimm zumindest folgende beiden Blöcke am Anfang der Datei mit auf:
Code:
User-agent: Googlebot
Disallow: /*XTCsid*

User-agent: bingbot
Disallow: /*XTCsid*
Damit verbietest du speziell Google und Bing die XTCsid Links zu crawlen.

Anonymous · 8. August 2014

Es wird hier lediglich auf die Sitemap verwiesen. es sind viele Seitenbetreiber, die mit diesem Code im robots.txt arbeiten. Daher ist deine Aussage nicht ganz korrekt.

LG
Jörg

Anonymous · 8. August 2014

Die Sitemap für Gambio-Shops wird in der robots.txt so angegeben:
Code:
Sitemap: http://www.domain.de/sitemap1.xml
Nicht wie von dir geschrieben mit "Disallow:" .... denn das bedeutet verbieten. Inwiefern die Aufnahme der Sitemap in die robots.txt nun bei dem Problem hilft, dass in der Standardversion der Datei via Disallow: /*XTCsid* Links mit Session IDs vom Crawling ausgeschlossen werden erschließt sich mir auch nicht so ganz.

Anonymous · 8. August 2014

Die Variante wurde mal vor langer Zeit so eingebaut. Soweit ich Informiert bin, wird der robots.txt hier nicht übergangen, sondern er nimmt den Weg zur Sitemap. In der Sitemap ist im eigendlichen Sinne der Part der Wichtig ist. Somit wird der Account oder alles andere im Shop nicht mit ausgelesen. Sofern es ein anständiger Bot ist

LG
Jörg

Anonymous · 8. August 2014

Du solltest deine Infos mal überprüfen.

"Disallow: Sitemap: (Link nur für registrierte Nutzer sichtbar.) Domain.de/sitemap.xml" ist schlicht falsche Syntax (prüfbar z.B. mit (Link nur für registrierte Nutzer sichtbar.)). Bei dir ist übrigens weder auf Mega Pumping noch auf Lanakey der Sitemap Eintrag in der robots.txt.

Bots crawlen auch Seiten, die sie nicht über die Sitemap gefüttert bekommen. Die Sitemap kann man in etwa mit einem Stadtplan beim Autofahren vergleichen. Wenn du weißt, wo's langgeht brauchst du keinen. Die robots.txt dagegen kann man mit Verkehrsschildern vergleichen. Dort werden die Regeln gezeigt, an die man sich halten sollte.

Anonymous · 8. August 2014

Ich habe es anders gelöst.

Und Danke für Richtigstellung.
LG
Jörg

Anonymous · 13. August 2014

Sistrix kann die Url Struktur, welche vom Gambio System ausgegeben wird, nicht handeln. Wir haben daher die Toolbox gekündigt. Schade, denn das Tool bez. die einzelnen Module sind sehr gut. Der Support ist bisher das Beste in Bezug auf Schnelligkeit und Professionalität, was ich in den letzen Jahren im Bereich SEO erlebt habe.

Anonymous · 19. November 2015

Hallo habe folgendes Problem entdeckt mehrere URL können von Google nicht indexiert werden laut Crawling Tester da heißt es blockiert.
Fehler Disallow: /*XTCsid*
Was soll das sein?
Es sind nur Bestimmte Produkte betroffen andere können indexiert werden.
Wer weiß hier bescheid?
Vielen Dank!

Anonymous · 19. November 2015

XTCsid
dahinter kommt normal eine lange Nummer und ist die Session-ID von Dir oder Deinen Kunden.

Foren

robots.txt und Disallow: /XTCsid

Anonymous Erfahrener Benutzer

barbara G-WARD 2014-2020

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

alfredtheiss Mitglied

barbara G-WARD 2014-2020

robots.txt und Disallow: /*XTCsid*

Anonymous Erfahrener Benutzer

barbara G-WARD 2014-2020

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

MP Solution Erfahrener Benutzer

Anonymous Erfahrener Benutzer

alfredtheiss Mitglied

barbara G-WARD 2014-2020

robots.txt und Disallow: /XTCsid