Ich habe eine Verständnis Problem. Wir nutzen seit kurzem die Sistrix Toolbox. Jetzt haben wir die Information von Sistrix, dass deren Crawler, wie auch der Google Bot, die Mehrzahl unserer Seiten nicht crawlen kann. Der Grund ist der oben genannte Disallow Eintrag in der robots.txt. Kann ich diesen Eintrag ohne negative Auswirkungen löschen? Woher kommen die rot markierten Zeichen nach der eigentlichen Url? (Link nur für registrierte Nutzer sichtbar.)?XTCsid=2not3hmgtoap4fl7u2qhgkg0r6 Die Seite ist also sowohl unter (Link nur für registrierte Nutzer sichtbar.) , als auch unter (Link nur für registrierte Nutzer sichtbar.) erreichbar
hallo, das rote ist die Session-ID, die tut nichts. Die Einträge in der robots.txt sollen verhindern, das z.B. Abmahner per Google Deine Texte prüfen können, oder das Checkout-Seiten per Google aufgerufen werden können. Da muss man genau schaun, was man da raus nimmt und ob das wirklich von Nutzen ist.
Normale Suchmaschinen wie Google crawlen die Seite normalerweise ohne Session, wenn du das unter Konfiguration -> Suchmaschinen eingestellt hast. Der Sinn dahinter ist, dass man so verhindert dass Seiten mit der Session ID von den Suchmaschinen indexiert werden.
Dann sollte zumindest der Google Bot keine Probleme haben. Der darf dann crawlen ohne dass ihm dieser ?XTCsid Anhang zugewiesen wird. Falls die Meldung von Sistrix aus kam dass Google das nicht crawlen kann ignorier das einfach. Du kannst in den Google Webmaster Tools selber testen, welche Seiten Google crawlen kann und welche nicht. Das findest dort du unter Crawling -> robots.txt Tester. Falls was blockiert wird, wird die Zeile hervorgehoben in der die Regel steht. Ob der Sistrix Bot damit Probleme hat, kann ich nicht sagen. Der ist bei uns separat blockiert
Eine Alternative wäre dieser Part hier : User-agent: * Disallow: Sitemap: http://www.deine Domain.de/sitemap.xml Somit entscheidest Du was genommen wird von dem Bot. LG Jörg
Soll der Code für alle User-Agents die Sitemap verbieten? Abgesehen davon, dass der Code dafür falsch ist, ist das doch eine SEO-technisch fragwürdige Lösung. Außerdem ziemlicher Overkill wenn man einfach nur ?XTCsid Links auch crawlen lassen will. @Tosula: Wenn du den Eintrag Disallow: /*XTCsid* rausnimmst, kann es halt passieren dass die Seiten auch so von diversen Bots gecrawlt und gespeichert werden. Wenn das bei Sistrix wirklich so gar nicht funktioniert entferne die Zeile mit XTCsid und nimm zumindest folgende beiden Blöcke am Anfang der Datei mit auf: Code: User-agent: Googlebot Disallow: /*XTCsid* User-agent: bingbot Disallow: /*XTCsid* Damit verbietest du speziell Google und Bing die XTCsid Links zu crawlen.
Es wird hier lediglich auf die Sitemap verwiesen. es sind viele Seitenbetreiber, die mit diesem Code im robots.txt arbeiten. Daher ist deine Aussage nicht ganz korrekt. LG Jörg
Die Sitemap für Gambio-Shops wird in der robots.txt so angegeben: Code: Sitemap: http://www.domain.de/sitemap1.xml Nicht wie von dir geschrieben mit "Disallow:" .... denn das bedeutet verbieten. Inwiefern die Aufnahme der Sitemap in die robots.txt nun bei dem Problem hilft, dass in der Standardversion der Datei via Disallow: /*XTCsid* Links mit Session IDs vom Crawling ausgeschlossen werden erschließt sich mir auch nicht so ganz.
Die Variante wurde mal vor langer Zeit so eingebaut. Soweit ich Informiert bin, wird der robots.txt hier nicht übergangen, sondern er nimmt den Weg zur Sitemap. In der Sitemap ist im eigendlichen Sinne der Part der Wichtig ist. Somit wird der Account oder alles andere im Shop nicht mit ausgelesen. Sofern es ein anständiger Bot ist LG Jörg
Du solltest deine Infos mal überprüfen. "Disallow: Sitemap: (Link nur für registrierte Nutzer sichtbar.) Domain.de/sitemap.xml" ist schlicht falsche Syntax (prüfbar z.B. mit (Link nur für registrierte Nutzer sichtbar.)). Bei dir ist übrigens weder auf Mega Pumping noch auf Lanakey der Sitemap Eintrag in der robots.txt. Bots crawlen auch Seiten, die sie nicht über die Sitemap gefüttert bekommen. Die Sitemap kann man in etwa mit einem Stadtplan beim Autofahren vergleichen. Wenn du weißt, wo's langgeht brauchst du keinen. Die robots.txt dagegen kann man mit Verkehrsschildern vergleichen. Dort werden die Regeln gezeigt, an die man sich halten sollte.
Sistrix kann die Url Struktur, welche vom Gambio System ausgegeben wird, nicht handeln. Wir haben daher die Toolbox gekündigt. Schade, denn das Tool bez. die einzelnen Module sind sehr gut. Der Support ist bisher das Beste in Bezug auf Schnelligkeit und Professionalität, was ich in den letzen Jahren im Bereich SEO erlebt habe.
Hallo habe folgendes Problem entdeckt mehrere URL können von Google nicht indexiert werden laut Crawling Tester da heißt es blockiert. Fehler Disallow: /*XTCsid* Was soll das sein? Es sind nur Bestimmte Produkte betroffen andere können indexiert werden. Wer weiß hier bescheid? Vielen Dank!