futtta’s old blog

Twitterless twaddle

Search crawlers & cookies?

leave a comment »

Vraag voor SEO- en andere search-software-specialisten: hoe gaan search engine crawlers om met cookies? Google beschouwt cookies alleszins als een “fancy feature”, maar het is niet helemaal duidelijk of ze dat nu wel of niet ondersteunen (“search engine spiders may have trouble crawling your site”). En wat doet Nutch bijvoorbeeld?

Ik heb een klein experimentje opgezet. Een stomme pagina zet 4 soorten cookies: een combinatie van session cookies en cookies die expiren na 1 uur met host-afhankelijke en domain-cookies. In de value van die cookies staat mijn naam en het type cookie dat gezet werd. Dat alles serverside, ik ga er immers van uit dat crawlers al helemaal niks kunnen doen met cookies die in javascript worden gezet (of gelezen). Op die setcookie-pagina staat er dan een gewone href-link naar de readcookie pagina, waar al die cookies serverside worden uitgelezen en in gewone html getoond. Crawlers die langskomen, krijgen dus potentieel 4 cookies te verteren en volgen dan mooi de link naar de readcookie-pagina. Als de zoekrobot mijn koekjes gegeten heeft, staat de tekst van die cookies op die 2de pagina en zit die dus ook in de searchindex. Spannend!

Om te besluiten waarmee we ook begonnen waren: heeft er iemand in tussentijd goeie tips of info over dit onderwerp?

Written by Frank Goossens (futtta)

22 september 2007 bij 22:26

Geplaatst in vraagje, Web development

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s

%d bloggers op de volgende wijze: