Is SEO met robots.txt files vals spelen?

Kenmerkend voor gebruik van het wereldwijde internet is dat alles open en bloot verschijnt.

We schakelen zoekmachines in om precies dat te vinden wat we nodig hebben.

Is het dan wel eerlijk als we niet alles op onze website door zoekmachines willen laten indexeren?


Op de vraag waarom we dat niet willen gaan we straks in. Eerst kijken hoe we dat doen.

Het beperken van toegang tot je website kan op verschillende manieren:
1. Via “index”, “follow”, “noindex” en “nofollow” in alle mogelijke combinaties op documentniveau
2. via het openen van pagina’s met Javascript
3. via robots.txt files aangeven welke spiderbots jouw pagina niet mogen lezen.

Met name de robots.txt files zijn interessant omdat je gericht kan selecteren welke User-agent/spiderbot je liever niet langs ziet komen. Dat dit een .txt bestand is betekent dat het uit tekst bestaat, bijvoorbeeld:

CODE:
1. User-agent: Googlebot
2. Disallow: /


Een vrij gevaarlijk voorbeeld omdat Googlebot de User-agent van Google is.
De forward slash achter Disallow betekent dat je gehele webserver root directory niet mag worden geïndexeerd. Als je de deur voor Googlebot hebt dichtgegooid, geldt voor de rest van de zoekmachinewereld ‘vrije toegang’ oftewel:

CODE:
1. User-agent: *
2. Disallow:


Wat laat ik niet indexeren?
Hoog tijd voor de vraag waarom je spiderbots uitsluit. Robots.txt files hebben niets te maken met iets als secret files. Als zoekmachines de uitgesloten bestanden niet kunnen lezen, kan de rest van de wereld dat in principe wel.
We noemen 4 mogelijke redenen en we horen er graag meer:
1. Op je site staat een testpagina en die zie je niet graag geïndexeerd worden
2. Je hebt liever niet dat je boordevolle pagina Links meedoet in de waardering van je site
3. Je wilt voorkomen dat zoekmachines met META spiders je resultatenpagina’s gebruiken om efficiënt links op te halen
4. Je hebt een intranet omgeving waar vindbaarheid eigenlijk geen rol speelt en je wilt dat deze gegevens niet openbaar worden

Het plaatsen van robots.txt files is echter best handig, ook al hebben we niets te verbergen. Wat gebeurt er? Zoekmachines indexeren je website en zien een robots.txt file staan. Ze kunnen, als ze de genoemde User-agent zijn, de inhoud niet lezen, maar ze zien de disallow wel staan. Hoe reageren ze hierop? Het komt niet direct als verdacht over, maar wel als nuttig. Dankzij robots.txt files kunnen zoekmachines je site sneller indexeren en dat vinden ze fijn.

Allow tegenover disallow
Handig om te weten is dat Google niet alleen een ‘disallow’ leest, maar ook een ‘allow’. Dat lijkt overdreven – geen ‘disallow’ = ‘allow’ – maar je geeft bijvoorbeeld aan dat Googlebot bepaalde bestanden niet mag bekijken terwijl dat de AdSense bot de advertenties wel mag indexeren. Allow en disallow komen daardoor altijd samen voor:

CODE:
1. User-agent: Googlebot
2. Disallow: /tags/
3. # MediaPartners-Google = AdSense bot
4. User-agent: MediaPartners-Google
5. Allow: /tags/


Achter het hash/pound karakter 3. staat iets wat spiderbots niet kunnen lezen. Hier vul je iets in voor jezelf; zoals hier de toegang van de AdSense bot via de Google string.

Gebruik maken van robots.txt files is niet vals spelen, maar spelen met spelregels.


Seo
Copywriter
Robert Didier
Robert Didier is de zoekmachinemarketing specialist van Spelwerk Teksten. Hij zorgt dat bestaande websites geen verplicht nummer zijn, maar doen wat ze moeten doen.

Benieuwd wat voor uw website mogelijk is? Vraag het hem per e-mail.

 LinkedIn
 Twitter

9
Reageer op dit artikel

avatar
9 Comment threads
0 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
8 Comment authors
Hoe werkt een zoekmachine? - Powered by PROSEOtaxateur tilburgknutselen dierenbonus huntingJurrien Recent comment authors
  Subscribe  
nieuwste oudste meest gestemd
Abonneren op
Sint Smeding
Gast

Bedenk wel dat niet alleen zoekmachines de inhoud van robots.txt kunnen lezen, maar ook elke andere gebruiker op het wereldwijde web.

‘Geheime’ pagina’s die sowieso nergens worden gelinkt, bijvoorbeeld de inlogpagina van je CMS of de intranetomgeving die jij als voorbeeld noemt zou ik niet opnemen in je robots.txt, omdat je hiermee deze ‘geheime’ locatie toch prijsgeeft aan kwaadwillende mensen. Neem alleen locaties op die spiders daadwerkelijk zullen kunnen vinden.

Website Promoten
Gast

Eens met bovenstaande reactie, ‘geheime’ pagina’s moeten beveiligd worden en pagina’s die je niet geïndexeerd wilt hebben kun je gemakkelijk aan je robots.txt toevoegen.

Vince
Gast

Ik vind robots.txt tevens van belang om duplicate content te voorkomen. Het is een valkuil die vaak onderschat wordt, maar je waardering bij Google snelt toch achteruit.
Duplicate content kan dus bijvoorbeeld al komen door een print-pagina; een pagina met exact dezelfde content als zijn opgemaakte tegenhanger. Google ziet dat als iets slechts, en je pagerank knalt achteruit. Met robots.txt help je Google dus eigenlijk een handje om door je site te navigeren. Althans, zo zie ik het.

James van Geld verdienen op internet blog
Gast

Neem bijvoorbeeld een login pagina voor een membership site. Waarom zou je die niet willen laten indexeren? Een inlogpagina in de Google zoekresultaten krijgen is toch niet nadelig?

Jurrien
Gast

@James,
Robots.txt zorgt er niet voor dat deze linkjes niet in de resultaten van Google komen. Integendeel, elke bestandslocatie die je opneemt komt wel degelijk terug in zoekmachines, zij het alleen zichtbaar met de URL. Als je iets niet wilt laten zien in zoekresultaten kan je beter gebruik maken van meta robots.

bonus hunting
Gast

In de robots.txt kan je ook het adres van je sitemap vermelden … vermits het de eerste plek is waar een vriendelijke spider info zoekt bv.

User-agent: *
Disallow:
(1 witegel)
Sitemap:

knutselen dieren
Gast

Vergeet niet dat de betreffende pagina 6 maanden lang niet meer geindexeerd word.

taxateur tilburg
Gast

Wat ik belangrijk vind is dat ik niet meer in de waybackmachine.org vermeld word. Geen historie bekend van de website.

Gebruik hiervoor in robots.txt

User-agent: ia_archiver
Disallow: /

trackback

[…] dit een schatting is, komt o.a. door het feit men zoekmachines met robot.txt files niet toestaat te laten […]