De ShopWiki Crawler

ShopWiki vindt producten door het gebruik van een crawler/spin zoals andere zoekmachines dit doen. Dit betekent dat we een kijkje nemen in het domein van de website op zoek naar alle robots.txt files, deze vertellen onze crawlers welke files ze mogen bezoeken. Alle websites hebben de mogelijkheid om precies te definiëren welke delen van hun domein verboden zijn voor specifieke robot user agents. ShopWiki respecteert en gehoorzaamt alle robot.txt files.

Let er aub wel op dat wij onze kopieën van deze files enkel periodiek updaten. Als u ons recent geblokkeerd heeft of toestemming heeft gegeven om uw site te crawlen dan zullen de resultaten niet onmiddellijk zichtbaar zijn.

Robots.txt

Website beheerders kunnen deze informatie gebruiken om hun robots.txt files te updaten.

Onze huidige User Agent String is:

ShopWiki/1.0

Als je niet wilt dat wij uw website crawlen, zet dit dan in uw robotx.txt file: 
User-agent: ShopWiki
Disallow: /

Als u vindt dat wij uw website te snel crawlen, zet dit dan in uw robotx.txt file.
Dit zal onze crawler afremmen tot (maximum) 1 pagina per 5 seconden.

 
User-agent: ShopWiki
Crawl-Delay: 5

Als je onze crawler expliciet op je website wilt toelaten, zet dit dan in uw robotx.txt file

 
User-Agent: Shopwiki
Allow: /
 Voor meer informatie over robots.txt, kijk op robotstxt.org.

META Robots

Een andere methode om controle te houden over waar robots toegang tot hebben is via de META robots directive.

Je kunt dit aan je pagina's toevoegen zodat we ze niet kunnen crawlen of links kunnen volgen.

<meta name="robots" value="noindex,nofollow">

Als je ons wilt toelaten maar niemand anders om je website te crawlen, kun je dit doen:

jsp

<%
if ( request.getHeader("User-Agent").indexOf("ShopWiki") < 0 ) {
    out.print("<meta name='robots' value='noindex,nofollow'>");
}
%>

asp/c#

<%
if ( Request.UserAgent.indexOf("ShopWiki") < 0 ) {
   Response.write("<meta name='robots' value='noindex,nofollow'>");
}
%>

IP adres spider/crawler

Onze crawler spider zit in de range van 8.11.2.*


Aanbevolen om te lezen