ShopWiki vindt producten door het gebruik van een crawler/spin zoals andere zoekmachines dit doen. Dit betekent dat we een kijkje nemen in het domein van de website op zoek naar alle robots.txt files, deze vertellen onze crawlers welke files ze mogen bezoeken. Alle websites hebben de mogelijkheid om precies te definiëren welke delen van hun domein verboden zijn voor specifieke robot user agents. ShopWiki respecteert en gehoorzaamt alle robot.txt files.
Let er aub wel op dat wij onze kopieën van deze files enkel periodiek updaten. Als u ons recent geblokkeerd heeft of toestemming heeft gegeven om uw site te crawlen dan zullen de resultaten niet onmiddellijk zichtbaar zijn.
Website beheerders kunnen deze informatie gebruiken om hun robots.txt files te updaten.
Onze huidige User Agent String is:
ShopWiki/1.0
| Als je niet wilt dat wij uw website crawlen, zet dit dan in uw robotx.txt file: | User-agent: ShopWiki Disallow: / |
Als u vindt dat wij uw website te snel crawlen, zet dit dan in uw robotx.txt file. | User-agent: ShopWiki Crawl-Delay: 5 |
Als je onze crawler expliciet op je website wilt toelaten, zet dit dan in uw robotx.txt file | User-Agent: Shopwiki Allow: / |
Een andere methode om controle te houden over waar robots toegang tot hebben is via de META robots directive.
Je kunt dit aan je pagina's toevoegen zodat we ze niet kunnen crawlen of links kunnen volgen.
<meta name="robots" value="noindex,nofollow">
Als je ons wilt toelaten maar niemand anders om je website te crawlen, kun je dit doen:
jsp
<%
if ( request.getHeader("User-Agent").indexOf("ShopWiki") < 0 ) {
out.print("<meta name='robots' value='noindex,nofollow'>");
}
%>
asp/c#
<%
if ( Request.UserAgent.indexOf("ShopWiki") < 0 ) {
Response.write("<meta name='robots' value='noindex,nofollow'>");
}
%>
Onze crawler spider zit in de range van 8.11.2.*