Zowat alle zoekmachines die je site proberen te indexeren starten met het opvragen van je robots.txt.
Dit bestand wordt in de root van je site geplaatst. Een voorbeeldje hoe zo’n robots.txt er uit ziet :
User-agent: *
Disallow: /images/
Het sterretje achter de User-agent wil zeggen dat elke zoekmachine op de site mag gaan indexeren.
Met de functie Disallow kunnen we bepaalde mappen van je site afschermen, die mogen dus niet geïndexeerd worden.
Maar hoe kan je nu nagaan of je site doorzocht wordt ?
Hier zijn twee manieren mogelijk :
- je kijkt in je logfiles bij je hosting pakket
- je schrijft wat code in php
De eerste optie is niet altijd handig, in de logfiles staat elke handeling van elke bezoeker genoteerd. Met zoeken zou je al wat kunnen terugvinden tussen de duizenden regeltjes. De tweede opties vereist wat meer werk in het begin, maar daarna krijg je telkens een mailtje als er zoekmachines is langsgeweest.
We passen robots.txt aan :
<?php
$disallow=array(”/download/”,”/oops/”);
// mail adress where the notification mail has to be sent to and from
$EmailAddress = “je emailadres”;
// time offset in seconds to correct server time and your local time if needed, else set it to 0 (zero)
$time_offset = “0″;
// current date and time in this format : dd-mm-yyyy at hh:mm:ss
$today = date( ‘d-m-Y \a\t H\:i\:s’, time() + $time_offset );
$UserAgent = $_SERVER[’HTTP_USER_AGENT’];
$IP = $_SERVER[’REMOTE_ADDR’];
$Host = @gethostbyaddr($_SERVER[’REMOTE_ADDR’]);
$EmailBody = “———————-\n”.
“Bot : $UserAgent \n”.
“Used ip : $IP \n” .
“Host : $Host \n” .
“Time of visit : $today \n”.
“———————-”;
mail($EmailAddress, “Robots.txt”, $EmailBody, “From: Robots TXT<$EmailAddress> \r \n”);
header(’Content-type: text/plain’);
echo “User-Agent: *\n”;
foreach($disallow as $dis)
{
echo “Disallow: $dis\n”;
}?>
Nu is je robots file een scriptfile geworden. Maar dit kan een zoekmachine niet begrijpen. Het script moet uitgevoerd worden zodat er een mooie propere tekst naar de zoekmachine wordt gestuurd.
Daarvoor passen we een truukje toe in een bestand zonder naam. Namelijk het .htaccess bestand. Een bestand zonder naam maar met de extensie htaccess.
Copieer daar deze drie lijnen code in en klaar :
<Files robots.txt>
ForceType application/x-httpd-php
</Files>
Klaar

Entries (RSS)