通常,不管是在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取状态。这对于网站的内容是否能够及时的收录,都是网站管理员们每天都在关注的事情,毕竟每天的产能有限,从而更加的关注自己撰写的内容是否能够取悦搜索引擎蜘蛛的爬行,更好的让它及时收录自己的网页。毕竟早一天收录,就有可能的获得更多一点的流量,这样的话,以后变现的成本也会变得更低。
有时,当我们不知道蜘蛛何时访问了我们的网站时,我们只能将最近由我们的网站生成的最新内容提交给百度。但是,恐怕这会使百度的蜘蛛讨厌我们的网站。简而言之,这种感觉不是很好。
每次打开服务器端访问日志都非常麻烦,尤其是在日志文件相对较大时。最好的方法是直接在线打开蜘蛛爬网记录。为此,我们可以使用纯PHP代码来实现此功能而无需插件。以下是具体的实现代码。
// 记录蜘蛛访问记录
function get_naps_bot(){
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
if (strpos($useragent, 'googlebot') !== false){
return 'Googlebot';
}
if (strpos($useragent, 'bingbot') !== false){
return 'Bingbot';
}
if (strpos($useragent, 'slurp') !== false){
return 'Yahoobot';
}
if (strpos($useragent, 'baiduspider') !== false){
return 'Baiduspider';
}
if (strpos($useragent, 'sogou web spider') !== false){
return 'Sogouspider';
}
if (strpos($useragent, 'haosouspider') !== false){
return 'HaosouSpider';
}
if (strpos($useragent, 'yodaobot') !== false){
return 'YodaoBot';
}
return false;
}
function nowtime(){
date_default_timezone_set('Asia/Shanghai');
$date=date("Y-m-d G:i:s");
return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
$url=$_SERVER['HTTP_REFERER'];
$addr=$_SERVER['REMOTE_ADDR'];
$file="robotslogs.txt"; //根目录下记录蜘蛛访问的文件
$time=nowtime();
$data=fopen($file,"a");
$PR="$_SERVER[REQUEST_URI]";
fwrite($data,"[$time] - $addr - $PR - $searchbot $tlc_thispage \r\n");
fclose($data);
}
将以上代码插入funtion.php文件,并在网站的根目录中创建一个名为robotslogs.txt的文件。可以自定义文件名。请注意,有必要为robotslogs.txt设置可写权限,最好是777权限,在某些主机配置下可能无法写入755权限。上面的代码可以记录搜索蜘蛛的基本爬网信息。完成后(通常是24小时),你就可以看到“robotslogs.txt”中的数据已满。
摘自:大胡子