滑动继续阅读⇓

通常,不管是在新站或网站收录有问题时,可能需要持续关注搜索引擎蜘蛛的抓取状态。这对于网站的内容是否能够及时的收录,都是网站管理员们每天都在关注的事情,毕竟每天的产能有限,从而更加的关注自己撰写的内容是否能够取悦搜索引擎蜘蛛的爬行,更好的让它及时收录自己的网页。毕竟早一天收录,就有可能的获得更多一点的流量,这样的话,以后变现的成本也会变得更低。

有时,当我们不知道蜘蛛何时访问了我们的网站时,我们只能将最近由我们的网站生成的最新内容提交给百度。但是,恐怕这会使百度的蜘蛛讨厌我们的网站。简而言之,这种感觉不是很好。

每次打开服务器端访问日志都非常麻烦,尤其是在日志文件相对较大时。最好的方法是直接在线打开蜘蛛爬网记录。为此,我们可以使用纯PHP代码来实现此功能而无需插件。以下是具体的实现代码。

// 记录蜘蛛访问记录    
function get_naps_bot(){  
$useragent = strtolower($_SERVER['HTTP_USER_AGENT']);  
if (strpos($useragent, 'googlebot') !== false){  
return 'Googlebot';  
}  
if (strpos($useragent, 'bingbot') !== false){  
return 'Bingbot';  
}  
if (strpos($useragent, 'slurp') !== false){  
return 'Yahoobot';  
}  
if (strpos($useragent, 'baiduspider') !== false){  
return 'Baiduspider';  
}  
if (strpos($useragent, 'sogou web spider') !== false){  
return 'Sogouspider';  
}  
if (strpos($useragent, 'haosouspider') !== false){  
return 'HaosouSpider';  
}  
if (strpos($useragent, 'yodaobot') !== false){  
return 'YodaoBot';  
}  
return false;  
}  
function nowtime(){  
date_default_timezone_set('Asia/Shanghai');  
$date=date("Y-m-d G:i:s");  
return $date;  
}  
$searchbot = get_naps_bot(); 
if ($searchbot) {  
$tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);  
$url=$_SERVER['HTTP_REFERER']; 
$addr=$_SERVER['REMOTE_ADDR']; 
$file="robotslogs.txt";  //根目录下记录蜘蛛访问的文件
$time=nowtime();  
$data=fopen($file,"a");  
$PR="$_SERVER[REQUEST_URI]";  
fwrite($data,"[$time] - $addr - $PR - $searchbot $tlc_thispage \r\n");  
fclose($data);  
}

将以上代码插入funtion.php文件,并在网站的根目录中创建一个名为robotslogs.txt的文件。可以自定义文件名。请注意,有必要为robotslogs.txt设置可写权限,最好是777权限,在某些主机配置下可能无法写入755权限。上面的代码可以记录搜索蜘蛛的基本爬网信息。完成后(通常是24小时),你就可以看到“robotslogs.txt”中的数据已满。

摘自:大胡子

本文是否有帮助?



iTopVPN Black Friday Deal - Save up to 90%