添加時間:2012/9/23 15:45:51 編輯:奇億網(wǎng)站建設公司
如果一個網(wǎng)站有很多內(nèi)容,吸引到各大搜索引擎蜘蛛不停晝夜地爬行勢必會給服務器資源造成極大的浪費,特別如果又是流量比較大的站的話更易被無效蜘蛛占用,下面通過robots協(xié)議(也稱為爬蟲協(xié)議、爬蟲規(guī)則、機器人協(xié)議等)也就是robots.txt即可限制在每天爬行多少次,補充:robots協(xié)議即網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
將以下內(nèi)容保存為robots.txt文件,然后傳到根目錄即可。
#限制的搜索引擎的User-Agent代碼,*表示所有###########
User-agent: *
Crawl-delay:2000
Disallow: js/
Disallow: template/
Disallow: include/
Disallow: gotourl.php
其中2000是告訴蜘蛛每天只能爬行2000次,Disallow是告訴蜘蛛不要爬行的目錄。