robots.txt是搜索引擎訪問網站時需要查看的第一個文件,是指定搜索引擎捕獲網站內容范圍的文本文件。當搜索蜘蛛訪問網站時,它會首先檢查網站根目錄下是否有robots.txt,如果存在,訪問范圍會根據文件中的內容來確定。
在網站建設的過程中,我們會有一些不想被搜索引擎捕獲或者不想出現在互聯網上的內容,那么我們該怎么辦呢?我怎么能告訴搜索引擎你不應該抓住我的xx內容?這時,robots就派上了用場。
robots.txt是搜索引擎訪問網站時需要查看的第一個文件。robots.txt文件告訴蜘蛛程序在服務器上可以查看哪些文件。
當搜索蜘蛛訪問網站時,它將首先檢查網站根目錄下是否存在robots.txt。如果存在,搜索蜘蛛將根據文件中的內容確定訪問范圍;如果文件不存在,所有搜索蜘蛛將能夠訪問網站上所有未受密碼保護的頁面。
語法:最簡單的robots.txt文件使用兩條規則:
User-Agent:適用以下規則的版本。
disalow:要攔截的網頁。
但是我們需要注意幾點:
1.robots.txt必須存儲在網站的根目錄中。
2.其命名必須是robots.txt,文件名必須全部小寫。
3.Robots.txt是搜索引擎訪問網站的第一頁。
在Robots.txt中必須指明user-agent。
使用robots.txt的誤區。
1:在robots.txt文件中設置所有文件都可以被搜索蜘蛛抓取,這樣可以提高網站的收錄率。
即使蜘蛛收錄了網站中的程序腳本、樣式表等文件,也不會增加網站的收錄率,只會浪費服務器資源。因此,搜索蜘蛛索引這些文件必須設置在robots.txt文件中。
在robots.txt中詳細介紹了哪些文件需要排除。
2:我網站上的所有文件都需要蜘蛛抓取,所以我不需要添加robots.txt文件。無論如何,如果這個文件不存在,所有搜索蜘蛛都會默認訪問網站上所有沒有密碼保護的頁面。
每當用戶試圖訪問一個不存在的URL時,服務器都會在日志中記錄404錯誤(無法找到文件)。服務器還會在日志中記錄一個404錯誤,所以你應該在網站上添加一個robots。
3:搜索蜘蛛抓取網頁太浪費服務器資源,在robots.txt文件中設置所有搜索蜘蛛都無法抓取所有網頁。
如果是這樣的話,整個網站就不能被搜索引擎收錄。
使用robots.txt的技巧。
1.每當用戶試圖訪問一個不存在的URL時,服務器都會在日志中記錄404錯誤(找不到文件)。服務器還會在日志中記錄一個404錯誤,所以你應該在網站上添加一個robots。
2.網站管理員必須將蜘蛛程序遠離某些服務器上的目錄——確保服務器的性能。比如大部分網站服務器都有存儲在cgi-bin目錄下的程序,所以在robots.txt文件中加入disallow:/cgi-bin是個好主意,這樣可以避免蜘蛛索引所有程序文件,節省服務器資源。一般網站中不需要蜘蛛抓取的文件有:后臺管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片、背景圖片等。
下面是常見的robots.txt文件:
User-agent: *
Disalow:/admin/后臺管理文件。
Disalow:/template/模板文件。
Disalow:/require/程序文件。
Disalow:/images/圖片。
Disalow:data/數據庫文件。
disachment/附件。
Disalow:/css/樣式表文件。
Disalow:/script/腳本文件。
Disalow:/lang/編碼文件。
3.如果你的網站是一個動態網頁,你為這些動態網頁創建一個靜態副本,讓搜索蜘蛛更容易抓取。然后,您需要在robots.txt文件中設置它們,以避免蜘蛛對動態網頁進行索引,以確保這些網頁不會被視為重復內容。
4.在robots.txt文件中也可以直接包含sitemap文件的鏈接。就像這樣:
Sitemap: http://m.gkn1.com/sitemap.xml
目前支持這一點的搜索引擎公司包括谷歌、Yahoo、AskandMN。然而,中國的搜索引擎公司顯然不在這個圈子里。這樣做的好處是,站長不需要去每個搜索引擎的站長工具或類似的站長部分提交自己的站點地圖文件,搜索引擎的蜘蛛會抓取robots.txt文件,讀取其中的站點地圖路徑,然后抓取其中鏈接的網頁。
5.合理使用robots.txt文件也可以避免訪問時出錯。例如,搜索者不能直接進入購物車頁面。由于沒有理由包括購物車,您可以在robots.txt文件中設置它,以防止搜索者直接進入購物車頁面。
以上就是什么是robots.txt?的內容,更多文章關注易企優的其他相關文章!