robots.txt文件,robots協議,robots.txt有什么作用
robots其實就是指Robots協議,Robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
而承載這些協議的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots協議應該怎么寫,有哪些注意事項,筆者在本文將詳細跟大家介紹。
一、robots.txt文件的含義,robots.txt有什么作用
前面有提到,這個文本文件承載著robots協議,它告訴所有搜索引擎本網站哪些頁面可以被抓取,哪些頁面禁止抓取。這樣做有兩方面的意義:
1.保護隱私。有些頁面信息不想或者說不能讓外界看到,單搜索引擎并不知道這些情況,它還是會照常抓取、展現。如果我們通過設置robots做了限制,搜索引擎蜘蛛就會放棄抓取,外界就不能通過搜索引擎了解到這些隱秘信息。
2.調節頁面抓取量。我們都知道每個網站蜘蛛抓取的配額都是有限的,如果我們通過robots.txt文件禁止一些不重要的頁面被抓取,那么就節約了配額,讓那些重要的頁面得到更多的抓取機會。
二、robots.txt文件的寫法
robots協議針對的就是允許或者不允許,另外也可以設置具體的搜索引擎,筆者認為正常情況下不用去區分搜索引擎,統一設置即可。
1. 禁止所有搜索引擎訪問網站
User-agent: *
Disallow: /
2. 允許所有搜索引擎訪問網站
User-agent: *
Allow: /
這是** 基本的用法,robots協議的用法還有很多技術,筆者建議大家去仔細閱讀robots協議。
三、robots.txt文件相關注意事項
有朋友說我的網站沒有什么要禁止抓取的,你就不要設置robots.txt文件了吧,理論上行得通。不過,筆者建議,即便全部開放也** 好設置一個robots文件,如本站的文件:http://www.tangmengyun.com/robots.txt。
PS:關注過本網站的朋友應該有印象,筆者說過本站是11月6號才有正式有蜘蛛抓取,為什么之前幾天沒有呢,問題就出在robots文件上!之前本站并沒有設置這個文件,連續3天都沒有蜘蛛抓取,筆者再三檢查也沒有發現有限制的地方,** 后意識可能是robots的問題。在設置了robots.txt文件以后,當天便有蜘蛛正常抓取了。
四、robots.txt文件的位置
放在網站根目錄下,在鏈接url的顯示就是:http://www.abc.com/robots.txt,其中www.abc.com就是網站域名。
五、robots文件生成
有朋友提到有沒有直接生產robots文件的工具,筆者認為這完全沒有必要,robots文件應該手動去具體設置,這樣才能發揮robots.txt文件** 大的作用。
- 如何優化:
- 網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營