Robots公文寫作的標準是什么
三大搜索引擎巨頭之間的較量是一種樂趣,但他們也偶爾會合作。去年Google、雅虎、微軟合作并共同遵守統一Sitemaps標準。兩天前,三大巨頭同時宣布,共同遵守Robots的規定。TXT文件標準Google,雅虎,微軟各在其官方博客上發帖,公布了Robots。TXT文件和Meta標簽三家公司支持的標準,以及一些獨特的標準。什么是Robots文件標準 讓我們做個總結。
三家公司支持的Robots記錄包括:
Disallow恩達什;告訴蜘蛛不要抓取某些文件或目錄。以下代碼將阻止蜘蛛抓取所有網站文件:
用戶代理:*
Disallow: /
Allow恩達什;告訴爬行器抓取一些文件Allow和Disallow可以一起使用,告訴爬行器大多數文件不會在某個目錄下抓取,而只抓取一部分。例如,下面的代碼將使spider不獲取AB目錄下的其他文件,而只獲取CD目錄下的文件
用戶代理:*
Disallow:/ab/
Allow:/ab/cd
$恩達斯;匹配URL結尾的字符。例如,以下代碼將允許spider訪問后綴的htmisURL:
用戶代理:*
Allow: .htm$
*外卡恩達什;告訴蜘蛛匹配任何角色。例如,以下代碼將禁止蜘蛛抓取所有htm文件:
用戶代理:*
Disallow: /*.htm
Sitemaps位置ndash;告訴蜘蛛你的網站地圖在哪里。格式為:
Sitemap:
Meta標簽這三家公司都支持:
NOINDEX恩達什;告訴蜘蛛不要索引網頁。
諾恩達什;告訴蜘蛛不要跟蹤網上的鏈接。
NOSNIppET ndash公司;告訴蜘蛛不要在搜索結果中顯示標題。
無政府主義者;告訴蜘蛛不要顯示快照。
NOODP恩達什;告訴蜘蛛不要在開放目錄中使用標題和描述。
這三家公司現在都支持這些記錄或標簽。看來雅虎微軟不支持通配符百度現在也支持Disallow,Allow和兩個通配符Meta標簽我沒有找到官方說法百度是否支持。
只有Google支持Meta標簽是:
UNAVAILABLE在ndash之后;告訴爬行器頁面何時過期。在此日期之后,它將不再出現在搜索結果中。
諾曼根達斯指數;告訴蜘蛛不要索引頁面上的圖像。
不翻譯ndash;告訴蜘蛛不要翻譯頁面的內容。
雅虎還支持Meta標簽:
Crawl-Delay恩達什;蜘蛛被允許延遲爬行的頻率。
諾伊迪爾恩達什;類似于NOODP標記,但指的是雅虎目錄而不是開放目錄。
Robots-無內容;告訴蜘蛛標記的部分html不是網頁內容的一部分,或者從另一個角度告訴蜘蛛哪個部分是網頁的主要內容(要檢索的內容)。
MSN還支持Meta標簽:
Crawl-Delay
另外,值得關注的是Robots。TXT文件可能不存在,并返回404錯誤,這意味著允許蜘蛛抓取所有內容。但是,在爬網時Robots。TXT文件中,有一些超時等錯誤,這可能會導致搜索引擎不包括網站,因為蜘蛛不知道是否有Robots。TXT文件存在或其中包含什么,這與確認文件不存在不同。
- 如何優化:
- 網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營