CDN源代碼篩選搜索引擎爬蟲
前言
全站采用阿里云CDN以來,網站的接入速度有了明顯提高,阿里云CDN的穩定性也很好。但** 近,我發現百度和谷歌爬蟲程序開始爬升我的源站點。這是有點麻煩,如果不趕快解決,到主站下去就不好了。
思考
因為蜘蛛爬不該爬的東西,所以解決辦法自然是限制它們的爬行。
有三種方法來限制蜘蛛的捕獲:1robots. TXT文件
robots文件用于限制搜索引擎蜘蛛的行為,阻止源站點中的爬行器的主要目的是限制爬行器在同一程序下獲取不同的域名。然而,這一點robots。TXT文件沒有可以限制域名的參數。它只能限制蜘蛛捕捉當前域名下的文件。這條路堵住了。2設置META標簽
當訪問者訪問的域名不是主網站的域名時,域名為METAgt;很容易實現限制標記中爬行器活動的內容。只需修改模板中的頭文件。3識別蜘蛛的UA,并限制網站程序
獲取訪問者的用戶代理。如果是UA或搜索引擎蜘蛛,跳到主站。還有一個問題,那就是上網把UA的每一個搜索引擎蜘蛛都收了,想累了。
如果您懶惰,請選擇設置META標簽的方法。
實踐
第一步是在程序中獲取訪問者的域名。在不同的語言和環境中獲取域名有不同的方法PHP您可以通過以下語句獲取訪問者當前訪問的域名:
$_SERVER;
第二,如果不是主站的域名,則會輸出head中的META標簽來限制spider的活動
如果($SERVER!=#39; www.kungg.com#39 ; {
echo #39; lt;META名稱=quot;robots引用;CONTENT=quot;noindex,nofollow報價;gt;#39;;
- 如何優化:
- 網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營