baidu蜘蛛對頁面的抓取建庫原則?
新鏈接重要程度判斷
好啦,上面我們說了影響Baiduspider正常抓取的原因,下面就要說說Baiduspider的一些判斷原則了。在建庫環節前,Baiduspider會對頁面進行初步內容分析和鏈接分析,通過內容分析決定該網站頁面是否需要建索引庫,通過鏈接分析發現更多網站頁面,再對更多網站頁面進行抓取——分析——是否建庫&發現新鏈接的流程。理論上,Baiduspider會將新頁面上所有能“看到”的鏈接都抓取回來,那么面對眾多新鏈接,Baiduspider根據什么判斷哪個更重要呢?兩方面:
第一,對用戶的價值:
1,內容獨特,百度搜索引擎喜歡unique的內容
2,主體突出,切不要出現網站頁面主體內容不突出而被搜索引擎誤判為空短頁面不抓取
3,內容豐富
4,廣告適當
第二,鏈接重要程度:
1,目錄層級——淺層優先
2,鏈接在站內的受歡迎程度
百度優先建重要庫的原則
Baiduspider抓了多少頁面并不是** 重要的,重要的是有多少頁面被建索引庫,即我們常說的“建庫”。眾所周知,搜索引擎的索引庫是分層級的,優質的網站頁面會被分配到重要索引庫,普通網站頁面會待在普通庫,再差一些的網站頁面會被分配到低級庫去當補充材料。目前60%的檢索需求只調用重要索引庫即可滿足,這也就解釋了為什么有些網站的收錄量超高流量卻一直不理想。
那么,哪些網站頁面可以進入優質索引庫呢。其實總的原則就是一個:對用戶的價值。包括卻不僅于:
1,有時效性且有價值的頁面:在這里,時效性和價值是并列關系,缺一不可。有些站點為了產生時效性內容頁面做了大量采集工作,產生了一堆無價值面頁,也是百度不愿看到的.
2,內容優質的專題頁面:專題頁面的內容不一定完全是原創的,即可以很好地把各方內容整合在一起,或者增加一些新鮮的內容,比如觀點和評論,給用戶更豐富全面的內容。
3,高價值原創內容頁面:百度把原創定義為花費一定成本、大量經驗積累提取后形成的文章。千萬不要再問我們偽原創是不是原創。
4,重要個人頁面:這里僅舉一個例子,科比在新浪微博開戶了,即使他不經常更新,但對于百度來說,它仍然是一個極重要的頁面。
哪些網站頁面無法建入索引庫
上述優質網站頁面進了索引庫,那其實互聯網上大部分網站根本沒有被百度收錄。并非是百度沒有發現他們,而是在建庫前的篩選環節被過濾掉了。那怎樣的網站頁面在** 初環節就被過濾掉了呢:
1, 重復內容的網站頁面:互聯網上已有的內容,百度必然沒有必要再收錄。
2, 主體內容空短的網站頁面
1)有些內容使用了百度spider無法解析的技術,如JS、AJAX等,雖然用戶訪問能看到豐富的內容,依然會被搜索引擎拋棄
2)加載速度過慢的網站頁面,也有可能被當作空短頁面處理,注意廣告加載時間算在網站頁面整體加載時間內。
3)很多主體不突出的網站頁面即使被抓取回來也會在這個環節被拋棄。
3, 部分作弊網站頁面
- 如何優化:
- 網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營