搜索引擎如何確定網站文章的重復性
在這個科技高度發達的時代,百度已經成為人們獲取新聞的主要方式。但如今的百度充斥著重復內容,給用戶的訪問帶來了很大的麻煩。因此,百度需要對網頁復制做出判斷。對于重復的網頁,只選擇我們的一些高質量的網站供用戶瀏覽。然而,在現有技術中,通常通過比較兩頁的內容和借閱點來確定兩頁的相似性。
這種方法可以更精確地計算,但時間復雜度太高,并且計算需要時間。通過在一頁上簽署一些重要信息,然后比較兩頁的簽名來計算相似度。該方法相對簡單有效,計算速度快。
一、網站重復內容判定
A、 獲取多個頁面;
B、 分別提取網頁的網頁正文;
C、 從網頁正文中提取一個或多個句子,根據一個或多個句子計算網頁正文句子簽名;
D、 基于網頁句子的簽名對多個網頁進行聚類;
E、 對于每個類別下的網頁,計算網頁的附加簽名;
F、 根據附加簽名確定每個類別中的網頁是否重復。
這樣,通過包含網頁體句簽名的多維簽名判斷網頁是否重復的系統和方法是有效和快速的。
二、本網站頁面的網站結構
提取文本
A、 阻止網頁;
B、 對分割后的網頁進行塊過濾,快速得到收錄網頁內容的內容;
C、 從內容塊中提取網頁正文。
三、正文分句
A、 網頁正文分句;
在這一步中,您可以使用分號、句點、感嘆號和其他符號來指示句子的結尾,以分割網頁的正文。此外,還可以根據網頁的視覺信息對網頁的文本進行分割。
B、 過濾并轉換子句后的網頁正文;
在步驟中,首先過濾掉句子中的數字信息;版權信息和其他對網頁的重復判斷沒有決定性影響的信息。隨后,對句子進行轉換,例如,執行全寬/半寬轉換或傳統/簡化轉換,以使轉換后的句子的格式一致。
C、 從過濾轉換后的網頁正文中提取** 長的一個或多個句子;
在該步驟中,從過濾和轉換后的網頁正文中提取** 長的句子或字段中的預定數量的連續句子的組合。例如,在網頁實例中,過濾轉換后的段落** 長,遠遠超過其他句子。因此,可以選擇段落作為網頁體句,也可以選擇** 長的連續句組合作為網頁體句。
D、 對一個或多個句子執行哈希簽名操作,以獲取網頁正文上的句子簽名。
simhash算法是比較每個網頁的附加簽名是否相同或相似,以確定網頁是否重復。具體來說,當比較使用simhash簽名操作獲得的網頁文本的簽名時,比較網頁正文簽名的不同數字。不同的數字越少,網頁被復制的概率就越高。
曦曦優化總結
1、兩個網頁的真實標題簽名是相同的。
2、兩個網頁內容的簽名是相同的。
3、兩個網頁正文簽名的不同位數小于6。
4、兩個網頁的網頁位置簽名相同,url文件名簽名相同。
5、評論塊簽名、資源簽名、標記標題簽名、摘要簽名和url文件名簽名中有三個簽名相同。
附加信息判斷重復
通過比較兩個頁面,可以得到一個真正重復的url集合。一般來說,如果真重復url集合中的網頁數/整個網頁集合中的網頁數大于30%,則認為整個網頁集合是真重復的,否則為假重復。
- 如何優化:
- 網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營