• 企業互聯專業網站定制+品牌網站設計+集團網站建設
    400 0082 880
    搜索引擎預處理工作原理
    擁抱趨勢 專業優化 快速打造能賺錢的網站
    馬上咨詢
    2019-11-08 09:49:53閱讀:406來源:seo優化公司作者:企業互聯
    [導語]為您推薦文章《搜索引擎預處理工作原理》(本文主要講述:分析網頁建立倒排文件:正向索引:經過前面幾步的工作之后就開始提取關鍵詞了,把頁面轉換為一個關鍵詞組合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式、位置,這樣每一個頁面都可以記錄為一串關鍵詞組合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案,如圖1-10所示。分詞技術的效率直接影響到整個系統的效率。對flash、視頻、PPT,XLS,圖片等非文字內容不能執行腳本和程序。事先必須......)如果你對文章有興趣,歡迎關注我們
    本文對406人有所幫助,共有1500個文字,預計閱讀所需時間4分鐘

    搜索引擎預處理工作原理

      搜索引擎預處理工作原理

      通過上邊編者對搜索引擎預處理概念的一個簡單的介紹,想必各位讀者有一定的了解,那么在眾多預處理的流程中具體究竟是怎樣的一個工作流程呢?下面就讓我們一起看一下搜索引擎在預處理中的各個工作流程!

      1.關鍵詞的提取:搜索引擎能夠完全識別的主要還是以文字內容為主的網絡資源。搜索引擎蜘蛛在爬取一個頁面的同時也把大量的htmL代碼抓取下來,如keywords,description,title,H,css,div標簽等,而它的主要工作還是將HTML標簽、程序等處理,然后提取用于排名計算的文字信息內容。

      2.刪除重復無用詞:同一個詞在一個網頁中出現很多次,如“得”、“我”、“的”、“你”、“地”、“啊”、.“呀”、“卻”、“再”、“從而”等這類的無用助詞,出現的頻率雖然很高,但是一旦反復出現就沒太大價值了,一般這類詞就歸結為停用詞。這類詞也需要去除掉。

      3.中文分詞技術:分詞是中文搜索引擎獨有的技術支持。中文信息和英文信息的差別在于:英文單詞與單詞之間用的是空格分隔的,這對中文就行不通了,搜索引擎必須將整個句子切割成小單元詞,如“我是國內人”拆分出來的形態是“我”、“是”、“國內”、“人”。分詞技術的效率直接影響到整個系統的效率。

      分詞的方法基本上有兩種:基于字符串匹配的分詞方法和基于統計的分詞方法。

      1)基于字符串匹配的分詞方法

      按匹配方向的不同,可分為正向匹配、逆向匹配和** 少切詞。可將這三種方法混合起來使用,即正向** 大匹配、逆向** 大匹配、正向** 小匹配、逆向** 小匹配。

      正向** 大匹配:假設字典中** 長的詞語字數為m,先根據漢語標點符號及特征詞把漢語句子切分為短語,然后去取短語的前m個字,在字庫里面查找是否存在這個詞語,如果存在,短語就去掉這個詞;如果不存在就去掉這m個字的** 后一個字,接著檢查剩下的詞是否是單字,若是則輸出此字并將此字從短語中去掉,若不是則繼續判斷字庫中是否存在這個詞,如此反復循環,直到輸出一個詞,此后繼續取剩余短語的前m個字反復循環。這樣就可以將一個短語分成詞語的組合了。

      以“我是一個好人”為例,假設字典中** 長詞語字數為3,正向** 大匹配順序為:

      (1)取出短語“我是中”,檢查“我是中”是否在字典中存在或是一個單字,處理方式是去掉** 后面的“中”字;

      (2)檢查短語“我是”是否在字典中存在或是一個單字,處理方式是去掉“是”字;

      (3)檢查“我”字是否在字典中存在或是一個單字,“我”是一個單字,將“我”字輸出;

      (4)繼續取出短語“是國內”,檢查“是國內”是否在字典中存在或是一個單字,處理方式是去掉** 后面的“國個”字;

      (5)檢查短語“是中”是否在字典中存在或是一個單字,處理方式是去掉“中”字;

      (6)檢查“是”字是否在字典中存在或是一個單字,“是”是一個單字,將“是”字輸出;

      (7)取出短語“國內人”,檢查“國內人”是否在字典中存在或是一個單字,處理方式是去掉** 后面的“好”字;

      (8)檢查短語“國內”,發現是字典中的一個詞,直接輸出;

      (9)檢查短語“國人”,發現是字典中的一個詞,直接輸出;

      (10)** 后輸出結果為:我、是、國內、人。

      逆向** 大匹配:以句子結尾處進行分詞的方法。逆向** 大匹配技術** 大的一個作用是用來消歧。如“富營銷線下聚會在下城子鎮舉行”按照正向** 大匹配結果為:富/營銷/線/下/聚會/在/下/城子鎮/舉行,很顯然這當中差生了歧義。下城子鎮是一個地名,沒有被正確地切分。采用逆向** 大匹配的技術可以修正這個錯誤。例如設定一個分詞節點大小為7,那么“在下城子鎮舉行”中很顯然“舉行”被分出來了,** 后剩下“聚會在下城子鎮”,這樣一來歧義就被消除了。

      正向** 小匹配/逆向** 小匹配:一般很少使用到,實際使用中逆向匹配的精準度要高于正向匹配度。

      2)基于統計分詞方法

      直接調用分詞詞典中的若干詞進行匹配,同時也使用統計技術來識別一些新的詞語,將所有的統計結果匹配起來發揮切詞的** **率。

      分詞詞典是搜索引擎判斷詞語的依據,基本上收錄了漢語詞典當中所有的詞語。如我們在搜索引擎中輸入“我要減肥了”,“減肥”兩字就會被判定為一個詞語。現在網絡上經常會出現一些新造的網絡流行詞語如“神馬”、“犀利哥”等,這樣的詞也都會慢慢地被收錄。分詞詞典只有不斷更新才能滿足我們日常搜索判斷的需求。

      4.消除噪聲:網頁上有各種形形色色的廣告文字、廣告圖片、登錄框、版權信息等,為了某些目的不得不放上去,這些對搜索引擎來說不是有用的東西,可以直接去掉。

      5.分析網頁建立倒排文件:正向索引:經過前面幾步的工作之后就開始提取關鍵詞了,把頁面轉換為一個關鍵詞組合,同時記錄每一個關鍵詞在頁面上的出現頻率、出現次數、格式、位置,這樣每一個頁面都可以記錄為一串關鍵詞組合,其中每個關鍵詞的詞頻、格式、位置等權重信息也都記錄在案,如圖1-10所示。

      倒排索引:正向索引還不能直接用于排名。假如用戶搜索關鍵詞3,如果只用正向索引,排名程序需要掃描所有的索引中的文件,找出包含關鍵詞3的文件,再進行相關計算。這樣一來計算無法實時返回排名結果。所以搜索引擎會將正向索引數據庫重新構造為倒排索引,倒排索引以關鍵詞為索引,如圖1-11所示。

      6.鏈接關系計算:鏈接關系計算是預處理中重要的一步。主流搜索引擎排名因素都包含網頁之間的鏈接流信息。事先必須計算出頁面上有哪些鏈接指向哪些其他頁面,每個頁面有哪些導入鏈接,鏈接使用了什么錨文本等種種的鏈接計算。GooglePR是這種鏈接關系計算的重要代表之一。

      7.特殊文件處理:可以抓取和索引以文字為基礎的多種文件類型。對flash、視頻、PPT,XLS,圖片等非文字內容不能執行腳本和程序。搜索引擎目前還無法獲取flash文件和圖片中的文字信息。圖片一般推薦使用ALT標簽圖片文字信息。

    如何優化:
    網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營
    總訪問數:44008740 文章總數:13552 建站天數:3096
    相關閱讀
    01
    seo見到效果要多長時間?
      即使可能性達到90%,那也不叫** 。效果** 這方面,優化不能和PPC比,** 多和報紙、雜志廣告比一比。seo見到效果要多長時間?第二個,做SEO多久能看到效果?回答是,不一定。即使可能性達到90%,那也不叫** 。效果** 這方面,優化不能和PPC比,** 多和報紙、雜志廣告比一比......[詳情查看]
    02
    想要成為優化技術大拿?我給您支幾招
      想要成為優化技術大拿?我給您支幾招做網站,** 關心的就是如何提高百度對于該網站的收錄,獲得網站排名,這就要利用優化來完成。要做好一個網站,具體有一下幾個步驟。你要先想好你要做一個關于什么樣內容的網站。首先就是做好做網站前的準備。你要先想好你要做一個關于什么樣內容的網站......[詳情查看]
    03
    優化seo時怎么更好的利用“定制分析”與“seo分析”
      (2)搜索詞排名:這個對于重點觀測一組流量詞十分有用,尤其是為網站帶來高價值的關鍵詞和經期重點seo的關鍵詞時。百度統計提供的數據分析工具較為強大,除分析之外,還提供了定制分析及seo分析兩個選項,由于其并不適用于大多數小企業站,因此在此不做詳述,對其有需求或者感興趣的讀者可以結合以上數據分析工具融會貫通,多次實操后熟練掌握它們的使用方法即可。?例如,用戶可能會做如下統計。官方對子目錄綜合地位的全......[詳情查看]
    04
    站內優化seo需要限制聚合標簽數量
      等網站權重提高起來,或網站全體seo都比較好的時分,再考慮適當的增加標簽頁面。但咱們的一些網站初期仍是盡量少用,一般都會有相關文章,所以咱們得用好每一個對優化有用的標簽!。聚合標簽設置過多容易造成過度seo,而被查找引擎降權處理!在運用聚合標簽的時分你會發現,如果過度運用會造成網站過度seo,被查找引擎降權。一般咱們在發布文章的時分會添加一些標簽,會將一切文章中含有這個的標簽文章集合的一個獨自頁面......[詳情查看]
    05
    學優化需要基礎嗎
      優化學習結果的好壞在于個人的勤奮與聰慧。這樣上班學習兩不誤。也可以多學一些關于營銷的類知識,這樣才能把產品銷售的更好!優化教程自學網點評做優化培訓這么久以來,越來越發現一個普遍存在的問題優化不難學,但做好優化的人寥寥無幾,是行業悲哀還是其他,值得思考。** 近有和想參加培訓的朋友溝通,學習優化是否需要具備專業知識基礎,如果有基礎如程序開發經驗,學習優化的效率會更高,如果沒有基礎,則相對投入的學習時間與......[詳情查看]
    06
    網站不收錄的原因以及解決方法
      建議網站初期更新原創內容為主,自然的更新,不能突然一天更新很多。10。借助用戶的瀏覽行為來觸發推送動作,省去了站長人工操作的時間。比如吸引一個搜索引擎爬蟲來抓取網頁的內容,它不會很快離開,而是會對整個網站的頁面進行全新的檢索和抓取。黑帽SEO......[詳情查看]
    07
    優化網站seo排名技術大曝光
      7。7。7。(2016。7......[詳情查看]
    08
    交換友情鏈接與注意事項
      在上篇文章中了解到,我們交換友情鏈接** 好還是那種比我們網站流量大,權重高的網站。這里需要注意的是指數是可以人為的操作的,有一些站長通過軟件模擬真實用戶搜索該詞,把詞的指數給強行提高,造成網站的預估流量挺高的。這里面有一個問題;競價站怎么算?有些網站他沒有自然流量但是有做推廣每天付費流量很可觀,這個網站應該換友鏈嗎?結論是不應該去交換友鏈的,我們知道百度有自己的點擊算法,這個算法根據訪客訪問網站停留......[詳情查看]
    三上悠亚在线