• 企業互聯專業網站定制+品牌網站設計+集團網站建設
    400 0082 880
    在網站中的用戶標簽有什么作用?
    擁抱趨勢 專業優化 快速打造能賺錢的網站
    馬上咨詢
    2015-09-22 09:28:53閱讀:396來源:seo優化公司作者:企業互聯
    [導語]為您推薦文章《在網站中的用戶標簽有什么作用?》(本文主要講述:目前低質模型的準確率和召回率都不是特別高,還需要結合人工復審,將閾值提高。事實上,很多因素都會影響推薦效果。很多改進仍然要通過人工分析,重大改進需要人工評估二次確認。在內容分析中會涉及到一些有關機器學習的方面,兩者相較而言,用戶標簽這一項目的難度更大。頭條人工智能實驗室李航老師目前也在和密歇根大學共建科研項目,設立謠言識別平臺......)如果你對文章有興趣,歡迎關注我們
    本文對396人有所幫助,共有1871個文字,預計閱讀所需時間5分鐘

    在網站中的用戶標簽有什么作用?

      在網站中的用戶標簽有什么作用?

      在網站中的推薦系統有兩大基石他們分別是用戶標簽和內容分析。在內容分析中會涉及到一些有關機器學習的方面,兩者相較而言,用戶標簽這一項目的難度更大。

      在今日頭條的網站中我們常用到的用戶標簽主要有用戶比較想知道的主題亦或是極為重要的關鍵詞等等。對于用戶的性別信息我們可以從第三方社交賬號中得到。而用戶的年齡信息主要是從模型中預測,主要是根據用戶閱讀的時間和機型來預測。經常訪問的地點主要是由用戶自己授權網站訪問得到的

      當然在網站中** 簡單** 基礎的用戶標簽就是用戶瀏覽過后的內容標簽。主要分為三個方面:第一方面就是能夠過濾噪音,網站通過用戶停留的時間的長短來過濾標題黨。第二方面就是熱點懲罰,對于網站中一些極受用戶歡迎的文章,用戶會在上面留言,但不乏一些不好的留言,而這樣就會遭到懲罰。譬如降權處理等等。第三方面就是時間衰減,隨著年齡的增長,用戶的興趣也會發生一些改變,所以網站的策略就更偏向于新的用戶。現在隨著用戶動作的增加時間久的一些權重影響力就會降低。第四方面就是懲罰展現,如果有那么一篇文章是推薦給用戶的但卻沒有人點擊,那么與之相關的權重就會遭受懲罰。

      要知道用戶標簽找出的大都是一些簡單的關鍵詞,例如今日頭條它的用戶標簽第一版就是批量計算框架,在這個系統中它的流程相較其他而言就更簡單些。

      但問題在于,隨著用戶高速增長,興趣模型種類和其他批量處理任務都在增加,涉及到的計算量太大。2014年,批量處理任務幾百萬用戶標簽更新的Hadoop任務,當天完成已經開始勉強。集群計算資源緊張很容易影響其它工作,集中寫入分布式存儲系統的壓力也開始增大,并且用戶興趣標簽更新延遲越來越高。

      面對這些挑戰。2014年底今日頭條上線了用戶標簽Storm集群流式計算系統。改成流式之后,只要有用戶動作更新就更新標簽,CPU代價比較小,可以節省80%的CPU時間,大大降低了計算資源開銷。同時,只需幾十臺機器就可以支撐每天數千萬用戶的興趣模型更新,并且特征更新速度非常快,基本可以做到準實時。這套系統從上線一直使用至今。

      當然,我們也發現并非所有用戶標簽都需要流式系統。像用戶的性別、年齡、常駐地點這些信息,不需要實時重復計算,就仍然保留daily更新。

      四、評估分析

      上面介紹了推薦系統的整體架構,那么如何評估推薦效果好不好?

      有一句我認為非常有智慧的話,“一個事情沒法評估就沒法seo”。對推薦系統也是一樣。

      事實上,很多因素都會影響推薦效果。比如侯選集合變化,召回模塊的改進或增加,推薦特征的增加,模型架構的改進在,算法參數的seo等等,不一一舉例。評估的意義就在于,很多seo** 終可能是負向效果,并不是seo上線后效果就會改進。

      全面的評估推薦系統,需要完備的評估體系、強大的實驗平臺以及易用的經驗分析工具。所謂完備的體系就是并非單一指標衡量,不能只看點擊率或者停留時長等,需要綜合評估。過去幾年我們一直在嘗試,能不能綜合盡可能多的指標合成唯一的評估指標,但仍在探索中。目前,我們上線還是要由各業務比較資深的同學組成評審委員會深入討論后決定。

      很多公司算法做的不好,并非是工程師能力不夠,而是需要一個強大的實驗平臺,還有便捷的實驗分析工具,可以智能分析數據指標的置信度。

      一個良好的評估體系建立需要遵循幾個原則,首先是兼顧短期指標與長期指標。我在之前公司負責電商方向的時候觀察到,很多策略調整短期內用戶覺得新鮮,但是長期看其實沒有任何助益。

      其次,要兼顧用戶指標和生態指標。今日頭條作為內容分創作平臺,既要為內容創作者提供價值,讓他更有尊嚴的創作,也有義務滿足用戶,這兩者要平衡。還有廣告主利益也要考慮,這是多方博弈和平衡的過程。

      另外,要注意協同效應的影響。實驗中嚴格的流量隔離很難做到,要注意外部效應。

      強大的實驗平臺非常直接的優點是,當同時在線的實驗比較多時,可以由平臺自動分配流量,無需人工溝通,并且實驗結束流量立即回收,提高管理效率。這能幫助公司降低分析成本,加快算法迭代效應,使整個系統的算法seo工作能夠快速往前推進。

      這是頭條A/BTest實驗系統的基本原理。首先我們會做在離線狀態下做好用戶分桶,然后線上分配實驗流量,將桶里用戶打上標簽,分給實驗組。舉個例子,開一個10%流量的實驗,兩個實驗組各5%,一個5%是基線,策略和線上大盤一樣,另外一個是新的策略。

      實驗過程中用戶動作會被搜集,基本上是準實時,每小時都可以看到。但因為小時數據有波動,通常是以天為時間節點來看。動作搜集后會有日志處理、分布式統計、寫入數據庫,非常便捷。

      在這個系統下工程師只需要設置流量需求、實驗時間、定義特殊過濾條件,自定義實驗組id。系統可以自動生成:實驗數據對比、實驗數據置信度、實驗結論總結以及實驗seo建議。

      當然,只有實驗平臺是遠遠不夠的。線上實驗平臺只能通過數據指標變化推測用戶體驗的變化,但數據指標和用戶體驗存在差異,很多指標不能完全量化。很多改進仍然要通過人工分析,重大改進需要人工評估二次確認。

      五、內容安全

      ** 后要介紹今日頭條在內容安全上的一些舉措。頭條現在已經是國內** 大的內容創作與分發憑條,必須越來越重視社會責任和行業領導者的責任。如果1%的推薦內容出現問題,就會產生較大的影響。

      因此頭條從創立伊始就把內容安全放在公司** 高優先級隊列。成立之初,已經專門設有審核團隊負責內容安全。當時研發所有客戶端、后端、算法的同學一共才不到40人,頭條非常重視內容審核。

      現在,今日頭條的內容主要來源于兩部分,一是具有成熟內容生產能力的PGC平臺

      一是UGC用戶內容,如問答、用戶評論、微頭條。這兩部分內容需要通過統一的審核機制。如果是數量相對少的PGC內容,會直接進行風險審核,沒有問題會大范圍推薦。UGC內容需要經過一個風險模型的過濾,有問題的會進入二次風險審核。審核通過后,內容會被真正進行推薦。這時如果收到一定量以上的評論或者舉報負向反饋,還會再回到復審環節,有問題直接下架。整個機制相對而言比較健全,作為行業領先者,在內容安全上,今日頭條一直用** 高的標準要求自己。

      分享內容識別技術主要鑒黃模型,謾罵模型以及低俗模型。今日頭條的低俗模型通過深度學習算法訓練,樣本庫非常大,圖片、文本同時分析。這部分模型更注重召回率,準確率甚至可以犧牲一些。謾罵模型的樣本庫同樣超過百萬,召回率高達95%+,準確率80%+。如果用戶經常出言不諱或者不當的評論,我們有一些懲罰機制。

      泛低質識別涉及的情況非常多,像假新聞、黑稿、題文不符、標題黨、內容質量低等等,這部分內容由機器理解是非常難的,需要大量反饋信息,包括其他樣本信息比對。目前低質模型的準確率和召回率都不是特別高,還需要結合人工復審,將閾值提高。目前** 終的召回已達到95%,這部分其實還有非常多的工作可以做。頭條人工智能實驗室李航老師目前也在和密歇根大學共建科研項目,設立謠言識別平臺。

    如何優化:
    網站url改版不收錄 網站建設哪個 奉賢網站改版哪家好 公司網站改版價格會變嗎 網站改版注意哪些 陽江網站開發 孝義網站定制公司 日本跨境選品軟件網站開發 本溪網站定制報價 鄭州旅游網站開發運營
    總訪問數:44014638 文章總數:13552 建站天數:3096
    相關閱讀
    01
    百度知道推廣成功的關鍵
      4、百度知道客戶端刪除自己提問;5、Pc端刷新自己的問題,就可以回答自己問題了。1、下載百度知道客戶端;2、百度知道客戶端提問(設定標簽);3、PC端根據標簽或者“我的提問”處找到自己所提問題。(四)如何**的在百度知道留鏈接1、首先,在百度知道留鏈接,是沒有絕對方法能夠** 不被刪的。6、回答時務必要多一些文字,注意回答問題格式,有序號、有圖片。(四)如何**的在百度知道留鏈接1、首先,在百度知道......[詳情查看]
    02
    網絡營銷推廣要想占領市場份額 必要要將競爭對手壓制到支離破碎
      在國內互聯網社交網絡領域,騰訊絕對是一個巨人。發起一場大規模的市場攻擊,大多數公司只有一次機會獲勝,但對于市場領導者來說,只有兩次機會。同樣,它的反阻塞策略也非常成功。此時,領導者通常有足夠的時間壓制和殺死競爭對手。在國內互聯網社交網絡領域,騰訊絕對是一個巨人......[詳情查看]
    03
    seo中的二八定律
      合理科學的網站流量結構應該是由“二八法則”向“長尾理論”演進,因為“二八法則”所代表的是企業的主要客戶,“長尾理論”代表的是挖掘潛在客戶。因為相對來說,“二八法則”與“長尾理論”都是一種方式,在做關鍵詞優化的時候,我們首先要做的就是找出企業的核心業務關鍵詞,再分析長尾關鍵詞。典型的情況是只有少數產品銷量較高,其余多數產品銷量很低。大、中型的門戶網站流量結構是由“長尾理論”構成而不是“二八法則”。二......[詳情查看]
    04
    網站seo內容建設為什么一定要明確主題?
      基于一個實際案例分享,就是要說明一個主題鮮明的網站是要解決用戶某一個方面的真正訴求,以增加用戶體驗為前提,以解決訴求為目的,通過某一個主題內容的專業性可以樹立你在用戶心中的權威,只有這樣才是良性的運營之道。1、用戶角度國內有上億的互聯網用戶在使用搜素引擎解決問題,他們的需求也是多式多樣的,比如說出去旅游其中就涉及到了三個主題:游記分享、旅游攻略、旅游產品預定,雖然一個站可以通過旅游去聚合這三個大的......[詳情查看]
    05
    seo日常數據如何監測
      通過對外鏈seo的工作檢查,了解外鏈seo中哪些還沒有做好,以不斷修正seo的策路、提高網站關鍵詞的排名、防止seo問題產生。外鏈seo效果監測外鏈seo是網站seo的重要組成部分,其效果監測就成了必不可少的工作。通過對外鏈seo的工作檢查,了解外鏈seo中哪些還沒有做好,以不斷修正seo的策路、提高網站關鍵詞的排名、防止seo問題產生。3。監測網站流量數據就是對網站目標的檢查,首先應明確網站的流......[詳情查看]
    06
    企業做優化的絕對好處?
      優化可以實時監測:現在有很多網站提供網站統計的功能,比如百度,CNZZ等統計工具,隨機監控網站流量,關鍵詞排名等情況,這樣也能讓我們實時進行優化策略的調整。那么今天先談企業為什么要做優化這個話題。總結:企業很有必要做優化,當然優化只是一個點,企業要產生更好的效果就應該從網絡營銷戰略的角度出發,進行多角度的策劃和實施,這樣網絡能對企業帶去的效益是難以想象的。企業為什么要做優化?佛山優化為大家分析,企......[詳情查看]
    07
    如何提高建站價值?注意事項有什么?
      三、關注用戶的需求不僅僅是在制作網站的時候需要關注用戶需求,在后期進行維護的時候都要一用戶中心,分析用戶需求,進而將有用的信息添加到網站之中,讓用戶感覺到有用的東西才是有價值的,這樣的網站才會吸引更多的用戶,而且針對性較強,用戶也能獲得很好的體驗。那如何提高建站價值呢?注意事項有什么?一、網站內容質量度說道內容,大多數網站的內容都是千篇一律,不要說用戶已經厭倦,對于搜搜引擎來說也是早已沒有價值,所......[詳情查看]
    08
    企業要不要做網站
      網站是可以提高企業對客戶服務的效率。對于公司的網站來說,我們要把客戶知道的信息都放在網站上,按天付費優化,不僅可以提升企業的形象。能夠讓用戶更加詳細的了解企業是做什么的,有什么產品,有什么保障。不管公司大小如何,現在都是需要做網站推廣的,其實網站推廣這塊算是傳統營銷中** 精準的并且成本** 低的一種營銷方式,那么不管是企業的規模如何,都是需要采用網站推廣形式來做營銷的,既然做了網站推廣,客戶在網上找到公......[詳情查看]
    三上悠亚在线