13608068886

    內(nèi)容APP如何給用戶打標簽&內(nèi)容推送? | 成都傳媒

    時間:2019-12-16

     

    17年-18年底我參與了一個資訊內(nèi)容興趣偏好標簽的項目。什么是內(nèi)容興趣偏好標簽呢?

    簡單來說就是分析用戶喜歡看的文章類型,得到用戶的興趣偏好,在這樣的基礎(chǔ)上,對用戶進行內(nèi)容的個性化推薦和push推送,來有效促進app的活躍并拉長用戶生命周期。

    這件事情簡單來說其實就是兩步走:

    • 一是,給文章進行分類,也就是我們俗稱的給文章打標簽。
    • 二是,給用戶打標簽,也就是用戶閱讀了哪些類型的文章,相應的就會獲取到自己的興趣偏好標簽。比如我愛看科技類型的文章,那我便有極大的可能被打上科技的資訊標簽。整體流程如下;

    那么在實際操作中真的如此簡單嗎?看似簡單的兩個環(huán)節(jié),究竟是如何實現(xiàn)的呢?

    筆者因為這個項目的原因,看了非常多競品app的文章分類,發(fā)現(xiàn)基本上趨于一致,但也有一些細節(jié)上的差異,更多的問題,在于資訊文章的分類很難窮盡,我們參考了市面上已有的分類,并結(jié)合一些資料制定了一整套內(nèi)容興趣偏好體系,在指定分類時,我們遵循MECE原則,基本達到了相互獨立完全窮盡。

    接下來,我們要對文章進行分類,我們采用了分類算法的有監(jiān)督的學習。理想情況下,流程是這樣的:

    但在實際中面臨兩個問題,由于選擇了有監(jiān)督的學習,就面臨必須要提供有標注的樣本的基礎(chǔ)。一般情況下有三種方式獲取樣本:

    • 一是人工對文章進行標注,優(yōu)點是準確,缺點是效率低,對于算法要求大量樣本的要求,成本非常高。
    • 而另一種方式則是通過一些開源網(wǎng)站提供的關(guān)鍵詞進行模型訓練,比如可以從搜狗詞庫獲取,優(yōu)點是成本低,但缺點也很明顯,由于不同的分類體系對部分分類的理解不一致,導致分類并不夠準確,后期需要耗費大量的人力進行矯正。
    • 第三種方式是和一些資訊類app進行合作,獲取他們的文章以及分類作為樣本,例如目前做的比較好的如今日頭條、uc等都是不錯的選擇。我們當時其實都嘗試了(一把辛酸淚)。

    獲取樣本以后,就是算法模型的訓練及其檢驗了。算法模型的訓練原理,即通過對樣本文章進行分詞,抽取實體,建立特征工程,將每一個特征詞作為向量,擬合出一個函數(shù),這樣,當有新的文章時,該文章通過分詞,并通過模型計算出結(jié)果。但模型并不是能夠有樣本一次性就能準確的,模型還需要進行測試和矯正。一般測試流程如下:

    通過了測試的模型也并不是一勞永逸的,仍然可能在后期出現(xiàn)一些分類不準確的問題,這可能是樣本造成的,也可能是算法模型造成的。這需要我們找出這些異常的文章及其分類,并矯正分類,再次作為訓練樣本投喂給模型,進行模型的矯正。一方面,我們可以對轉(zhuǎn)化率比較低的分類的文章進行人工抽檢,確定問題是否出在算法。另外,在這里,由于每一篇文章的標簽都被賦予了一個值,我們可以為這些值設(shè)置一個閾值,當最高值低于某個閾值,這些文章及其標簽將被召回,由人工進行標注和矯正,并在此投入樣本庫中。

    文章標簽的計算,由于文章具有多種標簽的可能,并非一些二分類非此即彼的結(jié)果,因此我們采用的方式是,通過相似性算法,模型計算出文章的標簽,并賦值,值越高則說明和這類標簽越接近,并被打上相應標簽。

    至此,文章打標簽的部分就已經(jīng)完成了。

    給用戶打標簽的方式其實也可以包含兩種,統(tǒng)計類的打標簽及算法類的打標簽。

    • 統(tǒng)計類相對簡單粗暴式的以用戶一段時間閱讀的文章類型作為用戶的興趣偏好。
    • 而算法類則會增加更多的影響因素,包括文章閱讀的數(shù)量,閱讀的時間間隔,文章與當前熱點事件的關(guān)系、用戶屬性因素等等。

    前者在算法資源不足同時運營需求量大的情況下可以先行,而后者可以在前者的基礎(chǔ)上切分一部分流量對算法模型進行驗證和調(diào)整,不斷優(yōu)化。

    但在用第一種方式進行時我們發(fā)現(xiàn),用戶在一段時間內(nèi)閱讀的文章類型并不是穩(wěn)定的,大部分用戶會有一個或者幾個主要的興趣偏好,這些類型閱讀的文章篇數(shù)會更多,但同時,用戶也會或多或少的閱讀一些其他類型的文章,甚至有些用戶是看到哪里算哪里,什么都會看。

    基于這樣的情況,我們需要對用戶的興趣偏好進行排名,即通過對用戶一段時間內(nèi)每種文章類型閱讀的文章數(shù)進行排名,并取用戶top 10的標簽,清晰告訴運營用戶喜歡什么類型的文章,這些類型中,用戶喜歡類型的優(yōu)先級是怎樣的,便于運營同學進行推送選擇。

    因此,用戶的標簽也需要更加靈活,能夠讓運營同學基于事件發(fā)生時間及事件發(fā)生次數(shù)等權(quán)重進行靈活組合選擇用戶群。

    由于目前push推送很大一部分是由人工進行的,從選擇文章,到選擇用戶,到文章和用戶的匹配,在正式進行推送前一般都會進行大批量的A/B test ,而資訊文章的類型非常多,僅一級標簽已經(jīng)達到30+種,二級標簽從100到幾百不等,總體的標簽極有可能會有成千的標簽,單靠運營同學進行推送,是絕對無法完成的。

    因此,在運營資源有限又無法實現(xiàn)自動化的的情況下一般運營同學會對標簽進行測試,并選擇其中覆蓋用戶量大且轉(zhuǎn)化率較高的標簽。但同時這樣的情況就會導致部分興趣偏好比較小眾的用戶被排除出推送的人群。

    針對這樣的情況,我們?nèi)×擞脩魌op 10的二級標簽及其對應的一級標簽作為用戶的一級和二級標簽。這樣,解決了用戶覆蓋量的問題,也可以讓運營人員集中精力對主體標簽及人群進行推送。

    但同時,另一個問題又出現(xiàn)了,選擇用戶一段時間內(nèi)的行為,那么這個一段時間究竟是多長會更加合適,使得既達到能充分反應用戶興趣,同時又覆蓋到更多的人群(每天都會有流失的用戶,因此時間線越長覆蓋用戶量越大,時間線越短覆蓋用戶量越少)

    我們發(fā)現(xiàn),用戶長期的興趣偏好趨于某種程度的穩(wěn)定,但短期的興趣偏好卻又反應了用戶短期內(nèi)跟隨熱點的行為。因此從這個層面來看,短期可能更能滿足用戶的需求,但短期覆蓋用戶量小。在這里,始終有覆蓋量和轉(zhuǎn)化率之間永恒的矛盾。

    我們的方式是,對用戶根據(jù)瀏覽時間進行分段。賦予用戶長期興趣偏好和短期興趣偏好,并優(yōu)先短期興趣偏好,從長期興趣偏好中則將短期興趣用戶進行排除,進行不同的推送。而對于流失用戶,極有可能在最近3個月(資訊當時定義流失用戶時間為3個月)沒有任何訪問記錄,針對于這樣的用戶,我們?nèi)∮脩糇詈笠淮斡杏涗浀臉撕炞鳛橛脩魳撕灒⑦M行流失挽回。

    至此,所有的用戶也都有了屬于自己的標簽,而運營同學也可以根據(jù)用戶的活躍時間以及閱讀的頻率對不同的用戶進行不同的文章推送,真正的實現(xiàn)千人千面。

    在這個問題上我們可以說是踩了不少的坑。

    而第二種方式,是通過算法直接為用戶打上標簽,除了時間和閱讀頻次,在算法模型中還可以增加更多的特征緯度,比如用戶閱讀文章距離現(xiàn)在的時間、閱讀文章的時長、評論、點贊等等,同時,還可以針對于熱點文章、熱點事件,降低文章的權(quán)重。

    當我回首去總結(jié)這一段經(jīng)歷的時候,甚至當讀者你跟隨我去了解這一段經(jīng)歷的時候可能會覺得其實很簡單,但是,在這一段經(jīng)歷中我們真的踩了無數(shù)的坑,尤其是我們不僅僅要去采集數(shù)據(jù)、制作標簽,甚至還要去指導業(yè)務(wù)進行投放以及問題分析,那段經(jīng)歷可以說是痛苦并快樂的——

    痛苦是因為問題實在太多,業(yè)務(wù)每天都在追著我問今天為什么轉(zhuǎn)化率又低了;快樂是因為我們最終轉(zhuǎn)化率終于提高了一倍不止,甚至高于行業(yè)水平,也算是最好的回報了。

     

    作者:糖糖是老壇酸菜女王

    來源:糖糖是老壇酸菜女王

    136 0806 8886【加微信請注明來意】

    四川省成都市高新區(qū)天府三街1599號(天府三街與南華路交匯處)

    活動策劃攻略
    亚洲欧洲精品成人久久奇米网 | 欧美精品色婷婷五月综合| 国产精品部在线观看| 国产精品青草视频免费播放| 无码精品第一页| 无码日韩精品一区二区免费暖暖| 51视频国产精品一区二区| 国产精品青草久久久久福利99| 日本特黄a级120秒试看| 国产成人无码久久久精品一| 国产精品青草久久久久福利99| 男人狂扒美女尿口亲尿口动态图| 91精品国产自产在线观看永久| 精品无码久久久久久久久久| 亚洲国产精品SSS在线观看AV| 精品视频在线免费观看| 婷婷国产成人精品一区二| 国产精品网站在线观看免费传媒| 国精品无码A区一区二区| 亚洲AV无码成人精品区天堂| 69堂午夜精品视频在线| 日本精品一区二区三区在线播放| 精品久久久久久中文字幕| 欧美成人精品第一区二区| 久久久久无码精品国产| 国产成人精品曰本亚洲79ren| 国产女人成人精品视频| 亚洲国产精品久久久久婷婷老年| 亚洲综合美腿丝国产一区| 青青草国产精品久久| v视界影院最新网站| 久久久九九有精品国产| 日韩好看中文字母| 91精品婷婷国产综合久久| 伊人久久精品无码av一区| 国产精品99久久久久久www| 亚洲处破女AV日韩精品| 精品国产婷婷久久久| 久久99精品久久久久久久不卡| 精品亚洲一区二区三区在线播放| 黑人巨大精品欧美|