豆瓣图书推荐策略调研与问题归纳
笔者列出相关指标,对豆瓣图书的推荐策略进行了调研,归纳总结了几个问题,针对问题给出了相应的改进方案。你的豆瓣给你推荐了什么书?
一、定义理想态
1.1 理想态定义
豆瓣推荐的书籍与用户兴趣相关(书籍查看率大于等于80%),令用户满意(书籍想读率大于等于80%)并且能够拓宽用户兴趣边界(多样性、时效性、新颖性)。
1.2 理想态指标
用户满意度,涉及指标定义如下:
- 书籍查看率:用户点击推荐书籍数/推荐书籍数;
- 书籍想读率:用户标记推荐书籍想读数/推荐书籍数;
- 书籍评价率:用户评价(包括标记读过、在读、评分)推荐书籍数/推荐书籍数。
预测准确度,涉及指标定义如下:
- 预测准确度:点击查看书籍数/推荐书籍数;
- 覆盖率;
- 多样性;
- 时效性;
- 新颖性。
二、抽样分析
2.1 Case选择
5~10本书籍的case选择覆盖面太窄,因此目前将书籍从内容类型角度分为9种类型,每种类型选择一本书,具体选择如下图所示。
2.2 Case汇总
9种case汇总如下图所示(由于表格较长,一张表格拆成两张图展示)。
2.3 问题分析
案例1
【推荐书籍5、6、7、9、10】
问题说明:多样性不足-同一个作者推荐太多。
从文学小说这个类型的书籍出发,虽然大家对同一个作者的书籍更有可能感兴趣,但是查看书籍为同一作者的推荐项占比超过50%还是过高了。因此这5本书籍的主要问题都是同一个作者推荐太多。
原因:不管从作者角度,还是内容类型角度出发,该书籍都不可能属于冷门书籍。因此推荐多样性不足的原因就不可能是收录的书籍数目太少,而应当是权重有问题,导致同一个作者的书籍占据了推荐书籍的90%。
可能的原因有三种:
- 有可能是作者标签过重;
- 用户协同过滤算法权重过大;
- 用户画像中用户对该作者的喜好程度极高,且权重大,导致推荐90%为同一作者书籍。
改进方案:
- 推荐逻辑中,降低作者标签权重;
- 推荐逻辑中,降低用户协同过滤算法权重;
- 推荐逻辑中,当用户画像中,用户对某一标签(作者)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
案例3
【推荐书籍2、3】
问题说明:推荐准确度太低-几乎无相关性。
这两本书相关性过于弱了,对于查看5+3的用户来说,很有可能是学生家长,也很难会对这两本书感到满意。
原因:从该case其他推荐书籍来看,豆瓣虽然可能对教辅书的收录和标签管理不足,但也有其他通识教育类的书籍可以推荐,因此出现该问题的原因应当是标签不准确。
改进方案:
- 增加收录该类目书籍;
- 调整优化书籍标签。
【推荐书籍4、5、8、10】
问题说明:推荐准确度太低-属于同一大类型,但细分类差别太大。
这4本书从内容角度来看具有一定相关性,可以属于一个内容类型大类。但是,从细分领域来看,两类书的差别还是较为明显,可能能够探索用户的兴趣边界,但是用40%的推荐项来探索用户兴趣边界过多了。
原因:同类型书籍收录过少,标签不准确,推荐目的错误。
改进方案:
- 增加收录该类目书籍;
- 调整优化书籍标签。
【推荐书籍6、7】
问题说明:推荐准确度太低-几乎无相关性。
相关性过弱,而作为探索用户的兴趣边界的推荐项,与上一个问题加起来占比超过60%,显然不是正确的策略。
原因:同类型书籍收录过少,标签不准确,推荐目的错误。
改进方案:
- 增加收录该类目书籍;
- 调整优化书籍标签。
案例4
【整体问题】
问题:推荐准确度太低-没有推荐该作者的其他书籍。
没有推荐该作者的其他书籍。单个推荐书籍没有问题,但是整体来看该作者推荐书籍太少。《全球通史》作为热门书籍,作者也并不是只有这一本代表作的情况,存在一定明星效应,因此可以多推荐1、2本该作者的其他书籍。
原因:标签权重有问题。
改进方案:推荐逻辑中,提高作者标签权重。
案例6
【推荐书籍1】
问题说明:时效性考虑不足。
时效性不足,书籍作者有更新的摄影书籍《长皱了的小孩》,该书豆瓣已有收录,但是豆瓣并没有推荐。
原因:标签权重有问题。
改进方案:推荐逻辑中,提高时效性标签权重。
【推荐书籍4、10】
问题说明:多样性不足-同一个作者推荐太多。
算上书籍2、3,推荐阮义忠的书籍共有4本。阮义忠不是该书籍的作者,但他的书籍占推荐项的40%,显然过多了。
原因:
- 标签权重有问题;
- 用户画像中用户对该作者的喜好程度极高,且权重大,导致推荐40%为同一作者书籍。
改进方案:
- 优化推荐规则,减少同一作者的推荐书籍;
- 推荐逻辑中,当用户画像中,用户对某一标签(作者)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
案例7
【推荐书籍10】
问题说明:展现顺序不合理。
该书籍与查看的书籍相关性很高,但是却排在推荐书籍末尾,排序有问题。
原因:标签权重有问题。
改进方案:排序逻辑中,提高内容相关性标签权重。
案例8
【整体问题】
问题说明:多样性不足-同一套书籍推荐太多。
所有推荐书籍均为火影忍者,没有多样性可言,很难让用户满意。
原因:
- 标签权重有问题;
- 用户画像中用户对该套书籍的喜好程度极高,且权重大,导致推荐40%为同一作者书籍。
改进方案:
- 推荐逻辑中,降低成套书籍相关性标签权重;
- 推荐逻辑中,当用户画像中,用户对某一标签(成套书籍)的喜好程度极高,导致推荐过于单一(造成40%以上的推荐都是同一标签)时,推荐中需要相应降低用户画像的权重。
案例9
【推荐书籍2】
问题说明:展现顺序不合理。
该书籍与查看的书籍相关性并没有其他推荐书籍高,但是排在推荐书籍第二位,排序有问题。
原因:标签权重有问题。
改进方案:排序逻辑中,提高内容相关性标签权重。
【推荐书籍8】
问题说明:重复推荐。
该书籍与推荐书籍7重复,这本应该是一个非常容易避免的错误。
原因:排序规则有问题。
改进方案:优化推荐规则,过滤重复书籍。
三、改进方案
3.1 改进方案汇总
影响面计算说明:问题涉及案例推荐书籍数/总案例推荐书籍数=x/90。
本文由 @misbone 原创发布于人人都是产品经理,未经许可,禁止转载
题图来自 Unsplash,基于 CC0 协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: