如何用风控拯救下架的内容社区?
编者按:本文来自微信公众号“半佛仙人”(ID:banfoSB),作者 半佛仙人,36氪经授权发布。原题目《如何用风控拯救下架的小红书》
01
这两天互联网圈最大的热门事件是,小红书下架了。
7月29日晚间,各大安卓应用市场的小红书APP暂时不提供下载。
作为国民级种草APP,小红书的下架既是意料之外,也是情理之中。
意料之外在于,小红书本身只是一个主打消费的内容社区,本身不具有攻击性。
情理之中在于,小红书是C2C模式,笔记内容可以随意发布,任何人用任何方法都可以发布任何内容。
正常人可以,微商可以,特殊工作者可以,黑产也可以。
对于一切C2C的工具类平台产品,只要能发布内容,其实内容失控的风险都是存在的,不仅是小红书。
之前的即刻,Soul,乃至网易云音乐,都存在内容失控的情况,话题广场,论坛,评论区,用户昵称,甚至私人对话,只要可以录入文字图片和语音的地方,就存在着失控的风险。
毕竟产品是简单的,人性是复杂的。
平台治理和内容安全也归属于大风控的范畴,作为一名风控从业者,在这方面,我有一些实战经验。
这篇文章,我打算从内容风控和平台治理的角度来谈谈行业当前的现状与困境。
内容失控,对于所有电商和社区类产品而言,都是致命的。
尤其在互联网文明越来越重要的今天。
02
小红书作为C2C的工具类平台,用户是可以自己上传图片和笔记的。
同时小红书又是Top的种草平台,用户逛小红书就是买东西的。
自由的规则配合精准的潜在消费者,二者一结合,就成了一块超级美妙的流量蛋糕,肥的流油。
于是各种违禁黑产,色情交易,非法医美,就都来了。
在下架前,小红书通过一些关键词索引,可以获得各种神奇的服务,当然现在已经开始大规模屏蔽。
例如粉毒和非法医美;比基尼和特殊服务;增高减肥和黑五类保健品;银行卡电话卡和黑产资料。
这些笔记的特点都是打着攻略分享的名义,往卖家的私人微信号上导流,然后用话术诱导成交。
这种自发性的C2C传播,也是小红书产品本身的最大特点。
很多不法商家在利用小红书这个平台,大发横财。
小红书作为平台方,有苦难言。
03
我不想去讨论小红书作为平台有没有责任,毕竟内容是用户自发的,这块我不够专业。
我想讨论的是,用什么方法可以有效治理掉这些垃圾内容,小红书的风控和平台治理们也在头疼这件事情。
作为风控同行,我想提一些建议,这些源自我的一些实战经验,希望能对他们以及读者有所帮助。
OK,小红书当前面临的核心问题是,C端用户上传的内容具有很大的不可控性,里面可能夹杂了大量的违法违禁内容,需要有效识别这些人,然后针对性屏蔽和封号,在保证正常用户体验的前提下,降低内容风险。
当然,不管是降低内容风险,还是保证用户体验,其核心目的都是要保证企业的商业利益最大化,这是大前提,风控要为业务服务。
所以一切手段最终都要平衡误杀率和ROI。
那么,我们开始。
04
关于违规内容屏蔽,目前业内主要使用的是外采词库以及内部维护一套动态词库。
所谓外采词库就是有专门的供应商会做涉及敏感领域的词,支持API的形式直接调用,可以嵌入到用户昵称录入,文本上传,用户私信等模块,只要上传文本,都会进行一次词库过滤,把一些违禁的词给抓出来。
优点是快速上线,缺点是词库是暗箱状态(属于供应商),并且业务关键数据容易泄露(API调用的入参容易被供应商拿走商用)。
我知道小红书的供应商是哪家,我也测试过很多家,只能说通用词库是没法依据实际业务场景来做精准打击的,建议小红书自建词库,如果没有现成可配置的词库框架,可以使用脚本的方式来让研发维护一套词库,当然最好还是做成可配置的,毕竟用脚本的话,词多了很容易崩溃,不是长久之计。
有了这一套东西后,需要一套应用策略,包含敏感词收集策略,敏感词应用策略,敏感词处置策略。
所谓敏感词收集策略,要解决的是如何获取到有效的敏感词。
很多人工智能公司吹捧所谓自然语义识别,用机器学习做,在这里是不好用的,我要提醒一下小红书,不要迷信机器学习。
因为汉语是博大精深的,使用谐音字,变体字,火星文,以及中间夹杂各种特殊符号和空格的模式,很容易就能绕过机器。
就微信这个词,可以变种成V信,VX,威,VV,你懂得,威X信等等等等,机器学习做不到这么精准的打击,但人的识别配合SQL以及Python代码,可以实现。
在这里,建议使用实时数据库,配专门的数据分析师来做词语收集。
数据分析师可以通过一些基础的违规信息,来进一步人工延伸出索引规则,例如微 ` 信12345,就可以提取出某些关键字(用微这个字来做索引),某些特殊符号,甚至某些符号+数字的特征来抓。
一个熟练的风控数据分析师,一天抓出上万有效敏感词不是问题。
所谓敏感词应用策略,要解决的问题是这些敏感词用于哪些领域。
当你有了一个敏感词库时,你需要对每一个词进行打标签,例如杀人这个词是A类标签,吃奶这个词是B类标签,不同的业务场景以及电商品类,要使用完全不同的标签。
例如牛奶类的笔记,用吃奶这个词就会误伤很大。
这里需要做的是,给每一个场景的业务都打上标签,然后依据标签来使用敏感词库中的词类目。
例如口红类笔记要用ABC标签的词。
例如旗袍类的笔记要用CDF标签的词等等。
至于如何拆解品类打标和敏感词,这个就不展开了,展开必是长篇大论。
所谓敏感词处置策略,要解决的问题是内容命中了敏感词之后,要如何处置这些内容。
这里其实也牵涉对敏感词的打标,主要是设置敏感词处置权重。
例如黄恐暴类的敏感词,标签对应的处置手段应该是直接屏蔽+封号或者直接禁止发布。
例如疑似推广微信号的标签,对应的处置手段应该是屏蔽+禁言,或者禁止发布。
例如命中了一些权重较弱的敏感词或者敏感字,对应的处置手段应该是转人工审核,再发布。
当然这里只是举几个简单的例子,敏感词的应用方法还有很多,不过这个方向是目前比较成熟的模式。
除却敏感词之外,小红书的笔记中还含有大量的图片类内容,这些图片类内容目前主要的问题有2个。
第一个是黄恐暴类图片,图片本身有问题。
第二个是图片本身没问题,但是图片里面的东西有问题,例如图片里面就有VX:12345等字迹或者水印。
对于前者,建议直接购买现成的图片识别服务,阿里腾讯都有成熟的服务。
对于后者,可以使用OCR把图片转成文字,然后使用敏感词策略来进行处理。
以上是对于内容本身的风控思路,需要注意的是,这个需要投入大量的资源,尤其是人工审核资源,今日头条就有数千人专门做内容审核,对于内容电商来说,这个不能省。
而且内容攻防应该是动态的,不存在一劳永逸的事情,需要做好持久战的准备,汉语就是这么博大精深。
05
内容风控很重要,但其实只是表层,而且永远难以做到穷举,真的一刀切下去,会误伤大量的正常用户,这对于用户体验和公司的商业价值而言都是损失。
比内容风控更重要的,是底层风控,从用户注册到发生第一次行为(例如发布笔记或者给某个笔记点赞或者评论或者分享),都需要做更深入的风险管理。
除了要管别人发了什么内容,同样还要管是哪些【人】发了这些内容。
通过敏感词体系,可以对大量的内容笔记来进行标签,分类出正常笔记,可疑笔记,捣乱笔记,沙雕笔记等等等等等,这些统称为Y。
风控策略的基础逻辑是F(x)=Y,X是指特征,F是指算法or策略,Y是指效果。
当你有了Y之后,就等于知道了答案。
然后去找这些异常的笔记,都是谁发布的,这些发布的账号的特征(X)是什么。
一般常见的账号特征有数百个维度,例如注册时间,年龄,性别,发布时间,常用标签,ip地址,设备号(imac,imei,device id),手机号,性别,归属地,APP来源(华为市场,小米市场,APP Store),登录模式(APP,小程序,H5),手机型号,GPS地址,LBS区域,用户注册来源(自来水,A活动推广,市场投放转化,CPA),历史行为(点赞数,关注人),浏览行为,等等等等等,这些信息有的来自于APP埋点,有的来自于依据原有特征推算出的衍生特征。
特征工程是风控的核心之一,重要性不亚于策略应用,好的数据是一切的基础。
通过敏感词找到Y,然后利用Y来反推命中的X,然后得出应用策略-F。
案例1,假如小红书发现某个整容类的异常笔记,大部分发布者和点赞者的IP都是相同的或者都是同一个号段的,那么完全可以设置策略屏蔽这个IP段发这个类型的笔记。
案例2,假如小红书发现某些有问题的笔记,都指向同一个微信号,那么就把发布过这个微信号的账号全都封了,连误杀都没有。
案例3,假如小红书发现某些有问题的笔记,大部分发布者和点赞者都是24小时内注册的,那么完全可以设置注册时间XXX时间内,不允许在XX领域发笔记。
类似的规则,在成熟的平台治理中,会有数十万条,我做过设计和维护。
这一切的规则,都要做成动态可配置的,做成决策引擎的模式,风控只需要拖拉拽这些标签,然后自己写比对符和阈值,再配置处置手段,就可以生效。
例如一条规则,禁止注册时间在24小时内的女性用户发布比基尼笔记。
拆解起来就是。
注册时间<24小时,
且 性别标签=女,
且笔记标签=比基尼
则,禁止发布,
且,弹出文案【半佛仙人你别比比了】。
把这些做成是否的标签,可以自由配置,快速上线。
06
夹杂敏感词策略和决策引擎中间,还应该有一层基于【账户】维度的用户关系网络以及实时监控和干预机制,用图挖掘来做。
所谓关系网络,是指不同账户间的关系,由点和线组成。
例如A账户给B账户的笔记点赞或者评价,就会形成一条关系。
反应在网络中就是A点和B点之间出现了一条关系线(A点赞/评论B)。
再例如A账户和C账户同时给B账户的笔记点赞或者评价,就会形成多条关系线。
反应在网络中就是A点到B点(点赞串联),C点到B点(点赞串联),A点到C点(都给B点过赞)。
关系网络,是对于批量作弊账户的大杀器。
在实际业务中,通过设置点和线的规则,可以有效拦截批量异常行为。
例如在同一个时间,出现了大量有关联的账户(相同IP,相同操作频率,相同GPS等),与某几个笔记或者账户出现了可疑关联(批量点赞),就可以进行拦截。
例如在近10分钟内,整个的流量池出现了波动异常(分均用户点赞数超过了平均值XX倍),则可以触发警报,把溢出流量关联的内容进行屏蔽等等等。
关系网络更多是横向的对比以及大盘的监控,涉及账户管控,不仅要看横向,更要看纵向。
所谓横向,是指同一个时间里,账户A和账户BCDEF是否有相同的行为或者异常的关联,所有人放在一起来比不同。
所谓纵向,是指同一个账户,在不同的时间里,进行了怎样的操作。
例如A账户,过去六个月都是给一些正常的笔记点赞,浏览和评论都很正常,但是近3天,在密集的跟一些异常的笔记产生互动和分享。
这就是账户出现了问题,与之前的操作不同,需要对账户发出警告,要么屏蔽功能,要么要求实名。
横向是用其他用户的特征比对一个用户,纵向是指用户过去的特征比对当前的行为。
纵横之术是对抗黑产养号与批量作弊的屠龙术。
07
敏感词策略和决策引擎外,还需要做的是账户准入和APP加固。
所谓账户准入体系,是指在用户注册阶段就拦截掉大量黑产用户。
大量发布垃圾笔记和违禁笔记的账号,往往都是接码平台批量注册了,不是很多人想到一堆人拿着几百个手机在操作,微商很赚钱的好吗,不会干这种low事。
这就代表着,这些注册手机号本身,就有足够多的问题,因为黑产们拿手机号也有成本,往往会多次利用。
这个手机号在小红书耍流氓之前,可能已经在其他平台被教育过了。
一般在注册阶段,建议对手机号加一层准入规则,常规的手段是禁止小号和虚拟号注册,进一步的手段就是采购阿里云和腾讯天御的注册反欺诈评分,输入一个手机号+注册IP,可以返给一个评分,分数高于XXX分的时候,拒绝用户注册,或者强制要求实名(人脸或者银行卡)。
阿里有最全的电商黑产库,腾讯有最全的社交黑产库,网易有最全的游戏黑产库,都是T+0实时更新的,土豪一些的公司可以都用,其他自便。
反正只要风控能根据异常笔记抓到注册账户手机号就行,拿这些去测各家的数据准确度与误杀率,并不困难。
这个操作在业内叫做加盾,有这一层盾,基本上可以挡掉市场上9成5的黑产,大多数黑产是没有能力绕盾的,因为资金不够雄厚,手机卡更新速度上不去。
账户准入体系外,还需要的就是APP加固。
所谓APP加固,是指对于APP本身的代码,接口做封装和动态加密,拦截接口直接写入内容,代码破解,沙盒,GPS更改等一系列攻击行为,简单理解为是反外挂也可以。
很多APP对于用户的录入内容其实都是有限制的,很多APP甚至不允许用户录入内容,只能选择几个特定的标签。
但是黑产在进行违规内容渗透的时候,往往不是手动填写的,而是直接反编译本地APP代码,拦截接口的动态信息,然后调用接口录入。
例如正常人肯定打不出一些特殊符号,但是通过接口用机器写入,想写什么,就写什么。
小红书社区中的大量明晃晃的违规内容,很有可能是由于接口被攻破,遭遇大量的机器写入,这个在黑产攻防中很常见。
通过机器大量灌入垃圾内容导致竞争对手出现问题,在业内并不稀奇。
所以在账号准入外,也要主要APP本身的加固措施。
08
敏感词过滤,决策引擎,加盾,APP加固,这4套都做好(需要坐很久很久,这是一个很大的工程),是不是就高枕无忧了?
不是的,作为内容社区,小红书还需要更重要的一套机制,就是用户内容举报机制。
只靠小红书自己,累死他们也不可能挡掉一切的垃圾内容,而且使用策略也好,规则也好,阈值设置比较宽松的话,总有漏网之鱼。
阈值设置过于严格的话,总会有被误杀的用户,被误杀的用户还会去各个论坛和网络媒体发声,去谴责小红书。
在这个好事不出门,坏事传千里的年代,这种负面信息对于小红书也是一种伤害。
而小红书最大的特点就是用户自发的参与度高,所以一套完善的用户举报机制是非常高效的平台行为。
这套机制不是加一个所谓的按钮点击这么简单,用户看到的可能就是一个举报按钮。
但小红书需要做的是针对整个举报设计完整的SOP(标准作业流程),如何判定举报是否有效,不同举报内容的确认标准以及处罚标准,举报应在什么时间内生效,应该给与举报用户怎样的奖励与支持增加积极性等等等等,这也是一个浩大的工程。
但对于内容社区而言,用户自发举报是非常好用的东西。
09
以上内容只是基础的平台治理体系,具体的落地方案,执行计划,原始变量及阈值切分等等,受限于保密协议和饭碗的原因,我不方便讲更多,但足够给风控同行做参考了。
而且这些基础体系,在实际操作中,还面临着诸多实务性的难题以及场景契合的问题,很多问题都不是简单的风控问题,需要整个公司的战略和定位一起跟上。
例如在做特征工程的时候,很多数据要求实时性,数仓部门如何满足数据完整性?
例如做策略的时候,需要大量的标准数据,数据产品怎么依据业务需求设计表结构以及数据清洗?
例如评估策略效果的时候,风控产品如何设计分流灰度来做冠军挑战者(ABtest)实现效益最大化?
这样的问题还有很多,其中很多都是牵一发而动全身,公司的资源是有限的,公司里也不是只有风控,大家要靠着业务和营销吃饭的。
这些问题,需要整个公司从上而下认识到这个风险,整体考量业务和风控的平衡,争取公司利益的最大化。
在这个互联网文明大趋势的浪潮下,内容风控将是很多公司的命门,而诸多先行者早就靠自己的积累吃尽了早期野蛮生长的红利,同时树立起了极强的风控壁垒。
这些壁垒需要大量的时间和资源投入,不是一朝一夕就有的,全部都是非卖品。
这对于后来者而言,是非常难的一件事。
但熬过这一劫,就是羽化登仙。
之所以我今天对小红书说了这么多,并不是我喜欢小红书。
而是我觉得,一个活在巨头阴影下的互联网江湖,有点太寂寞了。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: