如何科学地调研小众人群?
如何让一些小众用户、小众群体为自己所用呢?怎么去研究这类群体、以及怎么去收集他们的信息呢?
互联网时代的“长尾理论”,让我们重新认识了小众用户、小众产品、亚文化群体的意义和价值。网络上的亚文化群体,包括嘻哈文化、二次元、同性恋文化、宅文化、小清新、非主流等等,小众群体包括小众作者的粉丝、小众产品的用户等;现实生活中,亚文化群体则包括性工作者、吸毒者、流浪艺人等所谓的“隐藏人口”。
如何研究这些群体,收集他们的信息为我所用呢?显然,概率抽样、问卷调查可能是一种流行的做法。
概率抽样的困境
在研究小众群体或亚文化群体时,通常会面临一系列抽样困境:
- 第一,这些小众群体或亚文化群体在总体中所占比例较低,群体的规模和边界不太清楚,很难找到合适的抽样框;
- 第二,小众群体,尤其是亚文化群体的成员,常常因种种原因拒绝暴露自己的身份,这就加大了我们获取有效信息的难度。
举个例子:
假设在A社交平台上,我们的研究对象是同性恋群体,我们想了解这群用户的情况。假设A社交平台有1亿用户,其中有5万名用户受同性恋文化影响。我们通过简单随机抽样,抽取一个10万人的样本(已经是相当大的样本了),从中可以得到的同性恋亚文化群体样本也只有50个左右,考虑到亚文化群体较高的拒访率,实际获得的样本可能更少。显然,概率抽样的效率极低。
受访者驱动抽样的优势
那么有没有更好的方法呢?
受访者驱动抽样(Respondent-Driven Sampling,下文简称RDS)在很大程度上能解决这种抽样困境。RDS抽样承袭自雪球抽样(snow- ball sampling),先从总体中的少数成员开始调查,由已知成员推荐符合要求的新成员,然后样本像滚雪球一样越来越大。
雪球抽样虽然操作简单,但它是非概率抽样,并非按照随机抽样原则来抽取样本,失去了大数定律的存在基础,也就无法确定抽样误差,无法准确地说明样本的统计值在多大程度上适合于总体。
RDS不仅具有类似雪球抽样的易操作性,同时它又有效解决了抽样偏误和抽样概率未知等问题,可以对总体情况做出相对准确的估计。
RDS抽样的理论基础源自社会网络分析(social network analysis)中的小世界网络(small world)理论。社会网络分析是一种分析社会结构的理论和方法,将人与人之间、群体与群体之间的联系视为一条条连线,整个社会结构就可以视为由各个点及其连线构成的一张大网络[i]。 小世界网络是指,网络中大部分的节点彼此并不相连,但绝大部分节点之间经过少数几步就能联系在一起。
小世界网络(Small-world)
哈佛大学心理学教授斯坦利·米尔格拉姆做过一次连锁信实验,证明平均只需要6步就可以联系任何两个互不相识的美国人,这便是著名的“六度分隔理论”;而Facebook2016年公布的官方研究报告(Research At Facebook)则显示,全球 15.9亿用户中间,仅仅隔着3.57个朋友而已。
2016年,Facebook上15.9亿人中间,仅隔着3.57个朋友而已
弱关系的力量
提到网络分析,就不能不提格兰诺维特以及那篇令他声名大噪的论文——《弱关系的力量》(The strength of weak ties),这篇论文是社会学史上引用率最高的论文,他本人也凭借其在网络分析领域的杰出贡献,作为一个社会学家,提名了诺贝尔经济学奖。
论文的核心观点是:
与自己频繁接触的亲朋好友是一种“强关系”,通过这种关系获取到的往往是同质性的信息;但社会上更为广泛的是一种并不深入的人际关系(即弱关系),这种弱关系能够使个体获得通过强关系无法获取到的信息,从而在工作和事业上、在信息的扩散上起到决定作用[ii]。
强关系与弱关系
RDS抽样依据社会网络理论认为,个人总是生活在一定的网络之中,一旦我们知道了这些亚文化群体或者小众群体的社会网络构成情况,那么我们也就能对总体人口的特征有一个比较清晰的认识。
RDS方法与常规抽样方法的最大区别在于:常规抽样方法是先从界定清晰的总体中抽取出一定数量的有代表性的样本,然后根据样本情况直接估计总体的参数;而在RDS方法中,总体是尚不清晰的,从总体的社会网络中抽取样本,先估计样本所在社会网络的情况,然后再根据网络情况来推断总体的情况[iii]。
常规抽样方法与RDS方法的差异
RDS抽样的具体操作方法
- 第一、研究者先任意找到几个符合调查要求的目标用户,这几个目标用户是我们的“种子”,研究者对种子进行调查,并给他们发放物质奖励作为酬谢,这就是调查的起始轮次(wave 0)。
- 第二,研究者给种子发放一定数量的调查券,调查券上必须标明新受访者的编号(在推算子群体在总体中所占比例会用到),让种子把这些调查券发给自己认识的、符合调查要求的目标用户,并承诺:只要得到调查券的人接受调查,不仅接受调查的人会得到物质奖励,推荐他来的种子也会因为推荐新人而得到额外奖励。
- 第三,研究者确认持首轮调查券来接受调查的人是否属于目标用户,如果符合,就对其进行调查,调查后给他们发放奖励,同时给招募他们的种子发放奖励。这是研究的第一轮次(wave 1)。
- 第四,研究者给每一个第一轮受访者发放同样数量的次轮调查券,并标上新一轮被调查者的编号。要求他们把调查券发给自己认识的目标群体成员,并同样承诺会同时为持券接受调查者和招募者发放奖励,新的受访者还会得到招募新人和获得奖励的机会。
- 第五,经确认后调查每个持次轮调查券来接受调查的目标用户,并奖励受访者及其招募人,完成第二轮次调查(wave 2)。
- 第六,重复以上步骤,进行下一轮调查,直到达到研究设计所确定的样本总数为止。
RDS抽样的具体操作方法
美国社会学家赫克索恩证明了RDS抽样方法是一个一阶马尔科夫过程(first-order Markovprocess)[iv], 即样本在招募被访者的过程中会实现均衡,并与初始的种子相互独立。此外,他的研究结论还证实了,研究者初始选择的“种子”,并不需要刻意保持随机性,而且使用RDS方法无需经过太多轮次就可使样本达到均衡。
RDS抽样在国外已有了丰硕的研究成果,尤其在诸如艾滋病患者、性工作者等亚文化群体中。赫克索恩也曾在互联网上使用RDS对在校大学生抽样,与常规概率抽样进行对比,并得出结论:RDS的估计值不仅合理,还可以进一步提高精确性。
总而言之,对于用户研究来说,当我们研究的群体小众或用户调研参与意愿低,那么RDS不失为一种很好的替代概率抽样的方法!
参考文献:
1. 刘林平,范长煜,王娅. 被访者驱动抽样在农民工调查中的应用:实践与评估[J]. 社会学研究,2015,30(02):149-173+244-245.
2. 赵延东,Jon Pedersen. 受访者推动抽样:研究隐藏人口的方法与实践[J]. 社会,2007(02):192-205+208.
3. Granovetter M S. The strength of weak ties[M]//Social networks.1977: 347-367.
4. Heckathorn D D. Respondent-driven sampling: a new approach to thestudy of hidden populations[J]. Social problems, 1997, 44(2): 174-199.
[i]赵延东,JonPedersen.受访者推动抽样:研究隐藏人口的方法与实践[J].社会,2007(02):192-205+208.
[ii]转自维基百科:马克·格兰诺维特
[iii]赵延东,JonPedersen.受访者推动抽样:研究隐藏人口的方法与实践[J].社会,2007(02):192-205+208.
[iv]如果某一事件每次发生状态转移时,都只与上一时刻的状态有关,而与过去的状态无关,则称此状态转移过程为马尔可夫过程。
作者:盛少奇,网易UEDC用户研究院,社会学专业背景,跟进过教育、母婴、只能硬件等产品,熟悉定量研究,热爱电影、足球和篮球
微信公众号:网易UEDC
本文来源于人人都是产品经理合作媒体@网易UEDC,作者@盛少奇
题图来自Unsplash,基于CC0协议
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: