传播数据挖掘案例:“昆山龙哥反杀案”报告
摘要:传统的网络越轨行为往往关注与越轨行为的消极一面。但是本研究以昆山龙哥反杀案为例,重点关注在此次对司法体制的舆论冲击(良性越轨行为)中民众、官方媒体以及商业媒体等不同微博主体的主题内容、主题演化以及行为特征。得出结论为:
- 民众在此次越轨事件中更多表现出对官方媒体和商业媒体内容的多元化与对抗性解读;
- 面对此次越轨行为,诉诸情感的人特征为发文数量多,关注持续时间长但是对事件的司法意义缺乏实质性分析;诉诸理性的人的特征为发文数量少,以原创居多,关注持续时间短,但是单篇文章长且分析深刻;
- 媒体对民众的议程具有一定的设置能力且官方媒体的议程设置能力最强;
- 民众支持“判决独立” 的反越轨行为总体上失效,媒体对于“反越轨”话题有较强的影响力,但并没有影响舆论的整体趋势。
一、引言
越轨行为(deviance),是一个社会学概念,它是指违反一定社会的行为准则、价值观念或道德规范的行为或者对现有的社会规范和社会秩序(包括法律法规)进行反叛和质疑。
所以在社会学意义上,对越轨行为的评价就存在双面性,一方面越轨行为对社会的稳定性造成伤害被称为“恶性越轨”,另一方面则促进了社会的改革与发展被称为“良性越轨”。
与越轨行为相关的概念就是社会控制,社会控制是指对越轨行为进行组织化反应,是为了维护社会秩序或者恢复社会秩序所做的社会化行为。
根据理论框架,在昆山龙哥反杀案的事件中,民众普遍对我国刑法中有关“正当防卫”的判罚的既有规则表示不满,并且提出质疑和改变的需求,这种行为可以被当作一种越轨行为,理由如下:
第一,法律本身就是社会的规则,质疑它、否定它甚至要推翻它本身就已经构成了越轨行为;
第二,因为使用舆论手段干预司法,该行为本身是不符合判决独立原则的。但是该事件的结果却是促进了“正当防卫”判决向着较为人性化的方向发展,所以根据理论此次民众的网络越轨行为可被视为良性越轨行为;
同时,那些倡导“舆论不应该干预司法”以及“判决独立”的意见可以被视为反越轨行为。
二、问题的提出与分析
越轨行为的研究在社会学中一直属于主流,它对社会制度的变革以及社会的问题起到非常重要的作用,其理论自然也就非常繁多。
根据本报告研究的事件——昆山龙哥反杀案,本研究选用其中最著名的理论——美国社会学家罗伯特莫顿的结构紧张理论。
该理论认为由于现存制度在政治、经济以及法律等方面的不完善,比如阶级偏向等,导致一部分社会底层群体被迫使用非法、非常规的手段来实现自己的个人目的。
本案中的龙哥其实就是这样的群体中的一员,而大众传媒在这种事件中起到的作用往往比较微妙,一方面部分民众会因为同情以及社会政治关怀而掀起网络上的二次越轨行为——对制度本身进行冲击,另一方面代表着社会控制的主要力量的官方媒体会在一定程度上对这种舆论进行控制。
2.1 问题提出
在以上理论背景下,本研究提出以下三部分问题:
问题一:普通民众和主流官方媒体在微博上讨论该事件都有哪些主题?这些主题中到底蕴含了主流官方媒体或者民众什么样的态度?
问题二:普通民众对于该事件的参与程度如何的?这些民众的参与程度和他们的背景有无关联?
问题三:在此次事件的爆发和扩散的过程中,普通民众和官媒以及商业媒体的所讨论的主题是怎样演化的,三者之间的互动关系如何?
问题四:在此次事件中各个舆论主体中是否存在反越轨行为?如果存在效果如何?
三、研究过程与方法
这四个问题的提出都是基于一个前提假设即:具有官方背景的媒体、普通民众以及具有商业背景的媒体在本次事件的发酵过程中所讨论的主题以及所起到的作用是不同的。
3.1 微博主体分类
本研究首先按照研究需要要对所有微博的背景进行分类,基于这些微博主体的属性将所有微博的主体分为以下几类:
第一类,官方媒体即包括具有官方背景和行政背景的媒体(如人民日报、新华社、法制晚报、海南网络广播电视台等)以及地方门户网站(如杭州网等)共350个;
第二类,各地的司法以及行政管理部门的官方微博(如昆山公安、抚顺网警巡查执法等),该类微博主体共146个;
第三类,大型商业媒体。主要为大门户网站的新闻版块(网易新闻客户端等),该类微博主体共48个;
第四类,外国媒体,共12个;
第五类,法律专业服务类媒体,包括律师所以及法律工作行业的网站等共6个;
第六类为除以上微博主体的剩余部分即普通民众,包括自媒体和个人用户。
3.2 问题一
问题一主要通过文本主题模型分析发现不同类别微博主体对此次事件的关注点和讨论主题,进一步可以发现不同类别群体对事件的讨论主题是否存在差异。
所使用的方法为LDA主题模型,使用的工具为python的gensim包中的ldamodel函数。
先对各个类别的微博主体按照perplex指标约束生成符合实际情况的主题数量。然后,邀请具有传播学背景的志愿者按照传播学中框架分析的方法对每个主题进行标注,并使用spss软件中的α信度系数法计算信度,确定最终的主题含义。
3.3 问题二
问题二主要是想考察普通民众对于这类具有敏感度的越轨事件的参与程度,其中根据文献提供的量表和相关研究,我们可以将民众的参与程度分三个方面用8种指标来表示:
第一,信息获取和发布。该维度下的指标有:X1:与反杀案信息相关微博的转发次数。X2:转发微博的平均长度。
第二,意见表达与交流。该维度下的指标有强度指标:X3:微博上发文的平均长度。X4: 微博中涉及到专业司法以及社会安全类别词汇的占总微博的比重的平均数。X5:原创微博的数量。X6: 原创微博的平均长度时长指标。X7:评论持续的时间(第一条微博与最后一条微博的时间间隔,以分钟为单位)。
第三,网络行动。该维度下的指标有:X8:是否参与网络投票。
在对以上信息进行统计之后,本研究需要对每个变量数值为前10的用户进行微博定位和背景分析,主要分析该用户以前发布的微博的文本特征。
3.4 问题三
问题三主要考察了各个类别主题的动态分布,发现各类微博主体的话题演化规律和各个类别之间主题语词的互动关系。
使用的方法为DTM(动态主题模型),所参考的文献为,工具为gensim库中的LdaSeqModel模型。
之所以选择这个模型一方面是因为该模型相比于其他的动态主题模型较为成熟,另一方面,该模型在进行参数迭代的过程中使用高斯过程,更够很好地反应主题参数在各个时间切片间的变化。
在参数估计中使用变分卡尔曼滤波方法解决高斯分布和Dirichlet分布的非共轭问题。符合本研究对于主题演变中民众共识的基本假设即当前时间的民众讨论的主题是以上一个时间片段的共识为基础进行波动的。
此外,在进行动态主题生成后,本研究会计算官方媒体、商业媒体以及普通民众三种类型的舆论主体在12个时间片主题的Jaccard距离,得到它们的各自主题演变幅度和交叉演化关系。
3.5 问题四
对于问题四,本研究首先将官方媒体、商业媒体和普通民众的微博中含有“倡导判决独立”、“强调舆论不应该干预司法”的微博查找出来,并将所有的微博定位到特定的时间切片中。
此后,本研究以该时间片段内“判决独立”为主题的微博数量、单条微博评论量和转发量为三个指标,通过与该时间片段内特定主体所有微博的数量、转发量和评论量的中位数相比较,综合评估各个微博主体在 “判决独立”这一主题上的影响力。
四、研究发现
4.1 问题一研究结果
本研究综合考量perplex值以及理论背景最后确定官方媒体提取100个主题,各管理部门的官方微博提取100个主题,大型商业媒体提取80个主题,外国媒体提取30个主题,法律专业服务媒体提取30个主题,普通民众提取100个主题,并重点分析每个主题提取重要度前30的词汇。
主题经过志愿者的标注以及小组四人的共同审核后,六个类别的信度系数分别为:
表一 各类媒体标注的信度系数
如果以0.6为选择标准的话,在所有标注类型中,法律专业服务类媒体的信度系数最低。
经过分析本研究发现,法律专业服务类媒体的信度之所以低是因为这些媒体通过模型自动生成的主题中含专业法律词汇的密度比较低,反而情感类和描述类的词汇占比很高,例如:第一个主题里面的“大快人心”,“惩恶扬善”等词汇,或者是相关描述性词汇。
这和之前本研究认为的法律专业服务类媒体将更多关注法律的解释和改进的印象差距较大,所以本研究在此得出的第一个结论为:从主题模型的结果看,法律专业服务类媒体在此次事件中并没有承担起相应的法律方面的舆论引导或者解释的作用。
接下来,官方媒体和各行政管理部门官方微博的主题包括对法律条文的介绍和解释、论证判决的合理性、对相关人物具有黑社会背景进行的辟谣行为、对中国的司法实践能力提出肯定以及对民众进行相关合理化建议,总体偏向理性。
但是商业媒体则不然。首先在事件描述层面商业媒体更加开放和大胆,例如“大砍刀”、“血腥”等词汇屡次出现在商业媒体主题词的前几名,另外商业媒体更偏好挖掘受害人的故事,表达也更加情感化,并且带有强烈的道德审判和谴责。
在事件解释的过程中,商业媒体的呈现内容也各不相同。例如,轻微地提到了有关于“防卫过当”法条“强人所难”。另外在引申泛化部分,商业媒体更关注人性和法律的冲突以及对未来社会治理的担忧,这是官方媒体所不及的。
对于普通民众的主题分析则又有不同的结论。从数据来看,根据前100个主题的类型统计,普通民众非常善于对相关话题进行引申,即第14个类别项频数较高。
其次,有相当一部分人还是认为这件事情推动了中国法律的进步,所以第11个类别频数较高。但是,在对事件主体的态度方面,普通民众就表现出斯图尔特·霍尔所谓的“对抗性”解读来,比如嘲笑龙哥的行为,乃至以江湖的视角为龙哥感到“惋惜”。我们甚至还发现前100个主题里面居然没有出现谴责龙哥的词语。
在事件解释的过程中,部分民众表达了对于现行法律和社会治安管理能力的强烈不满,所以数据统计中第8类和第9类主题的频数都呈现出比较高的趋势,代表词汇有“草菅人命”等,甚至提出“以暴制暴”。
关于外国媒体,由于其发布的微博数量非常之少,且看不出明显的主题倾向,因此无法进行概括分析。
4.2 问题二研究结果
首先,我们对上节出现的变量进行相关性分析(去除了是否参与网络投票一项,因为该指标并不能反映普通用户对此次事件的参与程度),结果见附录E。其次,本研究针对上节提到的那些指标进行切片,并筛选出一些值得分析的微博主体。
从附录E中的变量相关性分析表中可以看出:
- 转发微博数量与发布微博数量相关系数高达0.96,说明两者具有很高的相关性,这也符合数据统计结果,在所有民众微博中,转发微博数量非常之高,原创微博占比不到3%。
- 原创微博平均长度与所有微博平均长度相关系数为0.8,所有微博含司法词汇平均数量与所有微博平均长度相关系数为0.7,说明原创微博主体更倾向于发表长文对事件进行理性分析。
考虑发布微博的数量,筛选出排名前10的微博主体,这些高发布数量的微博主体具有以下特征:
- 平常关心社会时事,尤其是对非公正事件非常关注,且对事件关注从始到终,所以具有潜在的越轨倾向。
- 从事法律相关职业,具有对法律知识的判断能力。
- 个人运行号或营销号。但是不同的是有些人更加喜欢自己发表意见,比如作家肖永乐,但是另一些人不喜欢发布原创微博,这体现出两者在越轨行为的程度上的差别。
以原创微博发布数量和原创微博平均长度来进行切片,会发现这些人发布的文字平均长度很长,但是法律词汇的涉及量很少(mean=20),这说明该人群对于时事热点事件的关注度虽然较高,但是往往评论专注于情感,建设性意见少。
另外,分别以所有微博平均长度、原创微博平均长度以及微博含法律词汇的平均长度进行切片,本研究发现了另一个群体,这个群体往往不会持续关注事件,但是自主性比较强,例如这三个变量各自得分较高的10个用户里面转发微博数量都很低,而且发布的微博字数很长且含法律词汇较多,在对他们的原数据进行查阅后发现这些人的长微博往往对事情分析比较深刻且单条微博转发量很高。
所以,本研究再次得出结论:对于此类带有冲击现行社会体制(越轨行为)的事件中,一部分人诉诸情感,大量发布微博且持续关注但是对事件的分析缺乏深度;另一部分人往往不会持续关注也不会大量发文但是会针对此事件进行深度的反思。
在社会学中,第一类人被称为初级越轨者,该类型的越轨者往往具有盲从的心理,他们不会主动发表意见,也不会对越轨行为本身进行深入思考;第二类人被称为次级越轨者,该类型的越轨者往往比较理性,会对越轨行为本身进行深入地思考且具有独立自主的判断能力。
另外,从有高转发量的原创微博数据中,或者从微热点给出的2018/8/27-2018/8/28报告中的核心传播人中,本研究都很难分析出该微博主体的人口统计学变量的集中特征。
4.3 问题三研究结果
本问题第一需要梳理整个事件的发生过程,发生过程表见附录C;第二个需要对时间进行切片,本文综合考虑研究效力和计算复杂度,决定以每12个小时为单位对时间进行切片,时间切片表见附录D。
接下来,本研究对民众微博、官媒的微博以及商业媒体的微博进行动态演化主题模型分析,并综合各方面因素在每个时间切片中取重要度排在前15名的主题进行分析,并按照上文的方法计算Jaccard距离。
其中,官媒、商业和民众三栏的12个时间片的Jaccard距离为相邻主题之间的平均值。符号(tn,tn+1),(tn, tn),(tn+1,tn),分别代表两类微博主体前一个时间切片和后一个时间切片的Jaccard相关系数或者是相同时间切片的Jaccard相关系数。例如,(官媒tn,民众tn+1)就是计算官媒在tn时间切片和民众在tn+1时间切片的主题相关系数。
这里的主题词是以文本的形式而非数值的形式出现的,所以使用Jaccard距离能够有效的适应文本数据的相似性度量问题。
表二 各个微博主体的动态主题演化表
主要结论如下:
第一,从主题演化的稳定性上来看,官媒是最为稳定的。因为在不考虑其他主体的情况下,官媒的相邻时间切片的主题的Jaccard距离为0.63,高于商业媒体的0.56和0.44。这个数据同时也说明民众的话题讨论的演变幅度很高,这与第一部分中民众善于引申的结论相符合。
第二,从相关性上看,媒体对民众具有一定的议程设置能力。因为从媒体与民众交叉时刻的主题相关性上看,(tn, tn+1) >(tn, tn)>(tn+1, tn)。
第三,官媒的议程设置能力最强。这与官媒在此类事件中具有在采访权方面的优势有关。
4.4 问题四研究结果
因为民众微博平均转发量只有1.75条,所以转发量和评论量不能很好地反应民众微博的影响力,所以在附录G中的表格中,本研究并没有分析转发量和评论量,但是仅从该表格中就可以得出结论:民众中倡导“判决独立”的呼声并不是很高,从微博数量上看占比极低。
如果将倡导“判决独立”视为一种反越轨的行为,这说明民众的反越轨行为是失败的。
根据附录H,可以看出官媒和商媒对于“判决独立”这一话题的反应是滞后的,其中官媒直到第5个时间切片才作反应,商媒直到第3个时间切片才开始作反应。
但是根据中位数的比较,不难发现,尽管官媒和商媒发文量少但是其转发量和评论量远远高于那个时间段其他类型的微博,这个数字一方面说明官媒和商媒在通过舆论实施社会控制方面具有强大的影响力,另一方面也体现了很多民众想借助官媒和商媒表达自己声音的意愿。
五、结论与讨论
通过以上分析,本研究得出结论,在此次的良性越轨事件中:
- 民众在此次越轨事件中更多表现出对官方媒体和商业媒体内容的多元化与对抗性解读;
- 面对此次越轨行为,诉诸情感的人特征为发文数量多,关注持续时间长但是对事件的司法意义缺乏实质性分析;诉诸理性的人的特征为发文数量少,以原创居多,关注持续时间短,但是单篇文章长且分析深刻;
- 媒体对民众的议程具有一定的设置能力且官方媒体的议程设置能力最强;
- 民众支持“判决独立” 的反越轨行为总体上失效,媒体对于“反越轨”话题有较强的影响力,但并没有影响舆论的整体趋势。所以在今后有类似事件发生的时候,社会管理者一方面应更加重视民众中次级越轨者的的舆论,吸收其中的合理化因素;另一方面要积极发挥媒体尤其是官方媒体舆论引导和社会控制方面的作用,防止良性越轨向着恶性越轨转化。
但是本研究也有其局限性:
第一,本研究缺乏跨平台数据分析,所以无法准确地分析舆论爆发的时间;
第二,本研究在多类型微博主体的演化模型的交互关系分析中缺乏严格的因果关系分析,这使得结论的精度有待于进一步提高。
第三,本研究的编码员数量过少,导致对于主题的标注的正确性有待于进一步提高。
附录A 对各类型的主题的标注框架
图一 对各类主题标注的总体框架
图二 官方媒体(包括各地司法和行政管理部门的官方微博)的标注表
图三 商业媒体的标注表(带叹号表示和官方媒体不同)
图四 民众微博的标注表(带叹号表示为该类特有的主题)
附录B 前100个民众类的主题中个标注主题的频数分布
附录C 昆山龙哥反杀案的事件过程表
表三 昆山龙哥反杀案的事件过程表
附录D 动态主题演化分析的时间切片
表四 动态主题演化分析的时间切片
附录E 民众类微博各个变量top10微博个体
表五 发布微博数量top10
表六 原创微博数量top10
表七 转发微博数量top10
表八 所有微博平均长度top10
表九 所有微博含司法词汇平均数量top10
表十 首尾两条微博时间间隔top10
附录F 民众类微博各个变量相关性分析
图六 民众类微博各个变量相关性分析
附录G 民众类微博中“判决独立”主题在个时间切片上的发文数量与占比
表十一 民众类微博中“判决独立”主题在个时间切片上的发文数量与占比
附录H 媒体类微博中“判决独立”主题在个时间切片上的发文数量、转发量和评论量与中位数的比较表
表十二:媒体类微博中“判决独立”主题在各个时间切片上的发文数量、转发量和评论量与中位数的比较
文章基础数据来源:新浪微热点大数据研究院。
本文由 @数据锅 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: