新闻行业中,自然语言理解技术该如何应用?
在信息爆炸时代下,要想快速获取有价值的内容非常困难,这一点在新闻行业中尤为明显,而本文提到的自然语言理解技术将会是一个不错的解决建议。
自然语言理解技术在新闻行业中的应用
现如今,人类生活在一个信息大爆炸的时代。我们每个人每天所接受的新闻信息量对于一个生活在一百年前的人来说,是无法想象的。
然而,相较于一百年前的人,我们同样只有一双眼睛,我们一天所拥有的时间同样只有24小时。因此,如何在有限的时间内获得尽可能多的,有价值的新闻信息,成为了当下最值得人们关注的问题之一。面对这一棘手的问题,人工智能技术为我们带来了有效的解决方案
本文将分别从新闻媒体机构和新闻读者这两类群体的视角出发,盘点当前自然语言理解(NLP)技术在新闻媒体领域中的部分应用。看看人工智能技术如何帮我们更加从容地面对这信息焦虑的时代。
1. 面向新闻媒体公司的应用
目前,全球的媒体机构都在努力寻求以最佳的方式将最新和最有趣的信息分享给自己的读者,于是,“新闻推送服务”的质量就成了各家新闻媒体的核心竞争力。
“新闻推送服务”旨在有效地向新闻读者提供最相关和最有价值的新闻内容。 为了实现这样的服务,系统需要分析和判断用户的偏好并与找到相关的新闻内容,而这样的任务需要处理大量的数据。 这样的数据处理任务恰恰是自然语言理解技术(NLP)所擅长的。
新闻媒体公司往往需要两种不同类型数据的采集,来创建有效的新闻推送服务。
第一类是新闻信息的数据。
我们需要获得有关新闻的文本,音频和视频内容信息,内容信息包括主题,关键字,情感,以及实体。这些数据将用于新闻知识图谱的构建,新闻知识图谱能够对新闻内容进行快速搜索,并通过内容关联信息获得有效的推荐。
第二类是用户行为的数据。
我们需要收集用户在互联网上所产的时间序列数据。 通过对用户行为的跟踪,算法将结合收集到的数据以及相关的元数据来学习用户的行为习惯,了解用户的兴趣点。将用户感兴趣的新闻内容有针对性的传递给用户。
不同的公司将推送服务建立在不同的数据导向上,其业务模式的特色也有所不同:
以新闻信息数据为导向的公司善于做新闻内容分类和摘要提取。
这类公司让用户自主选择感兴趣的新闻话题,然后通过深度学习和NLP技术分析大量的新闻数据,整理来自不同网站和其他非结构化来源的信息,并根据不同的主题,关键字,人名和企业自动对新闻进行分类,快速找到用户感兴趣的新闻内容。
以用户行为数据为导向的公司更多的是聚焦在用户的习惯和兴趣点上。
这类公司通过深度学习算法,通过一段时间对用户查阅新闻的跟踪学习后,掌握用户的阅读偏好,再直接依靠NLP技术分析新闻文本的内容,理解新闻的含义,将用户的阅读偏好与新闻内容相匹配,实现个性化新闻推送服务。
2. 面向新闻读者的应用
对于新闻读者来说,智能的“新闻推送服务”可以有效的控制所接受新闻的数量,帮助用户节省查找新闻的时间。然而,真实世界中,每天都会产生出大量的假新闻,这些新闻内容往往扭曲现实,存在偏见。不少新闻媒体为了谋求利益,只关注新闻的浏览量,而忽略了新闻内容的质量和真实性。
人工智能技术在赋能媒体公司实现个性化新闻推送的同时,也在尝试为新闻读者排除掉垃圾信息和虚假新闻。NLP技术能够分析特定新闻项目的偏见和歧义,以帮助读者将假新闻位从海量的信息中分离出来。
目前,NLP技术在新闻质量的检测的工作上有两个方面的应用。一个是对虚假新闻的鉴别工作,另一个是对偏见新闻观点的判别工作。
假新闻鉴别的应用主要是依靠两种实现方式。
一种方式 是通过NLP技术对新闻信息的上下文语境进行全局理解,分析某个新闻观点与其所在的整篇新闻内容的关联,判断真实新闻和虚假新闻之间的差异。 当前流行的方法之一是TF-IDF(术语频率 - 逆文档频率)矢量化器,该技术用于判断一个词在文章中的重要性。
另一种方式 是直接通过信息距离算法对比不同新闻来源的新闻内容,针对同一个新闻报道向读者提供不同的解释和分析角度,从而帮助用户将新闻中的谎言与事实分开。
新闻偏见判别的应用其实算是假新闻鉴别的一个进阶版应用。在真实生活中,大部分新闻报道或多或少都会存在偏见色彩。即使是针对同一个事件的报道,只要稍微调整报道中所使用的语言,就可以反映出截然不同的观点。
然而,市场上目前就新闻偏见的问题并没有成熟的解决方案。NLP技术在这一问题上做了很多科研方面的尝试,其思路是通过训练一组向量机(SVM)模型,从不同的维度对一条新闻的内容进行打分,计算每个评判要素的得分,然后得出该条新闻偏见程度的分数。这样的模型只能识别出具有明显偏见色彩的新闻,在真实的应用场景中还并不成熟。
总结
今天,在这个信息过量的时代,我们迫切的想要找到一个有效的方法,来获取自己感兴趣,并且高质量新闻信息。自然语言理解技术正在不断的优化我们获取新闻的方式,并帮助我们把控新闻的质量。
- 对于新闻媒体公司来讲,NLP技术可用于对新闻内容进行分类,根据读者的兴趣和喜好实现个性化新闻推送服务。
- 对于广大新闻读者来说,依靠NLP技术可以鉴别出新闻内容的真伪,从而不被假新闻和带有偏见色彩的新闻所欺骗。
以目前新闻产生总量的发展趋势来看,未来我们的生活当中将会出现远比现在更多的新闻信息。幸运的是,海量的新闻数据恰恰可以更好的推进NLP技术在新闻媒体领域的应用。届时,NLP技术将进一步加速其在各种新闻服务中的部署和落地应用。
本文由 @单赢 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自Unsplash,基于CC0协议。
作者暂无likerid, 赞赏暂由本网站代持,当作者有likerid后会全部转账给作者(我们会尽力而为)。Tips: Until now, everytime you want to store your article, we will help you store it in Filecoin network. In the future, you can store it in Filecoin network using your own filecoin.
Support author:
Author's Filecoin address:
Or you can use Likecoin to support author: