谷歌的新闻策划如何影响信息的多样性?

谷歌的新闻策划如何影响信息的多样性?
2019年05月20日 12:14 新京报传媒研究

来源::Columbia Journalism Review

作者:Nicholas

编译:Ziyu Zhang

Via:新京报传媒研究(xjbcmyj)

  四月的最后一周,由网络分析公司Pars.ly跟踪的新闻网站流量中,近23%流量来自搜索引擎。仅谷歌就占到外部推荐流量的近一半,也就是指从平台、应用程序和其他外部资源到新闻站点的流量。再加上Facebook的推荐流量正在下降,这意味着谷歌搜索算法现在可能是使新闻获得在线关注的最强大的传播媒介。

  尽管谷歌在吸引人们的注意力方面有巨大的影响力,但我们对它的算法、如何选择和管理新闻却知之甚少。它将流量导向哪些站点?以及谷歌新闻管理如何影响信息的多样性?

你不知道的小事:一位记者询问了20年来彩票中奖者的数据。在分析了这些记录之后,他注意到了一些不寻常的事情。

为了找到答案,西北大学的计算新闻实验室,包括Daniel Trielli和我,对谷歌搜索的头条新闻框进行了审计研究。热门新闻通常会出现在搜索结果顶部的黄金位置,呈现出一系列与查询相关的新闻文章。

为了审核头条新闻,我们收集了超过200条发生在2017年11月的新闻事件的查询,并提取了谷歌结果。我们通过每天查看谷歌趋势并手动选择与硬新闻事件相关的术语来选择要测试的查询。这些问题包括新闻人物的名字,如科林•凯珀尼克(Colin Kaepernick),地震等突发新闻事件,以及税务改革或医保网站等特定问题的查询。我们设置一个scraper工具来最小化结果个性化的可能性(谷歌根据过去的使用情况将其搜索结果裁剪到一个帐户或IP地址的过程),并在整整24小时内每分钟运行一次查询。

总的来说,我们收集了6302个指向“头条新闻”框中文章的专门链接。对于每个链接,我们在它们出现时都要计算这篇文章的流量。每当这些链接出现一次,我们都会把这个数据算入对这篇文章的展示量中去。

数据显示,仅20个新闻来源占据了超过一半的文章展示量。前20%的来源(678个来源中的136个)占据了文章展示量的86%,其中前三名分别是CNN、纽约时报和华盛顿邮报,共占23%。这些统计数字凸显了人们对非常有限的新闻来源的关注程度。

  当然,信息来源的集中程度也会随着查询的不同而变化。平均每个查询有19个信息来源,但是30%的查询只有10个或更少的来源。有时,即使有更多的信息来源,大多数展示量也可能只留给少数人。例如,雷克斯•蒂勒森(rex tillerson)的这个查询显示了38个来源,但泰晤士报和CNN这两个信息源,就占据了75%的展示量。

此前的研究表明,搜索引擎可以影响用户的态度、锻造观点、改变看法和强化刻板印象,还可以影响选民在选举期间获得信息的方式。因此,媒体多样性是谷歌——以及所有新闻聚合器管理信息来源和观点的重要指标。

为了在我们的调查统计中了解这个问题,我们查看了谷歌头条新闻中出现的各种各样的消息来源,这些消息的思想倾向各不相同。更具体地说,我们使用了早些时候发表在一项研究中的评级数据,该研究确定了Facebook上分享最多的500个新闻网站在意识形态上的一致性。这些评级本身并没有衡量这家媒体的倾向性,而是反映了Facebook用户自我报告展示出的政治倾向。2015年6月,来自脸书的核心数据团队的Eytan Bakshy、Solomon Messing和Lada Adamic在同行评审的《科学》杂志上发表了该标准。

  我们的数据显示,展示出来文章的62.4%被该研究评为左倾的文章,而其中11.3%属于偏右倾的文章,26.3%来自没有评级的新闻来源。即使最后一组不为人知的印象碰巧是右倾的,趋势也很明显:头条中左倾新闻来源占比更高。(同样,这意味着左倾政治派别的人更经常在Facebook上分享新闻来源。)

这仅仅代表左派制造了更多的新闻吗?似乎如此。我们通过在GDELT新闻文章数据库中搜索用于调查谷歌的同一查询来确认这一点。在GDELT中,左倾来源的文章数量是右倾来源的2.2倍。但是在谷歌的头条新闻中,这个比率是3.2,这表明与GDELT基线相比,数据监护算法稍微放大了左倾程度。

谷歌新闻管理的另一个方面是文章选择的时效性。谷歌浏览新闻内容的速度到底有多快?由头条新闻框提供了每篇文章的大致时效(例如2小时前),所以我们能够将文章的最近时间列成表。我们发现,83.5%的文章在24小时内发表,13.1%的文章在1小时内发表。这意味着,能够快速生成新文本的机构可能更倾向于让数据监护算法选择该材料。

在我们分析的最后一部分中,我们查看了出现在头条新闻实际可以产生多少流量。为此,我们将收集的数据与Chartbeat提供的推荐数据相结合。在不同的查询中,搜索可以被推荐的人的数量可以有很大变化。例如,在我们的数据中,Matt Lauer为我们观察到的每一篇文章的展示量生成了3961个推荐,远远超过平均水平。但是大多数的搜索词(58%)平均在每次展示中生成的推荐不超过100个。

为了解释术语之间的差异,我们建立了一个统计模型,该模型根据文章在头条新闻框或有机搜索结果中的展示量来预测文章被谷歌被推荐的次数。该模型预测,如果一篇文章在一个小时内(我们每分钟观测一篇文章的展示量)在头条新闻的中间位置获得60个展示位,那么它的推荐率将提高15.5%。这将使一篇文章的下载量增加近六分之一。这还只是一小时内可见的结果。

由谷歌的搜索算法有机生成,而不是在头条框中生成的展示量,所生成的推荐量较少。一小时内60次有机展示量将使推荐率提高9.4%。但是请记住,对于许多不同的查询搜索,文章可以出现在头条新闻中,也可以出现在有机结果中。我们的模型提供了一个关于实际增长量的下限边界。

  根据我们的数据中展示量的比例,并使用我们的预测模型,一个非常粗略的估计是,CNN从谷歌获得的推荐流量增加了24%。另一方面,美国国家公共广播电台(NPR)的收视率可能上升了3.7%。

虽然我们的研究结果有助于更好地描述谷歌对新闻的管理,但我们的研究显然无法解释为什么某些消息来源在谷歌上占主导地位。也许一些媒体已经破解了头条新闻的搜索引擎优化代码。或者,谷歌算法可能还考虑了许多其他因素,最终将某些机构置于其他之上。我们对这些无从知晓,除非谷歌将编辑设计和在头条新闻框的新闻策展的目标设计得更加透明。

  我们所知道的是,谷歌的搜索新闻的算法管理,可以转化为真实的、大量的用户关注和流量。新闻来源集中在谷歌意味着获取关注的不平等性,它的好处则包括可能有潜在订阅收入。如果算法新闻策展人(包括谷歌和其他一些人)可以认真考虑支持数字优先编辑室,那么他们可能会更明确地阐明个人所需的相关性、社会或民主所需的多样性和新闻机构所需的公平竞争之间的内在设计的权衡。

谷歌 头条 流量

热门推荐

收起
新浪财经公众号
新浪财经公众号

24小时滚动播报最新的财经资讯和视频,更多粉丝福利扫描二维码关注(sinafinance)

7X24小时

  • 06-11 元利科技 603217 54.96
  • 06-11 松炀资源 603863 9.95
  • 06-04 卓胜微 300782 --
  • 06-04 国茂股份 603915 --
  • 06-03 红塔证券 601236 --
  • 股市直播

    • 图文直播间
    • 视频直播间