会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图
当前位置:主页 > 财经 > 正文

方可成:全世界都在呼吁“算法透明化”率先站出来的是今日头条

时间:2018-03-20 16:48 来源:未知 作者:admin 阅读:

  什么是算法?简单地理解,算法就是一套规则,由机器去执行。比如,你在微博信息流中看到的内容,并不是按照时间顺序排列的,那么是依据什么排列的?算法。算法可以,你和一个人互动越频繁,就能越多地看到ta发的微博;算法还可以,短视频内容会被优先展示给粉丝;等等。

  再比如,你在今日头条刷出来的新闻,并不是人工编辑帮你挑选排序的,而是机器自动完成的,那么机器选择新闻的依据是什么?算法。算法可以,如果你喜欢足球,就多给你看足球相关新闻;算法还可以,如果你身在,就多给你推本地新闻;等等。

  同样,淘宝向你推荐的商品,网易云音乐给你列出的每日推荐歌曲,豆瓣猜你喜欢的电影,滴滴给你分配的司机,地图给你推荐的线,也都是依靠算法完成的。背后的具体规则多种多样,但它们都有一个名字,那就是算法。

  我们的生活正越来越多地被算法决定:读新闻、看电影、吃饭、打车几乎每一种日常行为,都受到算法的影响。《人类简史》《未来简史》的作者尤瓦尔赫拉利甚至预测:未来,跟谁谈恋爱和结婚也会由算法来决定。刚刚推出的《黑镜》第四季已经在第四集中将这种设想写进了剧本。

  无处不在的算法,实际上已经成了当今社会上的一种重要的(power)。它能在很大程度上决定我们看到什么、听到什么、了解到真实还是虚假的信息、和谁产生互动。

  我们都知道,需要得到监督,要被“里”才好。可是,算法的,我们目前还很难监督。

  放眼全球,包括Facebook、Google在内的几乎所有互联网公司都将算法视为公司的重要机密,不愿意打开这个黑匣子,让了解。

  作为商业公司,互联网巨头们有种种考虑,这是可以理解的。但是许多观察者和研究者指出:既然算法已经如此深入地影响着我们的公共生活,它就不能再以“商业秘密”的形式被藏起来了,它应该得到的了解和监督。

  我长期全球传媒业界和学界的动向。这一两年来,我最频繁见到的词之一就是:“算法透明度”。要求互联网公司向公开算法的细节,提高算法的透明度,已经越来越成为共识。

  皮尤研究中心去年2月发布的一份研究报告《算法时代的利弊》显示,算法透明度是业界和学界共同关心的焦点之一。“找到一个能够实现透明化,并且评估结果的框架,将会非常关键。”报告引用受访专家的意见说。

  去年12月,在联合国教科文组织的一次会议上,电子隐私信息中心(Electronic Privacy InformationCenter, EPIC)Marc Rotenberg甚至提出:对算法的知情权也是人们的一种基本,在算法透明度和商业机密之间,需要找到一个恰当的平衡点。而ACM(国际计算机协会)的美国公共政策协会也在去年发布了算法透明度的一份原则性文件,其中提到:鼓励使用算法决策的系统和机构对算法流程和结果进行解释。

  虽然呼声越来越大,但到目前为止,还没有硅谷巨头作出实质性的响应。Facebook在接受关于俄罗斯利用社交平台干预美国的调查之后,扎克伯格强调会提高透明度,不过只是展示在平台投放广告的商家信息,而不是对自身的算法进行公开解释。而在一次和议员的闭门交流中,Facebook只是语焉不详地表示自己的算给原创内容和多内容增加权重,除此之外就没有再透露更多了。

  1月11日,今日头条召开了一场旨在推动整个行业来问诊算法、建言算法的分享,主讲人是资深算法架构师、中国科技大学计算机博士曹欢欢。

  参加的,有100多位自、、技术局等机构的从业者,以及来自阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师和产品经理。

  曹欢欢博士的分享题目就叫做《让算法公开透明》,旨是面向行业公开算法原理,消除社会对算法的一些。

  在这张令人眼花缭乱的动图里面,有着数不清的机关和环节,它们彼此之间又相互关联,共同左右着机器的运行。

  让算法透明之后,我们看到的不会是一个“1+2=3”一样的简洁算式,而会是这张动图那样的复杂,甚至是一定程度上的混乱。而且,随着技术的飞速发展和对用户需求的更精准把握,算法也总是在不停的更新之中。

  这是我们在呼吁算法公开透明的时候,应该做好的心理准备。如果说,让算法公开透明是互联网企业的责任,那么硬币的另一面就是:也应多学习和了解一些算法常识,这样才能更好地监督算法。

  我通过今日头条的朋友,得到了这次分享的内容纪要。以下,我将我所理解的今日头条算法原理向大家做个通俗的。

  怎样决定把什么样的内容推给什么样的用户?比较为人熟知的是:今日头条会根据用户的兴趣来推送。它的广告词“你关心的才是头条”主打的也是这一点。

  但是,用户特征(包括年龄、性别、职业、兴趣等)和内容特征是否匹配,只是算法在推荐内容时考虑的一个方面。也就是说,算法确实会考虑一条内容和你本身的兴趣是否搭配,但这只是一个方面。

  算法还会考虑其他三个方面的因素:一是时间和使用场景,比如你是在上班上看,在家里看,还是在旅游途中看,等等;二是热度特征,也就是现在热门的内容有哪些,这些在你第一次使用、系统还不了解你的时候(也就是所谓“冷启动”)特别有用;三是协同特征,也就是看和你相似的用户在看什么,把别人喜欢的内容推荐给你。

  这最后一点尤其重要,因为这种被称为“协同过滤”的方法,可以帮助避免“算法越推越窄”的问题。它依据的不是你之前看了什么,而是和你相似的其他人喜欢什么,这有助于帮你探索到更多的内容。

  今日头条是做图文内容起家的,对文本进行分析是其基础。只有分析了文本的特征,才能得知读了这段文本的用户有何特征。

  在分类方面,第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳足球再细分国际足球、中国足球中国足球又细分中甲、中超、国家队

  “topic”指的是一篇文章中各种词出现的概率;“实体词”则是指名词和代词,识别出了实体词,才知道这篇文章讲的是什么。

  很多人都知道,在今日头条里面,我点击了阅读了什么内容,会被机器记录下来,并根据此向我推荐更多的内容。

  比如,你点一篇文章,但很快就关掉了,那么可能是因为这篇文章是标题党,你进去发现自己被骗了,于是马上跳出。这种停留时间短的点击会被记录下来,用来过滤标题党。

  再比如,你点击了一些热门文章(如前段时间PG One的新闻),算法不会太在意,不会认为你真的是PG One的粉丝。

  如果一篇文章被推荐推荐给你,而你没有点击,这也会被机器记录下来。这篇文章的相关特征(类别、关键词、来源)会被记录成你可能不那么喜欢的特征,下次就少向你推荐这些了。

  有这么多因素要考虑,那么也就意味着,算法有很多种写法:既可以特别重视用户兴趣,也可以特别重视推热点文章,还可以特别重视记录用户不喜欢的内容那么,到底哪一种配置才是最好的?

  “很多公司算法做的不好,并非是工程师能力不够,而是需要一个强大的实验平台。”曹欢欢博士说,“有一句我认为非常智慧的话是,一个事情没法评估就没法优化。”

  比如,随机选择5%的用户,给他们推某种新的算法改动,看他们是不是喜欢。每天,用户们都在充当着“小白鼠”,帮助提高算法的质量。

  这里有一个很关键的问题:怎么判断用户喜不喜欢?看他们是不是点得更多了?看得时间更长了?更活跃了?曹欢欢说:“不能只看点击率或者留存互动等等,需要综合评估。”他认为,一个良好的评估体系建立需要兼顾短期指标与长期指标,也要兼顾用户指标和生态指标。“今日头条作为内容分创作平台,既要为内容创作者提供价值,让他更有的创作,也有义务满足用户,这两者要平衡。还有广告主利益也要考虑,这是多方博弈和平衡的过程。”

  表面上看,我们的生活越来越被算法决定。其实,算法只不过是一套规则,机器只不过是按照人写好的规则行事。所以,最终还是被写算法的人决定。

  曹欢欢博士在分享中说:“算法分发并非是把所有决策都交给机器,我们会不断纠偏,设计、监督并管理算法模型。”

  比如,他承认:评估内容的效果时,既可以看点击率、阅读时间、点赞、评论、转发等可以量化的因素,但“引入数据以外的要素也很重要”。“有些算法可以完成,有些算法还做不到、做得不好,这就需要内容干预。”言下之意,人工编辑的参与依然重要。

  再比如,对标题党、低质内容的,对重要新闻的置顶、加权、强插,对低级别账号内容的降权,都是算法本身无法完成的,是由人工编辑进行的。

  今日头条此前给人的印象是,总在强调技术、机器。这本身并没有什么错,因为它确实是一家以技术为内核的公司。但是,技术背后也是人,而且技术目前还有很多无法完成的工作,需要有人的干预。在这次分享中,我们看到今日头条的形象在发生一些微妙的变化,在推进算法透明度的同时,也在越来越多谈到人的重要性。

  今日头条对外公开表示:“人工智能发展带来的挑战,是人类此前没有过的。当企业发展壮大时,有责任也有义务,与行业一道积极思考与研究新技术可能带来的机遇和风险。”这样的态度和姿态,以及这次公开算法原理的尝试,都是值得鼓励的。

  接下来,不管是在美国、中国还是其他国家,算法透明化相信都会成为重要的趋势。我们等待着下一家互联网公司的主动分享。

(责任编辑:admin)

顶一下
(0)
0%
踩一下
(0)
0%
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。