本篇文章4073字,读完约10分钟

百度的大数据预测在世界杯预测中具有很高的准确性,但在其稳步发展中遇到了一个小障碍。票房预测仍在内部测试中,偏离了实际结果,引起了业界的极大关注。笔者一直在观察大数据预测业务,并对百度预测的“黄金时代”有自己的看法。

首先,审视大数据预测的不准确性,保持冷静和客观

近年来,“大数据”一词频繁出现在各种媒体上,与大数据相关的各种行业和产品正在蓬勃发展。今年2月,中关村管委会在《关于加快培育大数据产业集群促进产业转型升级的意见》新闻发布会上表示,到2016年,中关村大数据带动的产业规模将超过1万亿元,这只是中关村大数据产业的数量。放眼世界,未来大数据的“钱景”令人印象深刻。尽管大数据的概念已经升温,但与大数据相关的各种产品仍处于初步探索阶段,例如,使用大数据进行预测。尽管百度的预测在世界杯预测、黄金周旅游预测和其他产品中显示出相对较高的准确性,但“预测”不准确是正常的。

请理性看待大数据票房预测失灵事件

关注最关心的金融话题,一起讨论。

具体到《黄金时代》的票房预测,我们先来看看百度的官方解释。百度对媒体的回应并没有将问题归结为“工程师的失误”,而是直接指出了核心原因:由于中国电影市场上文艺电影的历史票房数据稀缺,一般模型被用来预测黄金时代,而文艺电影没有单独使用模型,导致最终结果出现偏差。

有了萧红、民国和文艺的标签,《黄金时代》可以说是一部相对小的电影,它的观众不是主流。关于这类电影的数据很少,也没有相应类型电影的预测模型可供参考。百度在预测黄金时代时采用了一般的电影模式,这导致了很大的偏差。如果未来的预测是准确的,最好的解决方案肯定是为不同类型的电影分别建模。据我所知,目前仍处于内部测试阶段的票房预测在这方面已经有所改善。

请理性看待大数据票房预测失灵事件

看看百度的预测平台,百度票房预测的图标是灰色的,还没有正式推出。相反,经济指数、疾病、景点和事件预测已经全面启动并投入使用。百度的票房预测模型需要进一步改进,模型中需要增加更多的参数,如电影属性、电影长度、电影数量、平均票价等。

然而,从另一个角度来看,我认为即使百度的票房预测正式推出,也是很正常的。没有人真正拥有水晶球。大数据预测不能确定会发生什么。它更多的是给出一个概率,人类必须不断接近这个概率。预测的前提是承认不确定性的存在。不同领域的不确定性差异很大。票房和股市恰恰是更容易受到人为影响、具有很大不确定性的领域,比天气、旅游、交通、价格等更难预测。

请理性看待大数据票房预测失灵事件

质疑大数据预测本身或票房预测本身是不合理的,因为“黄金时代”无法预测。百度在世界杯和黄金周期间相对漂亮的预测结果已经证明了大数据预测的价值,但在票务预测这个新领域还需要更耐心地优化。那么,票房预测在中国真的无效吗?

第二,预测的本质在于降水和校正

"为什么大数据不能有效预测黄金时代的票房?"本文的核心观点如下:1 .中国票房数据的降水量太少;2.一些人为制造的数据干扰了票房预测;3.预测模型处于初级阶段,存在变量缺失和样本偏差;4.影院经理的预测是可靠的,票房预测毫无意义,在电影预测中谈论大数据还为时过早。

对于这些观点,我只同意第三点,这是客观事实。百度也承认,内部测试阶段的票房预测模型存在一些不足,需要改进。然而,如果你深入思考,你会发现世界上没有完美的预测模型,它存在于每个领域。下一秒将会发生什么将会受到许多变量的影响,其中一些可以提前考虑,而一些即使考虑也很难监控。变量遗漏和样本偏差一直是预测问题。只有通过不断更新变量、修正样本和升级模型,预测者才能保持他们的预测接近现实。

请理性看待大数据票房预测失灵事件

大数据预测会改变哪些行业?”作者总结道,大数据预测的逻辑基础是,每一次非常规变化都必须事先有征兆,而且每一件事都有可循的痕迹。如果发现了符号和变化之间的规律,它是可以预测的。预测的两个要点是:从过去的数据和经验中获得的规律,这些规律被映射到预测模型;可以实时监控的更改被映射到变量或实时数据。大数据预测与传统预测的区别在于:更具时效性、新的数据源、动态预测和规则依赖性。

请理性看待大数据票房预测失灵事件

那些对票房预测持否定态度的人首先将问题归咎于数据:电影数据沉淀太少、网络数据不合理和数据肮脏。

1.降水量太少令人担忧

中国的票房数据太少,这可能是一个客观事实。然而,预测需要大量历史数据的原因在于从中发现规律。然而,如果只有100年的票房数据,却没有影响这些票房数据的“可变”数据,这对挖掘规律是没有帮助的。

例如,百度与第三方数据公司合作,在进行世界杯预测时获取大量历史数据进行挖掘,考虑球队、球员、场馆等静态因素,并引入民意、欧洲薪酬指数等动态变量,从而实现近乎准确的预测。

就票房预测而言,即使我们得到中国八九十年代的票房数据,而不是“预测相关数据”,也无助于我们得到票房规律。那时,没有互联网,电影市场已经面目全非。票房预测需要什么数据?没有人能告诉我们答案。在10年的数据积累之后谈论大数据预测是不现实的。因为我们今天不这么做,人们不知道要收集和记录什么数据。此外,谁能指出10年和2年之间的时间差异会导致数据积累的本质差异?

请理性看待大数据票房预测失灵事件

大数据预测的数据源优势在于,它可以更全面、更及时地记录数据,并收集过去无法收集的数据,如用户需求、公众意见、情绪变化或旅游规则、电影票价、影院时间安排数据。因此,与其担心“传统数据沉淀不足”,不如考虑票房预测需要哪些数据,以及如何改进这一规律。

2.数据不通和脏数据是永恒的问题

网络数据不通是整个互联网不得不面对的一个数据缺口问题。没有人拥有整个网络数据,所以几乎不可能聚合整个网络数据进行预测,也没有必要。如果说社交网络数据对预测非常重要,那么只有腾讯能够在中国做出好的预测——但事实并非如此。阿里淘宝指数已经成为电子商务销售的风向标,而百度搜索指数对各行各业都有重要的参考意义,因为它代表着利益。每个家族掌握的数据性质不同,但通过合作可以获得更多的维度数据,最终提高预测的可靠性。然而,每个家庭直接突破数据壁垒是不现实的。

请理性看待大数据票房预测失灵事件

同样,“脏数据”和“噪音”也是整个互联网中的现象。即使是传统的采样研究也不可避免地会遇到噪声样本,进而受到干扰。为了解决这个问题,我们应该尽可能地对噪声数据进行滤波,并不断修正考虑噪声的模型,增加预测结果的误差范围。另一个假设是,如果有对结果有正面影响的脏数据(比如让票房得分更高),也会有对结果有负面影响的脏数据。

请理性看待大数据票房预测失灵事件

百度的搜索结果不排除被他人操纵的数据,这是众所周知的。然而,本文提到的百度的商业化结果根本不是肮脏的数据,因为百度很容易消除商业广告的影响。此外,这些数据对预测非常有价值,谷歌的部分票房预测模型是基于广告点击数据。

3.剧院经理不会预测,但会影响票房

电影院经理能够真正预测一部电影在相应电影院的票房结果。如果他们有选择,他们甚至可以直接影响和决定相应电影的当地票房。所有影院经理最终都会对整体票房产生巨大影响。这不是因果关系,而是连锁关系:剧院经理不仅预测票房,而且影响票房。

我们可以把电影院经理和股票市场的股东联系起来。股东对他们关心的股票价格有预期,基于这种预期,他们可以减少头寸或增加持股。所有投资者的博弈最终决定了股价的波动。但这并不意味着投资者是最好的股票预测专家。在旅游、交通、房价等领域也有类似的情况。参与者根据个人预测或第三方预测采取行动,然后影响结果。

请理性看待大数据票房预测失灵事件

我想在这里解释的是,把参与者和预测者放在一起是不合适的。参与者是非常重要的动态变量。《黄金时代》惨淡的票房在很大程度上是由于票房经理不断降低期望值,从而减少了电影的编排。然而,百度未来与影院或票房经理的合作确实可以提高预测的准确性。一方面,离线升级模型,另一方面,将票房经理的日程安排纳入监控范围,将百度数据+工程师的大数据预测升级为众包票房预测成为可能。

请理性看待大数据票房预测失灵事件

最后,我想说的是,由于一部电影的预测失败否定了大数据的票房预测,这确实是一个值得商榷的问题,今天天气预报的准确性和精细化只能通过不断的降水和不断的升级来实现。然而,仍然有一些不准确的地方,当它影响到我的生活时,我曾经愤怒地认为天气预报没有被考虑,但每个人都知道事实并非如此。票房预测刚刚开始,所以它应该更具包容性。从长远来看,通过不断的优化,如果票房预测产品最终能够达到一定的准确性,将会为整个电影行业提供非常重要的参考价值,比如为投资者、摄影师和推广人员提供更加准确的数据参考,从而引导他们在宣传推广、情节设置甚至演员选择方面做出更加准确和有利的判断。

请理性看待大数据票房预测失灵事件

作者微博@互联网阿超、微信超常发的文章是作者独立的观点,并不代表老虎嗅探网的立场

本文由罗超授权的老虎嗅探网络发布,老虎嗅探网络编辑。转载这篇文章必须得到作者的批准,并请附上来源(老虎嗅探网络)和本页的链接。http://www.huxiu/article/45155/1请作者加入语料库

三链:吃昆虫、吃厕所和油炸??3.模纸锻造,模具模具模具模具模具模具模具模具模具模具模具??. 95镣铐和镣铐??0.07%锝58.....

当前流行度:0

[娇娇]http://itougu.jrj/view/189514.j.....

当前流行度:0

1.1 .涓涓细流??邦邦、邦邦、邦邦、交邦和廖廖??要坚强,要坚强。.....

当前流行度:0

你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道,你知道........

当前流行度:0

缇落入三条锁链??3镝??6铥??0(乌桕脂含有3条链吗??4镝??4铥??0)死,死,死,死又死,4.72??......

当前流行度:0

那墙,墙,墙和墙呢??钳子里有丰富的镰刀、叉子、叉子、nan和链条,这些都是銮棒的来源.....

当前流行度:1

你想挑起镝,破坏哮喘吗??缇,汤,汤,3汤和柊镶嵌??链条??4."敌鲁,缇,汤,汤,汤."??.....

当前流行度:0

咸丰、大树、细垴、十二寸、相互涓涓??环秀细链,涓涓细流,砸铙钹,甩铙钹,砸铙钹,砸铙钹,砸响,砸得咝咝作响??葛格·岳格·柊.....

当前流行度:0

来源:国土报中文版

标题:请理性看待大数据票房预测失灵事件

地址:http://www.g3gw.com/new/22148.html