由麻省理工学院研究人员开发的自动化机器学习模型显着优于人类华尔街分析师预测季度商业销售。
使用有限的数据,这种自动化的机器学习系统预测了公司的季度销售额。
了解公司的真正销售可以帮助确定其价值。例如,投资者通常雇用金融分析师预测使用各种公共数据,计算工具和自己的直觉的即将到来的盈利。现在麻省理工学院研究人员开发了一种自动模型,可以使用非常有限的“嘈杂”数据来预测业务销售方面的自动模型。
在金融中,使用不精确但经常产生的消费者数据 - 称为“替代数据”的兴趣日益增长 - 帮助预测公司的交易和投资目的的收益。替代数据可以包括信用卡购买,来自智能手机的位置数据,甚至甚至卫星图像,均显示有多少辆车停放在零售商的地段。将替代数据与更传统但不常见的地面金融数据相结合 - 例如季度收益,新闻稿和股票价格 - 甚至每天或每周甚至可以在日常或每周内涂上公司的金融健康的更清晰的照片。
但是,到目前为止,使用替代数据非常难以准确,频繁的估计。在本月在ACM Sigmetrics会议上发布的一篇文章中,研究人员描述了预测财务的模型,这些型号仅使用匿名的每周信用卡交易和三个月的盈利报告。
该模型预测预测30多家公司的季度收益,优势优势优势,专家华尔街分析师的综合估计数为57%的预测。值得注意的是,分析师可以访问任何可用的私人或公共数据和其他机器学习模型,而研究人员的模型使用了两个数据类型的非常小的数据集。
“替代数据是这些奇怪的,代理信号,以帮助跟踪公司的基础金融资金,”信息和决策系统(LIDS)的实验室中的博士迈克尔Fleder。“我们问道,'你可以将这些嘈杂的信号与季度数量相结合,以估计高频率的公司真正的财务状况吗?”事实证明答案是肯定的。“
该模型可以向投资者,贸易商或寻求经常与竞争对手进行比较他们的销售的公司提供优势。除了融资之外,该模型可以帮助社会和政治科学家,例如,学习与公共行为的汇总,匿名数据。“对于任何想要P人所在的人来说,这将是有用的,”Fleder说。
在论文中加入Fleder是EECS教授Shah,是MIT统计和数据科学中心主任,信息和决定系统的实验室成员,是MIT数据科学基金会的主要调查员,以及兼容塔塔基础研究所教授。
解决“小数据”问题
无论好坏,很多消费者数据都会出售。例如,零售商可以购买信用卡交易或位置数据,以了解竞争对手的人们在购物。广告商可以使用数据来了解他们的广告如何影响销售。但是获得这些答案仍然依赖于人类。没有机器学习模式已经能够充分紧缩数字。
违反直接,问题实际上缺乏数据。每个财务投入,例如季度报告或每周信用卡总额,只有一个数字。两年多的季度报告只有八个数据点。信用卡数据表示,同期每周只有100个“嘈杂”的数据点,这意味着它们包含可能无法解释的信息。
“我们有一个”小数据“问题,”Fleder说。“你只会得到一片人们的消费,你必须推断并推断出从这种数据的一部分真正发生的事情。”
对于他们的工作,研究人员通常每周和两周的时间间隔获得消费者信用卡交易 - 从对冲基金到2015年到2018年34次零售商的季度报告。在所有公司,他们共收集了306季度的数据。
计算日销售的概念相当简单。该模型假设公司的日常销售仍然相似,仅略微减少或从一天增加到下一个。在数学上,这意味着连续几天的销售价值乘以一些常量值加上一些统计噪声值 - 这捕获了公司销售中的一些固有的随机性。例如,明天的销售额较为平等的销售额乘以,比如,0.998或1.01加上噪声估计数。
如果给定每日常用噪声水平的准确模型参数,则标准推理算法可以计算该等式以输出准确的日常销售预测。但诀窍是计算这些参数。
解开数字
这就是季度报告和概率技术方便的地方。在一个简单的世界中,可以将季度报告说明,例如,计算日常销售(暗示销售大致不变日常)。实际上,销售额在日常日期间不同。此外,包括替代数据,以帮助了解销售额如何在季度变化复杂的事项:除了嘈杂之外,购买的信用卡数据始终由销售额的一些不确定的分数组成。这一切使得信用卡究竟是如何进入整体销售估算的究竟是多么困难。
“这需要一些不包含数字的数字,”Fleder说。“如果我们通过信用卡交易观察公司每周销售的1%,我们如何知道这是1%的人?而且,如果信用卡数据是嘈杂的,你怎么知道它有多吵吗?我们无法获得日常或每周销售总额的实地真相。但季度汇总有助于我们推理这些总数。“
为此,研究人员使用标准推理算法的变化,称为卡尔曼滤波或信仰传播,这些传播已被用于从空间班车到智能手机GPS的各种技术。Kalman滤波使用随时间观察到的数据测量,其中包含噪声不准确,以在指定的时间范围内生成未知变量的概率分布。在研究人员的工作中,这意味着估计一天的可能销售。
为了训练模型,该技术首先将季度销售分解为一定数量的测量天数,说90 - 允许销售日常变化。然后,它与观察到的嘈杂的信用卡数据与未知的日常销售相匹配。使用季度数量和一些外推,估计信用卡数据可能代表的总销售的分数。然后,它计算观察到的销售,噪音水平的每一天的一部分,以及对其预测的误差估计。
推理算法将所有这些值插入公式中以预测每日销售总额。然后,它可以将这些总计保存每周,每月或季度。该模型遍布所有34家公司,击败了共识基准 - 这将华尔街分析师的估计结合在一起 - 顿306季度预测的57.2%。
接下来,研究人员正在设计模型,分析信用卡交易和其他替代数据的组合,例如位置信息。“这不是我们能做的。这只是一个自然的起点,“Fleder说。
参考:迈克尔Fleder和Devavrat Shah的“预测替代数据”,ACM Sigmetrics会议的会议记录,2019年12月3日第3卷,第46股:
10.1145/3366694