预测是一项常见的数据科学任务,可帮助组织进行容量规划,目标设置和异常检测。 尽管它很重要,但是要生成可靠的高质量预测仍面临着严峻的挑战,尤其是在存在各种时间序列且具有时间序列建模专业知识的分析师相对较少的情况下。 为了解决这些挑战,描述了一种实用的“大规模”预测方法,该方法将可配置模型与环路分析员绩效分析相结合。论文中提出了一种模块化回归模型,该模型具有可解释的参数,可以由具有分析能力的分析师直观地调整有关时间序列的知识,描述绩效分析以比较和评估预测程序,并自动为预测进行人工审查和调整,帮助分析师最有效地利用其专业知识的工具可以对业务时间序列进行可靠,实用的预测。
业务时间序列的特征
业务预测问题种类繁多,但是其中一些具有许多共同点。 下图显示了Facebook活动的代表性Facebook时间序列。Facebook用户可以使用“事件”平台以各种方式创建事件页面,邀请其他人以及与事件进行交互。 下图显示了在Facebook上创建的事件数的每日数据。 在这个时间序列中,有几个明显的季节性影响:每周和每年的周期,以及圣诞节和新年前后的明显下降。 这些类型的季节性影响自然而然地出现,并且可以在人类行为产生的时间序列中预期到。 时间序列还显示了过去六个月中趋势的明显变化,可能会在受新产品或市场变化影响的时间序列中出现。 最后,实际数据集通常具有离群值,并且此时间序列也不例外。
此时间序列的特征代表了许多业务时间序列:多个强烈的季节性因素,趋势变化,离群值和假日影响。
以下显示了R语言中预测包中几种自动化程序对上述时间序列进行的预测结果:
上图中采用的方法分别是:auto.arima,它是一系列的ARIMA模型(AR,MA等)并且会自动选择拟合数据最好的那个模型;ets,指数平滑模型;snaive,一个随机游走模型,可以每周进行季节性预测;tbats,一个具有每周和每年季节性的TBATS模型。