在R中使用开源大规模预测工具Prophet

Prophet 是 Facebook 推出的开源大规模预测工具，可以在 R 和 Python 中使用以预测时间序列数据。

下面将简单介绍 Prophet 在 R 中的使用。

一、基础介绍

下面实例中使用的是佩顿 · 曼宁的维基百科主页每日访问量的时间序列数据(2007/12/10 – 2016/01/20)。我们使用 R 中的 Wikipediatrend 包获取该数据集。这个数据集具有多季节周期性、不断变化的增长率和可以拟合特定日期(例如佩顿 · 曼宁的决赛和超级碗)的情况等 Prophet 适用的性质，因此可以作为一个不错的例子。( 注：佩顿 · 曼宁为前美式橄榄球四分卫)

在 R 中，Prophet 提供了一个 prophet 函数去拟合模型并且返回一个模型对象，可以对这个模型对象执行“预测”( predict )和“绘图”( plot )操作。

使用 prophet_plot_components 函数去展示预测中的趋势、周效应和年度效应。

注： Windows 系统语言设置为中文的话，会导致 R 输出成分分析图时，周效应无法正常显示，可在 R 中使用 Sys.setlocale("LC_ALL","English") 代码将环境改为英文。

二、预测增长

默认情况下， Prophet 使用线性模型进行预测。当预测增长情况时，通常会存在可到达的最大极限值，例如：总市场规模、总人口数等等。这被称做承载能力，那么预测时就应当在接近该值时趋于饱和。

Prophet 可使用 logistic 增长趋势模型进行预测，同时指定承载能力。下面使用 R 语言的维基百科主页访问量(取对数)的实例来进行说明。

三、趋势突变点

默认情况下， Prophet 将自动监测到突变点，并对趋势做适当地调整。

下面将会介绍几种使用的方法可以对趋势的调整过程做更好地控制。

1. 调整趋势的灵活性

如果趋势的变化被过度拟合(即过于灵活)或者拟合不足(即灵活性不够)，可以利用输入参数 changepoint.prior.scale 来调整稀疏先验的程度。默认下，这个参数被指定为 0.05 。

增加这个值，会导致趋势拟合得更加灵活。如下代码和图所示：

减少这个值，会导致趋势拟合得灵活性降低。如下代码和图所示：

四、节假日效应

1. 对节假日建模

如果需要专门对节假日进行建模，你就必须得为此创建一个新的数据框，其中包含两列(节假日 holiday 和日期戳 ds )，每行分别记录了每个出现的节假日。

你可以在这个数据框基础上再新建两列 lower_window 和 upper_window ，从而将节假日的时间扩展成一个区间 [ lower_window , upper_window ] 。举例来说，如果想将平安夜也加入到 “圣诞节” 里，就设置 lower_window = -1 , upper_window = 0 ;如果想将黑色星期五加入到 “感恩节” 里，就设置 lower_window = 0 , upper_window = 1 。

下面我们创建一个数据框，其中包含了所有佩顿 · 曼宁参加过的决赛日期：