接下来我们需要验证我们的数据是否干净。时间序列模型需要的一个假设是连续间隔的数据。但如果我们的传感器坏了或者我们一小时没用电怎么办?
如果我们发现时间序列中存在间隙,我们会将其填补。我们只需定义间隔的粒度,例如,间隙是缺失的分钟、小时或天。插入的时间戳将填充缺失值,这些值可以通过时间序列的线性插值等方式替换。(图 3):
图 使用时间戳对齐组件填补时间序列中的空白。在此 阿尔及利亚电话号码数据 示例中,未报告 2010 年 3 月 24 日最后一小时的能耗。因此,将时间戳添加到时间序列中并填充缺失值。
检查季节性和趋势
好的,我们已经得到了汇总的、经过清理的数据。在开始建模之前,最好先进行视觉探索。许多流行的模型都假设时间序列是平稳的,这意味着它的统计数据随时间保持不变。因此,我们将时间序列分解为趋势和季节性,最后将模型拟合到不规则部分。
我们可以在自相关 (ACF) 图中检查时间序列中的季节性。图中的规律峰值和低点表明时间序列中的季节性,可以通过对相关性最大的滞后数据进行差分来消除。为了找到这个局部最大值,我们使用检查季节性组件(图 4)。为了消除局部最大值处的季节性,我们使用消除季节性组件。通过重复此过程可以消除第二、第三等季节性。