全文链接:http://tecdat.cn/?p=28716
作者:Mingji Tang
统计学中传统的数据类型有截面数据和时间序列数据。这两者都只能在某一纵向或横向上探究数据,且部分前提条件又很难满足。而函数型数据连续型函数与离散型函数长期以来的分离状态,实现了离散和连续的过度。它很少依赖于模型构建及假设条件。通过使用函数型数据,我们可以发掘新冠疫情数据中更多的信息。
相关视频
一、数据的收集与整理
选择人口流动较大的北京、上海、广东,以及与武汉相邻的重庆、湖南、江西、安徽、河南,一共八个省级行政区的确诊人数变化数据(查看文末了解数据免费获取方式)作为样本。
考虑到各省市人口数量差异较大,使用确诊人数和总人数的比例作为数据研究对象更加合理。
二、 建立函数型数据对象
采用B样条基线性函数拟合离散的数据。使用最小二乘法得到系数。
然后通过粗糙惩罚来提高函数的光滑性。设置惩罚项为。
则新的需要最小化的式子为:
可以得到光滑化之后的函数型数据。
点击标题查阅往期内容
Python用RNN神经网络:LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测
左右滑动查看更多