什么是时间序列数据挖掘:理论基础与应用方向
时间序列数据挖掘,要从大量的时间序列数据中提取出人们事先不知道的、与时间属性相关的信息,指导中短期的预测。
在金融领域中,时间序列数据是一类重要数据,例如,股票市场的交易,外汇及期货市场的各种类型的指数等,这些数据都是一个持续不断的时间序列。
“股票是市场经济的晴雨表”,这句话说明了股票市场在金融市场中的指标作用。投资者很希望能够准确预测出股票市场的走势,以便在适当时机进行投资。由于股票的价格指数上下起伏波动很大,没有确定的线性变化的性质,所以,预测股票市场走势一直是一个相当有挑战性的问题。
金融市场的数据,常常以时间序列的形式出现,如股票或期货市场中的各种价格,货币市场中的利率,外汇市场中的利率等数据,所以,现在金融市场研究的重点主要是针对时间序列的数据进行研究。基于金融时间序列的研究一般方法是基于统计理论方法,近几年来,由于数据挖掘中很多算法有比较强的优势(如对现实的数据没有模型的限制,也没有像数理统计方法中要求太多的参数设置),有很多的工作转向使用数据挖掘中的技术来分析金融市场。
理论基础:
在很多人的研究中都提及Fama(1965)提出的市场有效性(Market Effici ency)问题,他的理论大概是说证券价格充分反映了历史上一系列交易价格和交易量中所隐含的信息,从而投资者不可能通过分析以往价格获得超额利润。也就是说,使用当前及历史价格对未来预测是徒劳的。但随后很多人的研究显示,实际的市场并不遵循弱式有效市场的假说(参见Levy的投资学),这就给出一个提示,金融时间序列中可能存在某些隐含的模式,这方面的研究是有价值的。
时间序列数据的分析主要有以下几个热门方向:时间序列中的相似性研究、关联模式的发现,以及短期投资的市场预测等。