6gem
幼苗
共回答了16个问题采纳率:100% 举报
人工翻译,请放心采纳.
在动态时间规整下搜索和挖掘数以兆计的时间序列子序列
摘要:大多数时间序列数据挖掘算法都采用相似性搜索作为核心子程序,因此相似性搜索所花的时间对几乎所时间序列数据挖掘算法来说都是瓶颈.将搜索扩展到大型数据集的难度很大程度上解释了为什么对时间序列数据挖掘的大多数学术研究一直停留在考虑的几百万个时间序列对象的平台上,而很多产业和科学却有数以十亿计的时间序列对象等待着进行探索的原因.在本文中,我们表明了,通过使用四种新想法的结合,我们可以首次搜索和挖掘真正大量的时间序列.我们证明了以下极为直观的事实,在大型数据集中,我们可以准确地在DTW(动态时间规整)下,比目前最先进的Euclidean距离搜索算法快得多的进行搜索.我们演示了我们对迄今试图进行的最大时间序列集的试验所做的研究工作.具体而言,我们考虑的最大的数据集比在所有迄今出版过的所有数据挖掘论文中加以考虑的所有时间序列数据集的总和规模还要大.我们证明了,我们的想法使我们能够解决高层次的时间序列数据挖掘问题,比如在否则将站不住脚的规模上进行主体发现和集群.除了挖掘大量数据集,我们将证明,我们的想法也有实时监控数据流的含义,从而使我们能够处理快得多的到达速率和/或使用比目前可能的更便宜,更省电的设备.
1年前
2