**
数据挖掘08——基于统计模型的序列数据挖掘
**
一、概述
1.序列数据挖掘方法分类
(1)模式匹配
把未知量伸长或者缩短到参考模式的长度。
然后使用动态规划方法把被比较的数据扭曲或者弯折,时期特征与模型特征对齐。
比如:DTW
(2)统计学习方法
对时间序列结构建立统计模型
比如:HMM 、CRF
(3)神经网络
模拟大脑在处理时间序列信息和工作记忆时所依赖的核心原理
比如:RNN、 LSTM 、 Transformer
2.隐马尔可夫模型
(1)定义
**隐马尔可夫模型(Hidden Markov Model, HMM)**是一种经典的概率图模型,用于建模含有隐藏状态的时序随机过程。
(2)核心思想:看得见的输出,看不见的状态
(3)HMM 的关键假设是:
系统的真实状态(隐藏状态)无法直接观测,但每个状态会以一定概率生成一个可观测的输出(观测值)。
下一状态只依赖于当前状态。
(4)举个例子:“天气与冰淇淋”
隐藏状态(真实天气):晴天(Sunny)、雨天(Rainy)——你不知道每天具体是什么天气。
观测值(你能看到的):每天朋友吃 1、2 或 3 个冰淇淋。
问题:根据过去一周他吃的冰淇淋数量,推断最可能的天气序列。
这就是HMM模型要做的事。