用Python处理Excel数据：手把手教你做Theil-Sen趋势分析和Mann-Kendall检验（附完整代码）-洪萨配资

Python实战：Excel数据趋势分析与显著性检验全流程指南

1. 时间序列分析的核心价值与应用场景

在环境监测、金融分析和工业控制等领域，我们常常需要从海量数据中提取有价值的信息。比如气象站记录的每日温度变化、股票市场的收盘价波动或者工厂传感器采集的生产指标，这些数据通常以时间序列的形式存储在Excel中。面对这样的数据，两个核心问题摆在分析师面前：

数据是否存在某种长期趋势？（上升、下降或平稳）
这种趋势是否具有统计显著性？

传统的最小二乘法回归虽然直观，但对异常值非常敏感。一个极端数据点就可能完全扭曲分析结果。这正是Theil-Sen估计和Mann-Kendall检验大显身手的地方——它们提供了更稳健的趋势分析方法。

典型应用案例：

环境科学：分析十年间PM2.5浓度变化趋势
气候变化：评估全球温度变化的统计显著性
经济学：研究某商品价格长期波动规律
质量控制：监测生产线指标随时间的变化

2. 环境准备与数据加载

2.1 工具链配置

首先确保你的Python环境已安装以下核心库：

pip install pandas numpy scipy openpyxl

为什么选择这些工具？

pandas：Excel数据读取与处理的行业标准
numpy：高效的数值计算基础
scipy：提供统计检验函数
openpyxl：处理新版Excel文件格式

2.2 数据加载最佳实践

假设我们有一个包含多城市PM2.5年度数据的Excel文件：

import pandas as pd # 专业建议：使用原始字符串避免转义问题 data_path = r'D:\environment_data\city_pm25_2010-2020.xlsx' # 读取时指定参数提升健壮性 df = pd.read_excel( data_path, sheet_name='年度数据', engine='openpyxl', # 明确指定引擎 header=0, # 第一行作为列名 na_values=['NA', 'NULL', '-'] # 自定义缺失值标记 ) # 检查数据质量 print(f"数据维度：{df.shape}") print("前5行数据预览：") print(df.head())

提示：实际工作中总会遇到格式各异的Excel文件。建议添加dtype参数明确指定列类型，或使用converters进行自定义转换，避免pandas自动推断出错。

3. 数据预处理：从原始数据到分析就绪

3.1 异常值处理与缺失值填补

真实世界的数据从来不会完美。我们经常会遇到：

传感器故障导致的异常值
记录遗漏造成的缺失值
单位不统一带来的尺度问题

处理策略对比表：

问题类型	检测方法	处理方案	适用场景
异常值	IQR法则	Winsorize缩尾	金融数据
缺失值	isnull()	线性插值	连续变量
尺度差异	描述统计	Min-Max归一化	多指标比较

def preprocess_series(series): """完整的数据预处理流水线""" # 处理缺失值 if series.isnull().any(): series = series.interpolate(method='linear') # 归一化处理（可选） if (series.max() - series.min()) > 1000: # 大范围数据判断 series = (series - series.min()) / (series.max() - series.min()) return series # 应用预处理 df_processed = df.apply(preprocess_series, axis=1)

3.2 时间维度对齐

当处理多组时间序列时，确保时间戳对齐至关重要：

# 假设第一列是年份 years = df.iloc[:, 0].values data_values = df.iloc[:, 1:].values # 验证时间连续性 assert len(years) == len(set(years)), "存在重复年份记录" assert years[-1] - years[0] + 1 == len(years), "年份不连续"

4. Theil-Sen趋势分析深度解析

4.1 算法原理与实现

Theil-Sen估计的核心思想是计算所有点对斜率的中位数，这种方法的优势在于：

对异常值的容忍度高达29.3%（崩溃点）
不需要数据服从特定分布
计算结果具有一致性

优化后的实现代码：

import numpy as np from itertools import combinations def theil_sen_estimator(y): """ 优化的Theil-Sen估计实现 参数： y: 时间序列值数组 返回： 斜率估计值 """ n = len(y) if n < 2: return np.nan # 使用组合生成所有点对 idx = np.arange(n) pairs = np.array(list(combinations(idx, 2))) # 向量化计算斜率 x_diff = pairs[:, 1] - pairs[:, 0] y_diff = y[pairs[:, 1]] - y[pairs[:, 0]] slopes = y_diff / x_diff return np.median(slopes) # 示例使用 sample_data = np.array([12.3, 13.7, 15.2, 14.8, 17.5, 16.9]) print(f"趋势斜率：{theil_sen_estimator(sample_data):.4f}")

4.2 实际应用技巧

多变量批量处理模式：

def batch_theil_sen(df): results = [] for col in df.columns[1:]: # 跳过第一列（时间） slope = theil_sen_estimator(df[col].values) results.append({'变量': col, '斜率': slope}) return pd.DataFrame(results) # 执行批量分析 trend_results = batch_theil_san(df_processed) print(trend_results.sort_values('斜率', ascending=False))

注意：当数据量很大时（n>1000），计算所有点对可能内存不足。此时可采用随机抽样法，从所有可能的点对中抽取代表性样本。

5. Mann-Kendall检验完整实现

5.1 检验原理详解

Mann-Kendall是非参数检验方法，用于判断趋势是否具有统计显著性。其核心优势在于：

不假设数据分布形式
对单调趋势敏感
能处理缺失值（只要不是系统性缺失）

假设检验解读：

原假设（H0）：没有单调趋势
备择假设（H1）：存在单调趋势
通常当p-value < 0.05时拒绝原假设

5.2 代码实现与优化

from scipy.stats import norm def mann_kendall_test(y): """ 完整的Mann-Kendall检验实现 返回： S统计量, Z值, p值, 趋势方向 """ n = len(y) if n < 2: return np.nan, np.nan, np.nan, np.nan # 计算S统计量 s = 0 for i in range(n-1): for j in range(i+1, n): s += np.sign(y[j] - y[i]) # 计算方差（考虑结值修正） unique, counts = np.unique(y, return_counts=True) tie_correction = sum(t*(t-1)*(2*t+5) for t in counts if t > 1) var_s = (n*(n-1)*(2*n+5) - tie_correction) / 18 # 计算Z值 if s > 0: z = (s - 1) / np.sqrt(var_s) if var_s != 0 else 0 elif s < 0: z = (s + 1) / np.sqrt(var_s) if var_s != 0 else 0 else: z = 0 # 计算p值（双侧检验） p = 2 * (1 - norm.cdf(abs(z))) # 判断趋势方向 trend = '上升' if z > 0 else '下降' if z < 0 else '无趋势' return s, z, p, trend # 示例使用 mk_result = mann_kendall_test(sample_data) print(f"Z值：{mk_result[1]:.2f}, p值：{mk_result[2]:.4f}, 趋势：{mk_result[3]}")

6. 工程化实践：构建完整分析流水线

6.1 自动化分析脚本

将上述功能整合为可复用的分析类：

class TrendAnalyzer: def __init__(self, data_path): self.df = self._load_data(data_path) self.results = None def _load_data(self, path): """数据加载私有方法""" df = pd.read_excel(path, engine='openpyxl') # 添加更多预处理逻辑... return df def analyze(self): """执行完整分析流程""" analysis_results = [] for col in self.df.columns[1:]: series = self.df[col].values # 预处理 clean_series = preprocess_series(series) # 趋势分析 slope = theil_sen_estimator(clean_series) # 显著性检验 _, z, p, trend = mann_kendall_test(clean_series) analysis_results.append({ '指标': col, '斜率': slope, 'Z值': z, 'p值': p, '趋势': trend, '显著性': '显著' if p < 0.05 else '不显著' }) self.results = pd.DataFrame(analysis_results) return self.results def save_report(self, output_path): """保存分析报告""" if self.results is not None: self.results.to_excel(output_path, index=False) print(f"分析报告已保存至：{output_path}") # 使用示例 analyzer = TrendAnalyzer('environment_data.xlsx') results = analyzer.analyze() analyzer.save_report('trend_analysis_report.xlsx')

6.2 可视化分析结果

数据可视化能更直观地展示分析结果：

import matplotlib.pyplot as plt def plot_trend(results_df, top_n=5): """可视化趋势分析结果""" # 按绝对值排序取最重要的趋势 significant = results_df[results_df['显著性'] == '显著'] top_trends = significant.loc[significant['斜率'].abs().nlargest(top_n).index] # 创建图表 fig, ax = plt.subplots(figsize=(10, 6)) colors = ['red' if x > 0 else 'blue' for x in top_trends['斜率']] ax.barh(top_trends['指标'], top_trends['斜率'], color=colors) # 添加标注 for i, (_, row) in enumerate(top_trends.iterrows()): ax.text(row['斜率'], i, f"斜率：{row['斜率']:.2f}\np值：{row['p值']:.3f}", va='center', ha='left' if row['斜率'] > 0 else 'right') ax.set_title('最显著的环境指标趋势') ax.set_xlabel('趋势斜率') plt.tight_layout() plt.show() # 生成可视化 plot_trend(results)

7. 高级技巧与疑难解答

7.1 处理季节性数据

对于具有明显季节性的数据（如月度温度数据），建议先进行季节性分解：

from statsmodels.tsa.seasonal import seasonal_decompose def remove_seasonality(series, freq=12): """季节性分解与调整""" result = seasonal_decompose(series, model='additive', period=freq) return series - result.seasonal # 应用示例 monthly_temp = df['月均温度'].values adjusted_temp = remove_seasonality(monthly_temp)

7.2 大规模数据优化策略

当处理超长序列时（n>10,000），可采用以下优化方法：

分段抽样：随机选取部分点对计算斜率
并行计算：使用多进程加速
近似算法：如基于分位数的快速估计

from multiprocessing import Pool def parallel_theil_sen(y, n_samples=10000): """并行化Theil-Sen估计""" n = len(y) if n < 2: return np.nan # 生成随机点对 indices = np.random.choice(n, size=(n_samples, 2), replace=True) indices = indices[indices[:, 0] < indices[:, 1]] # 确保i<j # 并行计算斜率 with Pool() as p: slopes = p.starmap( lambda i, j: (y[j] - y[i]) / (j - i), indices ) return np.median(slopes)

7.3 常见问题排查

问题1：计算得到的斜率异常大或异常小

检查数据单位是否一致
验证是否存在极端异常值
确认时间戳是否正确对齐

问题2：Mann-Kendall检验p值始终不显著

增加数据时间跨度
检查数据是否具有强自相关性
考虑使用改进的Mann-Kendall变体（如考虑自相关修正）

问题3：内存不足错误

减少同时处理的数据量
使用生成器替代列表存储中间结果
考虑使用更高效的数据结构（如稀疏矩阵）

用Python处理Excel数据：手把手教你做Theil-Sen趋势分析和Mann-Kendall检验（附完整代码）