K-Means聚类实战：用Java处理真实数据集（鸢尾花/客户分群）-洪萨配资

K-Means聚类实战：用Java处理真实数据集（鸢尾花/客户分群）

当我们需要从海量数据中发现隐藏的模式时，聚类分析就像一盏探照灯，照亮数据的内在结构。作为最经典的聚类算法之一，K-Means以其简洁高效著称，特别适合处理数值型数据集。本文将带您用Java实现一个完整的K-Means解决方案，从数据加载到结果分析，手把手教您将算法应用于实际业务场景。

1. 环境准备与数据加载

1.1 项目依赖配置

现代Java项目通常使用Maven或Gradle管理依赖。对于数据处理任务，我们推荐添加以下依赖到pom.xml：

<dependencies> <dependency> <groupId>org.apache.commons</groupId> <artifactId>commons-csv</artifactId> <version>1.9.0</version> </dependency> <dependency> <groupId>org.knowm.xchart</groupId> <artifactId>xchart</artifactId> <version>3.8.2</version> </dependency> </dependencies>

commons-csv用于高效读取CSV格式的数据文件，xchart则提供了简单易用的数据可视化功能。

1.2 数据加载实战

以经典的鸢尾花数据集为例，我们首先需要将其加载到内存中。创建一个DataLoader类专门处理数据加载：

public class DataLoader { public static List<double[]> loadCSV(String filePath, boolean hasHeader) { List<double[]> data = new ArrayList<>(); try (Reader reader = Files.newBufferedReader(Paths.get(filePath)); CSVParser csvParser = new CSVParser(reader, CSVFormat.DEFAULT)) { boolean firstLine = hasHeader; for (CSVRecord record : csvParser) { if (firstLine) { firstLine = false; continue; } double[] features = new double[record.size() - 1]; // 假设最后一列是标签 for (int i = 0; i < features.length; i++) { features[i] = Double.parseDouble(record.get(i)); } data.add(features); } } catch (IOException e) { System.err.println("Error loading CSV file: " + e.getMessage()); } return data; } }

提示：实际项目中应考虑添加数据校验逻辑，确保数据质量。对于包含非数值特征的数据集，需要先进行特征编码。

2. K-Means核心算法实现

2.1 算法参数初始化

K-Means需要预先确定聚类数量K，我们可以通过以下方式初始化：

public class KMeans { private int k; // 聚类数量 private int maxIterations; // 最大迭代次数 private List<double[]> centroids; // 聚类中心 private List<List<double[]>> clusters; // 聚类结果 public KMeans(int k, int maxIterations) { if (k <= 0) throw new IllegalArgumentException("K must be positive"); this.k = k; this.maxIterations = maxIterations; } // 随机初始化聚类中心 private void initCentroids(List<double[]> data) { centroids = new ArrayList<>(); Random random = new Random(); // 使用K-Means++改进初始化 centroids.add(data.get(random.nextInt(data.size()))); for (int i = 1; i < k; i++) { double[] distances = new double[data.size()]; double sum = 0; for (int j = 0; j < data.size(); j++) { double minDist = Double.MAX_VALUE; for (double[] centroid : centroids) { double dist = euclideanDistance(data.get(j), centroid); if (dist < minDist) minDist = dist; } distances[j] = minDist; sum += minDist; } // 轮盘赌选择下一个中心点 double threshold = random.nextDouble() * sum; double accum = 0; for (int j = 0; j < distances.length; j++) { accum += distances[j]; if (accum >= threshold) { centroids.add(data.get(j)); break; } } } } }

2.2 核心迭代过程

K-Means的核心是不断迭代更新聚类中心，直到收敛：

public void fit(List<double[]> data) { initCentroids(data); clusters = new ArrayList<>(); for (int i = 0; i < k; i++) { clusters.add(new ArrayList<>()); } int iteration = 0; double prevSSE = Double.MAX_VALUE; double currentSSE; while (iteration < maxIterations) { // 清空当前聚类 for (List<double[]> cluster : clusters) { cluster.clear(); } // 分配点到最近的聚类中心 for (double[] point : data) { int closest = findClosestCentroid(point); clusters.get(closest).add(point); } // 更新聚类中心 for (int i = 0; i < k; i++) { if (!clusters.get(i).isEmpty()) { centroids.set(i, calculateMean(clusters.get(i))); } } // 计算SSE判断收敛 currentSSE = calculateSSE(); if (Math.abs(prevSSE - currentSSE) < 1e-6) { break; } prevSSE = currentSSE; iteration++; } } private double calculateSSE() { double sse = 0; for (int i = 0; i < k; i++) { for (double[] point : clusters.get(i)) { sse += Math.pow(euclideanDistance(point, centroids.get(i)), 2); } } return sse; }

3. 确定最佳K值

K-Means需要预先指定聚类数量K，如何选择合适的K值至关重要。以下是几种常用方法：

3.1 肘部法则实现

肘部法则通过观察SSE随K值变化的拐点来确定最佳K：

public static int findBestK(List<double[]> data, int maxK) { double[] sses = new double[maxK]; for (int k = 1; k <= maxK; k++) { KMeans kmeans = new KMeans(k, 100); kmeans.fit(data); sses[k-1] = kmeans.calculateSSE(); } // 计算二阶导数寻找拐点 int bestK = 1; double maxCurvature = Double.NEGATIVE_INFINITY; for (int k = 2; k < maxK; k++) { double curvature = (sses[k-2] - sses[k-1]) - (sses[k-1] - sses[k]); if (curvature > maxCurvature) { maxCurvature = curvature; bestK = k; } } return bestK; }

3.2 轮廓系数评估

轮廓系数结合了聚类的凝聚度和分离度，是更全面的评估指标：

public double silhouetteScore() { double total = 0; int count = 0; for (int i = 0; i < k; i++) { for (double[] point : clusters.get(i)) { // 计算a(i): 同一簇内平均距离 double a = averageDistance(point, clusters.get(i)); // 计算b(i): 最近其他簇的平均距离 double b = Double.MAX_VALUE; for (int j = 0; j < k; j++) { if (j != i && !clusters.get(j).isEmpty()) { double dist = averageDistance(point, clusters.get(j)); if (dist < b) b = dist; } } total += (b - a) / Math.max(a, b); count++; } } return total / count; }

4. 结果分析与可视化

4.1 聚类结果统计

完成聚类后，我们需要分析各个簇的特征：

public void analyzeClusters() { System.out.println("Cluster Analysis:"); System.out.println("----------------"); for (int i = 0; i < k; i++) { List<double[]> cluster = clusters.get(i); if (cluster.isEmpty()) continue; int dimensions = cluster.get(0).length; double[] means = new double[dimensions]; double[] variances = new double[dimensions]; // 计算各维度均值 for (double[] point : cluster) { for (int d = 0; d < dimensions; d++) { means[d] += point[d]; } } for (int d = 0; d < dimensions; d++) { means[d] /= cluster.size(); } // 计算各维度方差 for (double[] point : cluster) { for (int d = 0; d < dimensions; d++) { variances[d] += Math.pow(point[d] - means[d], 2); } } for (int d = 0; d < dimensions; d++) { variances[d] /= cluster.size(); } System.out.printf("Cluster %d (%d points):%n", i+1, cluster.size()); for (int d = 0; d < dimensions; d++) { System.out.printf(" Dim %d: mean=%.2f, var=%.2f%n", d+1, means[d], variances[d]); } } }

4.2 可视化展示

使用XChart库生成聚类结果的可视化图表：

public void visualizeClusters(String title) { // 创建图表 XYChart chart = new XYChartBuilder() .width(800).height(600) .title(title) .xAxisTitle("Dimension 1") .yAxisTitle("Dimension 2") .build(); // 添加各簇数据点 for (int i = 0; i < k; i++) { List<double[]> cluster = clusters.get(i); if (cluster.isEmpty()) continue; double[] xData = new double[cluster.size()]; double[] yData = new double[cluster.size()]; for (int j = 0; j < cluster.size(); j++) { xData[j] = cluster.get(j)[0]; // 第一维作为x轴 yData[j] = cluster.get(j)[1]; // 第二维作为y轴 } chart.addSeries("Cluster " + (i+1), xData, yData) .setMarker(SeriesMarkers.CIRCLE) .setMarkerColor(ChartColor.getColor(i)); } // 添加聚类中心 double[] centerX = new double[centroids.size()]; double[] centerY = new double[centroids.size()]; for (int i = 0; i < centroids.size(); i++) { centerX[i] = centroids.get(i)[0]; centerY[i] = centroids.get(i)[1]; } chart.addSeries("Centroids", centerX, centerY) .setMarker(SeriesMarkers.CROSS) .setMarkerColor(ChartColor.BLACK); // 显示图表 new SwingWrapper<>(chart).displayChart(); }

5. 电商客户分群实战案例

让我们将K-Means应用于一个电商客户分群场景。假设我们有以下客户特征：

最近一次购买时间（天）
购买频率（次/月）
平均订单价值（元）
累计消费金额（元）

public class CustomerSegmentation { public static void main(String[] args) { // 加载客户数据 List<double[]> customers = DataLoader.loadCSV("customer_data.csv", true); // 数据标准化 StandardScaler scaler = new StandardScaler(); scaler.fit(customers); List<double[]> scaledData = scaler.transform(customers); // 确定最佳K值 int bestK = KMeansOptimizer.findBestK(scaledData, 10); System.out.println("Optimal number of clusters: " + bestK); // 训练K-Means模型 KMeans kmeans = new KMeans(bestK, 100); kmeans.fit(scaledData); // 分析结果 kmeans.analyzeClusters(); System.out.printf("Silhouette Score: %.3f%n", kmeans.silhouetteScore()); // 可视化前两个维度 kmeans.visualizeClusters("Customer Segmentation"); // 将分群结果映射回原始数据 Map<Integer, List<double[]>> customerSegments = new HashMap<>(); for (int i = 0; i < bestK; i++) { customerSegments.put(i, new ArrayList<>()); } for (double[] customer : customers) { double[] scaled = scaler.transform(customer); int cluster = kmeans.predict(scaled); customerSegments.get(cluster).add(customer); } // 输出各分群的业务特征 for (int i = 0; i < bestK; i++) { List<double[]> segment = customerSegments.get(i); System.out.printf("%nSegment %d (%d customers):%n", i+1, segment.size()); double[] totals = new double[4]; for (double[] customer : segment) { for (int j = 0; j < 4; j++) { totals[j] += customer[j]; } } System.out.printf(" Avg Recency: %.1f days%n", totals[0]/segment.size()); System.out.printf(" Avg Frequency: %.1f times/month%n", totals[1]/segment.size()); System.out.printf(" Avg Order Value: ¥%.2f%n", totals[2]/segment.size()); System.out.printf(" Avg Total Spend: ¥%.2f%n", totals[3]/segment.size()); } } }

在实际项目中，这种客户分群可以帮助市场团队制定精准的营销策略。例如，高价值低频率客户可能需要唤醒活动，而高频率低价值客户则适合交叉销售。