news 2026/7/4 17:52:50

Iceberg在Hadoop集群使用步骤(适配AI大模型)

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Iceberg在Hadoop集群使用步骤(适配AI大模型)

Iceberg在Hadoop集群使用步骤

Cloudera Data Platform(CDP集群中使用Apache Iceberg,需结合 CDP 的集成能力(如 Spark 3、Hive Metastore、Catalog 支持等)。以下是完整、可操作的使用步骤(适用于CDP Private Cloud Base/Experience 7.1.7+CDP Public Cloud,截至 2025 年):


一、前提条件

1. CDP版本要求

  • CDP Private Cloud:7.1.7 SP1 或更高(推荐 7.2+)
  • CDP Public Cloud:已启用Data Engineering (DE)Data Warehouse (DW)环境
  • 已安装Spark 3.x(Iceberg 仅支持 Spark 3+)

2.组件依赖

组件

要求

Spark

≥ 3.1(推荐3.2+

Hive Metastore

必须运行(Iceberg默认使用Hive Catalog

存储

HDFS / S3A / Ozone(需配置访问权限)

Cloudera Manager

≥ 7.7.3Private Cloud

⚠️ 注意:CDP不支持 Nessie Catalog(截至 7.2),仅支持Hive Catalog


🔧二、启用 Iceberg支持(CDP Private Cloud

步骤 1:在 Cloudera Manager中配置 Spark启用 Iceberg

  • 登录Cloudera Manager Web UI
  • 进入Spark 3 → Configuration
  • 搜索 spark.sql.extensions
    • 添加值:org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions
  • 搜索 spark.sql.catalog.spark_catalog
    • 设置为:

org.apache.iceberg.spark.SparkSessionCatalog

  • 搜索 spark.sql.catalog.spark_catalog.type
    • 设置为:hive
  • (可选)设置默认仓库路径:
    • spark.sql.catalog.spark_catalog.warehouse = hdfs://nameservice1/warehouse/iceberg

💡 提示:上述配置将spark_catalog设为 Iceberg 的 Hive Catalog,使 CREATE TABLE 默认创建 Iceberg 表。

步骤 2:重启 Spark服务

  • 在 CM 中重启 Spark 3 History Server和 Gateway

🧪三、使用 Iceberg(通过 Spark SQL

方式 1:在 Spark Shell / Beeline / Hue中操作

1.启动 Spark SQL客户端

Bash:

#在 CDP集群节点执行

spark3-sql --conf spark.sql.extensions=org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions \

--conf spark.sql.catalog.spark_catalog=org.apache.iceberg.spark.SparkSessionCatalog \

--conf spark.sql.catalog.spark_catalog.type=hive

2.创建 Iceberg

Sql:

-- 创建数据库(如果不存在)

CREATE DATABASE IF NOT EXISTS iceberg_db;

-- 使用数据库

USE iceberg_db;

-- 创建 Iceberg 表(自动识别为 Iceberg 格式)

CREATE TABLE customer (

id BIGINT,

name STRING,

email STRING,

ts TIMESTAMP

) USING iceberg

PARTITIONED BY (days(ts));

✅ 关键:USING iceberg 显式指定格式(即使配置了默认 catalog 也建议写明)

3.写入数据

Sql:

INSERT INTO customer VALUES

(1, 'Alice', 'alice@example.com', current_timestamp()),

(2, 'Bob', 'bob@example.com', current_timestamp());

4.查询与 Time Travel

Sql:

-- 普通查询

SELECT * FROM customer;

-- 查看快照历史

SELECT * FROM customer.history;

-- 时间旅行查询(按快照 ID)

SELECT * FROM customer VERSION AS OF 123456789;

-- 或按时间戳

SELECT * FROM customer FOR TIMESTAMP AS OF '2025-12-17 10:00:00';

5. Schema Evolution(安全改表结构)

Sql:

-- 添加列

ALTER TABLE customer ADD COLUMN phone STRING;

-- 删除列(CDP 7.2+ 支持)

ALTER TABLE customer DROP COLUMN email;


📁四、目录结构与元数据位置

Iceberg 表在 HDFS/S3 上生成标准目录结构:

/warehouse/iceberg/

└── iceberg_db.db/

└── customer/

├── metadata/

│ ├── snap-123456789-1-a1b2c3d4.metadata.json

│ ├── v1.metadata.json

│ └── ...

└── data/

└── dt=2025-12-17/

└── xxx.parquet

  • metadata/:存储快照、manifest、schema 变更历史
  • data/:实际数据文件(Parquet/ORC)

🔍 可通过 DESCRIBE FORMATTED customer; 查看表路径和格式。


⚙️五、高级功能(CDP支持情况)

功能

CDP支持

说明

Row-Level Delete

7.2+

DELETE FROM customer WHERE id = 1;

Merge IntoUpsert

Spark 3.2+,语法:MERGE INTO ... WHEN MATCHED THEN UPDATE ...

Time Travel

完整支持VERSION AS OF / TIMESTAMP AS OF

Partition Evolution

ALTER TABLE ... SET PARTITION SPEC (...)

Replication Manager复制

7.1.7 SP1+

通过RM复制Iceberg表(需选"Replicate using metadata files"

Trino/Presto查询

Private Cloud

CDP Private Cloud默认不集成TrinoPublic Cloud可通过DW查询


🛠六、常见问题排查

问题

解决方案

报错:Cannot find catalog spark_catalog

检查Spark配置是否包含spark.sql.catalog.spark_catalog=...

CREATE TABLE仍是Hive

确认是否写了USING iceberg,或检查spark_catalog是否被覆盖

权限拒绝(Permission denied

确保用户对/warehouse/iceberg有读写权限(HDFS ACL / S3 Policy

Kerberos认证失败

Spark提交时添加--keytab--principal


📚官方参考文档

  • Cloudera Docs: Using Iceberg Tables in CDP
  • CDP Public Cloud: Iceberg with Data Engineering

总结:CDP中使用 Iceberg的核心流程

1.配置 Spark启用 Iceberg扩展 + Hive Catalog
2.通过 Spark SQL创建 USING iceberg
3.使用标准 SQL进行 INSERT/UPDATE/DELETE/TIME TRAVEL
4.利用 Replication Manager实现灾备同步(可选)

Iceberg 在 CDP 中已深度集成,是构建湖仓一体(Lakehouse架构的首选格式。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/26 17:24:40

破碎机远程监控及远程维护的数字化解决方案

行业背景近年来,随着我国工业化、城镇化进程的加速推进,砂石骨料作为混凝土及砂浆的关键基础材料,在建筑、交通、水利等基础设施建设领域得到了广泛应用。这一趋势为破碎筛分设备行业带来了前所未有的发展机遇,促使众多工厂向智能…

作者头像 李华
网站建设 2026/6/29 3:35:21

HTTP 协议组成

一、概念HTTP 是一种应用层、基于请求–响应模型的无状态协议,由请求报文、响应报文以及传输规则组成。二、组成 HTTP 请求报文(Request) 请求行 请求头 空行 请求体(1)请求行 GET /index.html HTTP/1.1包含三部分&…

作者头像 李华
网站建设 2026/7/4 19:34:24

Part 12|模块要不要拆?新手也能用的一套判断方法

在做系统设计时,我们都会遇到一个问题:这个功能,要不要单独拆成一个模块?尤其是刚开始做项目的时候,很容易有一个想法:拆出来,看起来更专业一点。但实际情况往往是: 模块一多&#x…

作者头像 李华
网站建设 2026/7/3 13:52:08

英伟达调研600+从业者:AI医疗下一站从“影像领先”走向“虚拟助手+精准医疗”

【摘要】AI医疗正从影像诊断的单点突破,系统性地迈向以虚拟健康助手为入口、精准医疗为目标的生态整合新阶段。引言人工智能在医疗健康领域的渗透,早已不是新闻。从实验室的前沿探索到临床应用的逐步落地,这项技术正以前所未有的深度和广度重…

作者头像 李华
网站建设 2026/7/5 4:34:28

制砂机远程监控运维管理系统方案

制砂机作为矿山、建筑及道路工程中破碎与制砂作业的核心设备,其运行效率与稳定性直接关系到工程进度与产品质量。制砂机在工作过程中,涉及电机转速、进料量、出料粒度、振动强度及轴承温度等多个关键参数的实时监控与调节。 但传统运维方式依赖现场巡检与…

作者头像 李华