news 2026/1/9 5:57:06

数据采集-----案例

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
数据采集-----案例

1)启动zookeper集群并查看集群状态

三台:

cd /opt/module/zookeeper/

bin/zkServer.sh start

bin/zkServer.sh status

(2)启动Hadoop集群并查看相应的进程

master:start-dfs.sh

slave1:start-yarn.sh

(3)启动kafka集群,并且开启kafka消费者消费指定主题

三台:

cd /opt/module/kafka/

bin/kafka-server-start.sh -daemon config/server.properties

kafka

消费主题

bin/kafka-console-consumer.sh --bootstrap-server=master:9092 --topic=BigData2403

(4)启动efak对kafka集群的监控平台

master:

cd /opt/module/efak/

bin/ke.sh start

(5)启动maxell数据采集工具

master:

cd /opt/module/maxwell/

bin/maxwell --user='maxwell' --password='123456' --host='master' --producer=kafka --kafka.bootstrap.servers=master:9092 --kafka_topic=BigData2403

(6)运行产生业务数据的脚本,向mysql数据库中注入数据,并且观察kafka消费者中消费到的数据。

产生数据

master:

cd /opt/module/db_data/

java -jar gmall2020-mock-db-2021-11-14.jar

(7)启动flume数据采集通道,将数据从kafka集群上的指定主题中采集到HDFS上。

脚本:

#定义组件
a1.sources = r1
a1.channels = c1
a1.sinks = k1


#对source进行配置
a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource
a1.sources.r1.kafka.bootstrap.servers = master:9092,slave1:9092,slave2:9092
a1.sources.r1.kafka.topics = BigData2403

#添加拦截器的配置对数据进行处理

a1.sources.r1.interceptors=i1
a1.sources.r1.interceptors.i1.type=com.BigData.TableNameInterceptor$Builder


a1.channels.c1.type = file
a1.channels.c1.dataDirs=/opt/module/flume/file/data
a1.channels.c1.checkpointDir=/opt/module/flume/file

a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://master:8020/gmall/db/%{table}/%Y-%m-%d

a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

运行flume脚本

cd /opt/module/kafka/


bin/kafka-console-consumer.sh --bootstrap-server=master:9092 --topic=BigData2403

(8)运行Datax采集工具,将HDFS上指定的数据内容到Mysql数。

master:

cd /opt/module/datax/

python bin/datax.py job/mysql_datax_hdfs.json

(9)启动FineBI报表工具,将mysql数据库中的数据进行展示\

master:

cd /opt/FineBI6.0/

bin/finebi



http://master:37799/webroot/decision(若内存太小,无法启动)(解决方法:停掉所有的集群,只启动这个)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2025/12/22 17:18:38

实邦电子嵌入式开发服务如何,技术实力可靠吗?

实邦电子:深耕单片机开发领域,以专业团队与丰富经验赋能客户创新在快速发展的电子科技领域,拥有一家技术可靠、经验丰富的合作伙伴,对于企业实现产品创新与市场突破至关重要。上海实邦电子科技有限公司,作为一家专注于…

作者头像 李华
网站建设 2026/1/2 16:42:25

psd转ugui

背景:当前2d小团队还是存在很多靠人手拼ui的情况,之前我也做了相关的工具可以对着设计图去拼ui但是还是感觉有点繁琐,程序员花大量时间在ui的拼接上实在是不太明智。于是参考网上的psd2ugui插件我改了一些便携方法,原作者的工具操…

作者头像 李华
网站建设 2025/12/27 13:40:39

AI+SNS Marketing 跨境营销实操:如何在社媒渠道提高外贸引流转化

掌握AISNS Marketing 跨境营销实操,易营宝教你用智能建站与AI工具提升外贸引流转化率。   本文面向信息调研者、企业决策者、项目管理者与经销商等B2B读者,聚焦如何在社媒渠道导流、筛选高质量线索并实现外贸网站的持续转化优化。当前外贸获客面临成本…

作者头像 李华
网站建设 2025/12/22 17:18:32

web APIs 第四天

(详细资料和相关课程可搜b站黑马程序员) 一、日期对象 1.日期对象 日期对象:用来表示时间的对象作用:可以得到当前系统时间1.1实例化在代码中new关键字,一般这个操作称为实例化创建一个时间对象并获取时间new Date()…

作者头像 李华
网站建设 2025/12/22 17:18:30

Qt菜单项切换主界面

下面是代码截图mainwindow.h#ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow>QT_BEGIN_NAMESPACE namespace Ui { class MainWindow; } QT_END_NAMESPACEclass file1; class file2; class edit01; class edit02; class gjxm; class MainWindow : public…

作者头像 李华
网站建设 2025/12/22 17:18:28

程序员转行大模型指南:2025年最佳时机,抓住这些岗位和选择方法,吃下第一波红利!

一、大模型热门岗位 1. 模型研发工程师 模型研发工程师的核心任务是设计和开发新的深度学习模型架构。这包括但不限于研究最新的模型论文&#xff0c;理解并复现复杂的模型结构&#xff0c;以及在此基础上进行创新改进。此外&#xff0c;工程师还需要关注模型训练过程中的性能…

作者头像 李华