助睿实验选做:数据抽取——使用助睿ETL抽取多种文件数据
一、实验背景
1.1 实验目的
本次实验旨在通过助睿数智(Uniplore)平台的 ETL 数据集成模块,掌握多种文件格式数据的抽取与基本加工方法,具体包括:
掌握使用CSV 文件输入组件读取 CSV 格式数据,并结合字段选择、计算器、数值范围等组件完成数据转换与输出
掌握使用CSV 文件输入组件读取文本文件(TXT)数据,学习分隔符配置、字段剔除与数据链路验证的方法
掌握使用Excel 输入组件读取 Excel 文件数据,学习工作表选择、字段自动解析与目标字段筛选
理解 ETL 流程中数据抽取(Extract)与转换(Transform)的核心逻辑,体会零代码数据集成工具在实际业务中的应用价值
1.2 实验环境
平台名称:助睿在线实验平台
访问地址:https://lab.guilian.cn/
使用产品:助睿数智(Uniplore)——AI驱动的一站式零代码数据智能服务平台系统
子平台:助睿ETL数据集成平台
产品官网:Uniplore iDIS-大数据智能全流程服务平台-BI数据可视化工具
该平台支持从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码操作,适用于高校教学与企业数据加工。
1.3 处理流程
本次实验围绕三种主流文件格式分别构建转换流:
CSV 文件抽取:CSV 文件输入 → 字段选择 → 计算器(日期差计算)→ 数值范围(绩效评定)→ 文本文件输出
文本文件抽取:CSV 文件输入(读取 TXT)→ 字段选择(移除 Venue 字段)→ 空操作(数据验证)
Excel 文件抽取:Excel 输入 → 字段选择(保留 education、employment)→ 空操作(数据验证)
二、实验步骤
2.1 数据准备
以下数据文件均从助睿 ETL 平台的「公共空间」中获取:
本案例中「从 CSV 文件中读取数据」小节,将使用
project.csv数据文件;本案例中「从文本文件中读取数据」小节,将使用足球比赛数据文件:
usa_201209.txt;本案例中「从 Excel 中读取数据」小节,将使用购房者信息数据文件:
custinfo.xlsx。
获取数据文件操作如下:
登录助睿 ETL 平台,选择「数据集成」模块,找到「我的项目」,点击项目右侧的「…」按钮,选择「打开项目」,进入目标项目页面;
点击页面右侧的「公共空间」,切换至「数据资源」标签页,找到资源名称为
porject.csv的文件,点击该文件右侧的「更多」按钮,选择「导出」选项;
在弹出的「导出数据资源到项目空间」窗口中,确认待导出文件为
project.csv,选择导出路径(如/根目录),点击「确定」按钮完成导出到「文件库」中。
切换至左侧导航栏的「文件库」标签页,点击右键菜单中的「刷新」按钮,查看已导出至项目空间的文件资源。
2.2 从 CSV 文件中读取数据
本案例将通过助睿 ETL 编写工作流,实现对 CSV 文件数据的提取与加工。首先从 CSV 文件中提取项目信息数据,然后以项目的【start_date】(开工日期)和【end_date】(结束日期),计算项目执行天数,并基于该天数设定项目的【performance】(绩效)等级,最终完成项目绩效的自动化评估与数据标准化。
实现逻辑如下:通过「CSV 文件输入」组件从 CSV 文件中读取原始项目数据,使用「字段选择」组件筛选并保留后续计算所需的关键字段;在「计算器」组件中新建【diff_date】字段,用于计算开工日期与结束日期之间的间隔天数;完成天数计算后,通过「数值范围」组件,根据间隔天数的区间规则自动生成并设置新的输出字段【performance】的值,完成项目绩效的判定。
具体操作如下:
步骤 1:新建转换流,进入项目切换到「组件库」标签页,拖拽「CSV 文件输入」组件至画布,配置如下图所示:
步骤 2:双击「CSV 文件输入」组件,在弹出的窗口中单击 "浏览文件",通过文件浏览器组件选择目标文件,配置如下图所示:
步骤 3:在文件浏览器组件中选中需要读取的 CSV 文件「porject.csv」,点击确定,文件浏览器组件会自动解析文件路径,并回填至「CSV 文件输入」组件中,配置如下图所示:
步骤 4:在完成文件路径的填写后,可通过「CSV 文件输入」组件的获取字段功能,自动解析CSV文件结构,提取文件中的字段。具体操作:在「CSV 文件输入」组件下方的数据区域点击右键,选择 "获取字段",配置如下图所示:
步骤 5:在完成数据字段配置后,可通过组件的「预览」功能查看数据读取结果,验证数据是否正常加载、字段是否解析正确,结果如下图所示:
步骤 6:在上述过程中,我们完成了CSV文件的数据解析与读取。接下来将读取的数据进行初步加工。将「字段选择」组件拖至画布,建立从「CSV 文件输入」组件到「字段选择」组件的连接,配置如下图所示:
步骤 7:双击「字段选择」组件打开组件配置窗口,在默认的Tab页签(选择和修改)中右键点击并选择「获取字段」,获取前一个组件「CSV 文件输入」传递过来的字段信息,配置如下图所示:
步骤 8:在「字段选择」组件的配置窗口中,选择和修改页签提供了字段管理功能,可对字段信息如名称、长度、精度等进行调整。在本节案例中,不涉及到字段信息的调整,所以这里保持默认即可,配置如下图所示:
步骤 9:完成「字段选择」组件的配置后,拖拽「计算器」组件至画布,建立从「字段选择」组件到「计算器」组件的连接,此时弹出的提示框中有两个可选值:主输出步骤和错误步骤。主输出步骤是指正常数据的处理链路,错误步骤是错误数据的处理链路。因为字段选择组件涉及到字段信息的修改,字段类型、长度,数据在进行类型、长度等转换过程中会出错,这些出错的数据就会流入错误数据处理链路,而正常的数据就会流入主输出数据链路。在本节案例中,我们只处理正常数据,因此选择「主输出步骤」。配置如下图所示:
步骤 10:双击「计算器」组件进入配置界面,点击「插入」新增一行配置,此时相当于增加一个数据计算逻辑。在「计算器」组件中,一个数据计算逻辑由新字段、计算公式、字段A/B/C等结构组成。新字段是指计算逻辑输出的字段,计算公式指数据的计算方法,字段A/B/C是指计算逻辑的输入数据。界面如下图所示:
步骤 11:在「新字段」列手动输入字段名diff_date,在「计算」下拉列表中选择Date A - Date B (in days),「字段 A」下拉列表选择end_date,「字段 B」下拉列表选择start_date,「值类型」下拉列表选择Integer,完成配置后点击「确认」。此时的数据计算逻辑是计算项目开始时间start_date和项目结束时间end_date之间的天数差,并将计算结果存储在字段diff_date。配置界面如下图所示:
步骤 12:在完成计算器组件的配置后拖拽"数值范围"组件至画布,建立从"计算器"到"数值范围"之间的连接,配置如下图所示:
步骤 13:双击「数值范围」组件打开组件配置窗口:在「输入字段」下拉列表中选择diff_date,在「输出字段」处手动输入字段名performance,并按业务规则配置「范围(最小≤x < 最大)」区间,即根据项目天数差diff_date对项目进行评价,并将评价值存储在字段performance中,评价规则如下:
下界为 0、上界为 30,评价值为
excellent;下界为 30、上界为 180,评价值为
very good;下界为 180、上界为 360,评价值为
good;下界为 360,评价值为
poor;
完成配置后点击「确认」。「数值范围」组件配置界面如下图所示:
步骤 14:拖拽「文本文件输出」组件至画布,建立从「数值范围」组件到「文本文件输出」组件的连接,配置界面如下图所示:
步骤 15:双击「文本文件输出」组件打开组件配置窗口,完成文件输出路径、字段映射等相关配置:
手动输入「文件名称」为
porject_output;手动输入「扩展名」为
csv;
即通过「文本文件输出」组件将数据写入到porject_output.csv文件中。
切换至「内容」标签页,将「分隔符」手动修改为英文逗号,,即输出的文件中以,分割字段,配置如下图所示:
切换至「字段」标签页,在字段列表区域右键单击,选择「获取字段」,自动加载上游组件传递的所有字段信息,即将上游组件传递的字段都写入到文件中:
完成后点击「确认」保存设置,结果如下图所示:
步骤 16:完成所有步骤后,整个转换工作流视图如下图所示:
步骤 17:点击画布左上角的「运行」按钮,在弹出的提示框中点击「启动」,即可运行整个转换流程。
运行结果如下图所示:
步骤 18:运行转换后,文件库中生成一个porject_output.csv表,数据如下图所示:
2.3 从文本文件中读取数据
本小节将利用足球比赛数据,演示如何使用助睿 ETL 平台完成文本数据的标准化读取、字段筛选与结果验证。数据包含比赛日期、比赛地点、主客队、比分等关键字段,我们通过三步核心操作实现数据处理:
数据接入:通过「CSV 文件输入」组件读取文本文件数据,验证文件路径、字段解析与数据格式的正确性,确保源数据能被 ETL 平台正常识别;
字段筛选:使用「字段选择」组件,按需筛选出后续分析所需的关键字段(如比赛日期、主客队、比分),剔除无关字段,精简数据结构;
结果验证:搭配「空操作(什么也不做)」组件接收数据,该组件仅接收数据不做任何业务处理,核心作用是测试数据是否能从上游组件完整传递到输出环节,验证整个流程的连通性,确保后续流程的稳定性。
具体操作如下:
步骤 1:新建转换,拖拽「CSV 文件输入」组件至画布,配置界面如下图所示:
步骤 2:双击组件打开配置窗口,在「文件名」栏「浏览文件」选择待读取的足球比赛数据文件:usa_201209.txt。然后将「列分隔符」设置为英文分号;(需与文件实际分隔符格式保持一致)。最后勾选「包含列头行」选项,即使用文件中第一行的数据作为字段名称。配置界面如下图所示:
步骤 3:配置完成后,在下方数据预览区域的空白处右键单击,在弹出的菜单中选择「获取字段」,即可自动解析并加载文本文件中的字段信息。完成配置后点击「确认」按钮保存,配置界面如下图所示:
步骤 4:选中「CSV 文件输入」组件,右键单击并选择「预览输出」,查看数据读取结果,验证数据是否正常加载、字段解析是否正确,预览效果如下图所示:
步骤 5:将「字段选择」和「空操作(什么也不做)」组件依次拖拽至画布,建立从「CSV 文件输入」→「字段选择」→「空操作(什么也不做)」的连接,在弹出的步骤选择提示框中均选择「主输出步骤」,完整转换如下图所示:
步骤 6:双击「字段选择」组件进入配置界面,切换至「移除」标签页,在空白区域先「获取字段」再「删除选中行」,仅保留需要移除的Venue字段,点击「确认」完成字段剔除配置。此时「字段选择」组件将移除字段流中的Venue字段,不再将其传递给下一个组件,配置界面如下图所示:
步骤 7:点击画布左上角的「运行」按钮,在弹出的提示框中点击「启动」,运行整个转换流程,执行结果如下图所示:
步骤 8:选中「空操作(什么也不做)」组件,右键单击并选择「预览」,查看经过字段筛选后的数据输出结果,验证字段剔除是否生效、数据传递是否完整,结果如下图所示:
2.4 从 Excel 文件中读取数据
在基于购房决策影响因素(如购房者年龄、性别、学历、月薪、家庭人数等)开展数据建模分析前,需要先对原始数据进行过滤与筛选。本案例使用助睿 ETL 平台读取获取到的购房者信息数据(Excel 文件),通过字段选择操作,筛选出业务分析所需的目标字段,完成数据的基础预处理。
具体操作如下:
步骤 1:新建转换工作流,在「组件库」中拖拽「Excel 输入」组件至画布,配置界面如下图所示:
步骤 2:双击组件打开配置窗口,点击「浏览」按钮使用文件浏览器组件选择待读取的 Excel 文件。
步骤 3:再点击「增加」按钮将文件添加至「选中的文件」中,完成基础文件配置,即通过 Excel XLSX(Streaming)引擎解析和读取 custinfo.xlsx 文件。配置界面如下图所示:
步骤 4:切换至「内容」标签页,完成相关配置:勾选「头部」「非空记录」,在「编码」下拉列表中选择「UTF-8」,即 custinfo.xlsx 文件中第一行为字段名称,只读取文件中非空记录,且文件编码为 UTF-8。配置界面如下图所示:
步骤 5:切换至「工作表」标签页,点击页面下方的「获取工作表名称」按钮,此时组件将读取文件并获取文件的工作簿信息。配置界面如下图所示:
步骤 6:在弹出的工作表选择窗口中,勾选该工作表前的复选框。点击两栏中间的右向箭头按钮,将选中的Sheet1工作表添加至右栏列表中,完成后点击「确定」按钮。此时组件只会读取工作簿Sheet1的数据。配置界面如下图所示:
步骤 7:切换至「字段」标签页,在空白区域右键单击选择「获取来自头部的字段」选项,此时组件会读取文件的工作簿Sheet1的第一行数据,并解析成字段信息。配置如下图所示:
步骤 8:将字段名称、数据类型等属性自动加载到字段列表中,点击「确认」按钮。配置界面如下图所示:
步骤 9:从「组件库」中拖拽「字段选择」组件、「空操作(什么也不做)」组件至画布,按「Excel 输入」→「字段选择」→「空操作(什么也不做)」的顺序依次建立组件连接,在弹出的连接线类型选择提示框中,均选择「主输出步骤」,完整转换流程如下图所示:
步骤 10:双击「字段选择」组件进入配置界面,在「选择和修改」标签页右键单击,选择「获取字段」,自动加载上游「Excel 输入」组件的所有字段信息;仅保留目标字段「education」「employment」,点击「确认」按钮完成字段配置,配置界面如下图所示:
步骤 11:点击画布左上角的「运行」按钮,点击「启动」,流程执行结果如下图所示:
步骤 12:选中「空操作(什么也不做)」组件,右键单击并选择「预览输出」,查看经过 Excel 数据读取、字段筛选后的最终数据输出结果,验证目标字段筛选是否生效、数据传递是否完整,结果如下图所示:
三、实验结果
3.1 CSV 文件抽取结果
通过「CSV 文件输入」→「字段选择」→「计算器」→「数值范围」→「文本文件输出」的转换链路,成功从porject.csv中提取了项目数据,计算了每个项目的执行天数(diff_date),并根据天数区间自动评定了绩效等级(performance),最终输出了porject_output.csv文件。
3.2 文本文件抽取结果
通过「CSV 文件输入」读取usa_201209.txt足球比赛数据,经「字段选择」成功移除了Venue字段,在「空操作」组件中验证了数据的完整传递,确认字段剔除生效。
3.3 Excel 文件抽取结果
通过「Excel 输入」读取custinfo.xlsx购房者信息,经「字段选择」成功筛选出education(学历)和employment(就业情况)两个目标字段,在「空操作」组件中验证了数据筛选的准确性。
四、问题与解决
4.1 CSV 文件名拼写注意
在实验手册中,数据准备部分列出的是project.csv,但在实际操作中公共空间中的文件名实际为porject.csv。需以实际文件名为准进行选择,不影响后续处理流程。
4.2 分隔符一致性
在读取文本文件时,必须确保「列分隔符」的设置与文件实际使用的分隔符完全一致。足球比赛数据usa_201209.txt使用的是英文分号;,若错误配置为其他分隔符会导致字段解析错位或失败。
4.3 主输出步骤与错误步骤的选择
在组件间建立连接时,系统会弹出步骤类型选择提示框。对于正常数据链路应选择「主输出步骤」,而错误数据链路(如类型转换失败的数据)则会流入「错误步骤」。在本次实验中只处理正常数据,因此均选择主输出步骤。
五、实验总结
5.1 实验收获
通过本次实验,我掌握了以下核心技能:
多格式文件数据抽取:学会了使用助睿 ETL 平台读取 CSV、TXT 和 Excel 三种主流文件格式的方法,理解了不同文件格式在解析配置上的差异
ETL 组件协作:熟悉了 CSV 文件输入、Excel 输入、字段选择、计算器、数值范围、文本文件输出、空操作等核心组件的配置与使用
数据加工逻辑:掌握了通过计算器组件进行字段衍生(日期差计算),通过数值范围组件进行条件映射(绩效评定)的数据加工方法
数据链路验证:学会了使用空操作组件结合预览功能验证数据传递的完整性
5.2 对平台评价
助睿ETL平台通过拖拽式组件编排的方式,将传统需要编写代码的 ETL 过程转化为可视化操作,大幅降低了数据集成开发的门槛。对于教学场景和轻量级的数据处理需求,这种零代码的方式能够让使用者更聚焦于业务逻辑本身,快速实现数据从接入到输出的全流程贯通。
话题标签
#助睿数智#商业数据分析#ETL#数据抽取#数据集成