Flink 读文本文件TextLineInputFormat + FileSource（批/流一体）+ 目录持续监控-洪萨配资

1. 依赖准备：flink-connector-files

Java 工程要使用文本文件 Source，需要引入 Flink 的文件连接器依赖：

<dependency><groupId>org.apache.flink</groupId><artifactId>flink-connector-files</artifactId><version>2.2.0</version></dependency>

PyFlink 用户通常可以直接在作业里使用（但如果你集群环境缺少对应 jar，也需要通过 Python dependency management 方式携带）。

2. 为什么用 FileSource + TextLineInputFormat

TextLineInputFormat 解决两件事：

按行切分：每行一个 record
字符集解码：使用InputStreamReader支持多种 charset（UTF-8、GBK 等）

而 FileSource 解决两件事：

bounded：一次性读完目录/文件（批处理）
continuous：持续监控目录，新文件出现就继续读（流式文件输入）

也就是说，你可以用同一套 Source，覆盖两类场景：

离线回放历史日志
实时消费不断落盘的新日志文件

3. 批处理模式（Bounded）：读完就结束

目标：把一个文本文件（或目录里所有文本文件）的每一行读成String，生成DataStream<String>。

因为文本行一般不自带事件时间，所以不需要 watermark：

finalFileSource<String>source=FileSource.forRecordStreamFormat(newTextLineInputFormat(),/* Flink Path */).build();finalDataStream<String>stream=env.fromSource(source,WatermarkStrategy.noWatermarks(),"file-source");

适用场景：

跑一次把历史文件处理完（ETL、离线修数、回放）

4. 流处理模式（Continuous）：持续监控目录，新文件不断加入

目标：目录持续落文件（例如按小时切日志），Flink 任务一直跑，新文件出现就读，DataStream 会“无限增长”。

通过monitorContinuously(Duration)开启目录监控，比如每 1 秒扫描一次：

finalFileSource<String>source=FileSource.forRecordStreamFormat(newTextLineInputFormat(),/* Flink Path */).monitorContinuously(Duration.ofSeconds(1L)).build();finalDataStream<String>stream=env.fromSource(source,WatermarkStrategy.noWatermarks(),"file-source");

适用场景：

应用日志落盘目录（log rolling）
上游系统定时导出文件到目录
简易的“文件流”采集管道（没有 Kafka 也能跑）

5. 生产建议：文本文件“流式监控”最容易踩的坑

5.1 只监控“新文件”，不等于“追尾追加写”

大多数文件监控模式更适合“文件落地后不再变”（写完再 rename/commit）。如果你希望读一个不断追加的单文件（类似tail -f），要非常谨慎：有些文件系统/写入方式会导致重复读或读到半行。

推荐的落地方式：

上游写临时文件（.tmp），写完后rename 成正式文件名
Flink 只消费正式文件名规则（例如不匹配.tmp）

5.2 监控频率不是越小越好

monitorContinuously(1s)会频繁扫描目录：

目录文件数大时会产生明显压力
对对象存储（S3/OSS）类系统，list 成本更高

经验：

本地/小目录：1s～5s 可以
大目录/对象存储：10s～60s 起步，并控制目录分区层级（按日期/小时分层）

5.3 字符集与脏数据治理要提前考虑

TextLineInputFormat 基于InputStreamReader解码，编码不一致会出现乱码或异常。建议：

统一上游编码（最好 UTF-8）
对异常行做侧输出（side output）或打到 DLQ（如果你后续接 Kafka）

5.4 文本行没有事件时间时，watermark 怎么办

如果你的行里其实包含时间戳（比如日志行开头有2026-01-15 12:34:56），你可以在 map/flatMap 里解析事件时间，再配置 watermark 策略；否则默认 noWatermarks 没问题。

6. 一句话总结

TextLineInputFormat：把文件按“行”读成String，并处理字符集解码
FileSource：同一套代码支持批（bounded）与流（continuous 目录监控）
批：.build()直接读完结束
流：.monitorContinuously(Duration)目录新文件持续进入

【好写作AI】法学“准律师”的智能卷宗：让AI帮你搞定引用与检索的脏活累活

好写作AI官方网址：https://www.haoxiezuo.cn/一、写法学论文的你，是否感觉自己像个“人形法律数据库”？为了一个脚注，在《民法典》的1260条里 “大海捞针” ，最后发现引用的还是旧司法解释。裁判文书网一搜“高空抛物”…

李华

检索增强生成（RAG）如何赋能大语言模型循序渐进的探索？

检索增强生成（RAG）系统已迅速成为企业级应用的核心技术，它在企业搜索和智能聊天机器人等领域展现出巨大潜力。今天，我们将深入探讨RAG，从其基础概念出发，逐步剖析其工作原理和多样的架构，帮助您…

李华

开题报告总被毙？虎贲等考 AI：三步搞定导师认可的学术蓝图

开题报告改了 N 版仍被导师打回，选题太泛没新意，文献综述像流水账，技术路线混乱看不懂…… 相信这是不少毕业生写开题报告时的崩溃瞬间。作为毕业论文的 “第一道门槛”，开题报告的质量直接决定后续研究能否顺利推进。虎贲等考 AI…

李华

写论文软件哪个好？实测虎贲等考 AI：一站式搞定毕业论文全流程

毕业季的论文写作战场，选对工具等于成功了一半。“写论文软件哪个好” 的灵魂拷问，每年都会刷屏各大高校的互助群。市面上的论文工具要么功能单一，要么文献引用漏洞百出，要么查重结果与学校标准脱节。经过多轮实测对比&#xff0c…

李华

告别熬夜做 PPT！虎贲等考 AI PPT：一键生成学术汇报 “天花板” 级演示文稿

还在为学术汇报 PPT 熬秃脑袋？选题汇报要做 PPT，中期答辩要做 PPT，毕业答辩还要做 PPT，好不容易写完论文，却要对着空白幻灯片界面发呆半天 —— 排版混乱、配色辣眼、数据图表丑到没眼看，这些痛点堪称学术人…

李华

【Java毕设全套源码+文档】基于springboot的家校互联管理系统设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华