摘要
当 Paragraphs 不可用或 Count 为 0 时,函数退化为单块 Content 读取并附带 riskProfile。正常情况走 chunkParagraphRanges,并合并 getChunkSettings。
关键词
COM;分块;riskProfile
扩展阅读与维护提示
本篇围绕「getDocumentChunksWithPositions:段落与空文档退化」组织材料。仓库内与主题最直接相关的检索词包括:COM、分块、riskProfile。建议在阅读正文所列片段后,用 IDE 全局搜索这些符号,沿 import 与调用栈向上追问「谁在什么时机调用」,而不是只记住单文件路径。
摘要所概括的要点为:当 Paragraphs 不可用或 Count 为 0 时,函数退化为单块 Content 读取并附带 riskProfile。正常情况走 chunkParagraphRanges,并合并 getChunkSettings。落地到排障时,可把现象粗分为三类交叉验证:配置是否按预期写入持久化介质;WPS COM 上下文是否可用(例如是否缺少 ActiveDocument);以及网络与证书策略是否拦截了 fetch。本篇涉及的模块通常只覆盖其中一两类,需要与相邻篇目拼成完整拼图。
教程文件名「25-wendang-fenkuai-qi-collection.md」仅用于导航与排序,不等价于源码模块名。若正文中的行号与本地分支不一致,多半因合并导致行偏移,此时应以函数名、导出名为锚重新检索;团队若维护了生成脚本,可在变更大段源码后重新运行以保持摘录大致对齐。
本文刻意避免对产品能力做营销式承诺:所述行为均以当前仓库可见实现为准。若组织策略要求离线或内网模型,应在网关、证书与代理层收口,而不是假设加载项能绕过浏览器安全模型。
若你同时阅读 docs/chayuan-llm-chain-series,可先对照其中的总体链路图理解「请求从 UI 到 chatApi」的次序,再回到本教程看数据结构、默认值与修改风险面;两者互补,不重复堆砌功能列表。
正文
1. 导出签名与设置合并
overrides 可单次调用覆盖 chunkLength 等,便于试验。
阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。
// src/utils/documentChunker.js 第436-445行 /** * 从 Word/WPS 文档提取带位置信息的分块 * @param {object} doc - Application.ActiveDocument * @param {{ chunkLength?: number, overlapLength?: number, splitStrategy?: string }} overrides - 可选覆盖 * @returns {Array<{ text: string, normalizedText: string, start: number, end: number, index: number }>} */ export function getDocumentChunksWithPositions(doc, overrides = {}) { if (!doc) return [] const { chunkLength, overlapLength, splitStrategy } = { ...getChunkSettings(), ...overrides }2. 退化路径
单块返回时仍计算 start/end 与 assessChunkRiskProfile。
阅读源码摘录时,请把它当作「定位入口」而非完整实现:同一函数可能在其他分支还有早退条件或 try/catch。修改默认行为前,建议用最小文档手工走一遍相关助手或对话框,并观察任务清单与日志中的字段是否与预期一致,再决定是否做数据迁移或配置重置。
// src/utils/documentChunker.js 第446-457行 try { const paragraphs = doc.Paragraphs if (!paragraphs || paragraphs.Count === 0) { const content = doc.Content if (!content) return [] const rawText = String(content.Text || '') const text = normalizeRangeText(rawText) if (!text.trim()) return [] const start = content.Start != null ? Number(content.Start) : 0 const end = content.End != null ? Number(content.End) : start + rawText.length return [{ text: rawText, normalizedText: text, start, end, index: 0, riskProfile: assessChunkRiskProfile(text) }] }