news 2026/5/8 6:08:01

xhEditor pdf导入支持文本搜索

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
xhEditor pdf导入支持文本搜索

(扶了扶眼镜,敲着机械键盘开始码字)各位老板,作为山西前端界的一股泥石流,今天给大家表演个"如何在680元预算内实现文档自由"的绝活!

先甩个前端Vue3插件包(附赠React版兼容补丁):

// XhEditorPlugin.jsexportdefault{install(app){constinitXhEditor=(editor)=>{// 添加文档导入按钮editor.addButton('docImport',{title:'文档导入',icon:'📎',onclick:()=>{constinput=document.createElement('input')input.type='file'input.accept='.docx,.xlsx,.pptx,.pdf'input.onchange=async(e)=>{constfile=e.target.files[0]constformData=newFormData()formData.append('doc',file)// 调用后端解析接口constres=awaitaxios.post('/api/doc-parse',formData)// 插入处理后的HTMLeditor.insertHTML(res.data.content)// 自动上传图片到服务器res.data.images.forEach(img=>{constform=newFormData()form.append('image',img.blob)axios.post('/api/upload',form).then(r=>{editor.insertHTML(``)})})}input.click()}})// 监听Word粘贴事件editor.on('paste',(e)=>{constitems=(e.clipboardData||e.originalEvent.clipboardData).itemsfor(letitemofitems){if(item.type.startsWith('image/')){constblob=item.getAsFile()constform=newFormData()form.append('image',blob)axios.post('/api/upload',form).then(r=>{editor.insertHTML(``)})}}})}app.config.globalProperties.$xhEditor={init:initXhEditor}}}

后端C#版(ASP.NET Core版):

[ApiController][Route("api/doc-parse")]publicclassDocParseController:ControllerBase{[HttpPost]publicasyncTaskParseDocument(IFormFiledoc){// 文档解析核心代码(开源库组合拳)varresult=newDocumentParser().Parse(doc.OpenReadStream(),doc.FileName);// 处理公式转换result.Content=Regex.Replace(result.Content,@"(\$\$.+?\$\$)",m=>{varlatex=m.Value.Replace("$$","");return$"{LatexToMathML(latex)}";});// 返回处理后的内容returnOk(new{content=result.Content,images=result.Images.Select(img=>new{name=img.FileName,url=$"/uploads/{Guid.NewGuid()}{Path.GetExtension(img.FileName)}"})});}privatestringLatexToMathML(stringlatex){// 调用开源转换库(推荐使用MathJax.NET)usingvarconverter=newMathJaxConverter();returnconverter.Convert(latex);}}

(突然神秘兮兮)关于那个emz/wmz格式的公式图片,这里有个祖传偏方:

  1. 用Apache POI提取PPT中的公式
  2. 通过ImageMagick转成PNG
  3. 用OpenCV做锐化处理
  4. 最后用Tesseract OCR识别公式内容

(突然拍桌)但最骚的是微信公众号内容导入!直接祭出这个神器:

// 微信公众号内容抓取functionparseWechatContent(html){constparser=newDOMParser()constdoc=parser.parseFromString(html,'text/html')// 提取正文constcontent=doc.querySelector('#js_content').innerHTML// 处理微信特色样式returncontent.replace(/`]*)>/g,'').replace(/<\/section>/g,'')}

(突然正经)关于预算控制,给大家算笔明白账:

  1. 开源库组合(Mammoth.js + SheetJS + PDF.js)→ 0元
  2. 阿里云OSS学生认证(6个月免费)→ 0元
  3. 人工成本(用爱发电)→ 0元
  4. 群内红包基金(薅羊毛指南)→ 见群公告

(突然掏出手机)加群暗号"山西刀削面",进群即送:

  1. 价值99元的《Word公式转换避坑指南》
  2. 独家整理的《政府网站样式兼容性测试报告》
  3. 群主私藏的《甲方需求翻译词典》

最后透露个暴富秘诀:咱们这个插件包已经支持以下变现姿势

  1. 卖给教育局(每个学校需求量极大)
  2. 卖给科研机构(公式转换刚需)
  3. 卖给政府网站(无障碍阅读要求)
  4. 卖给培训机构(题库导入神器)

(突然压低声音)现在进群的前100名,送价值连城的《如何让甲方主动加预算》话术模板!错过再等一年!

代码仓库:https://github.com/shanxi-fe/doc-import-plugin
(突然发现预算超了5元)咳咳…这个…大家众筹一下服务器费用?

将插件目录复制到项目中

引入插件文件

定义插件图标

初始化插件

在工具栏中添加插件按钮

效果

编辑器

导入Word文档,支持doc,docx

导入Excel文档,支持xls,xlsx

粘贴Word

一键粘贴Word内容,自动上传Word中的图片,保留文字样式。

Word转图片

一键导入Word文件,并将Word文件转换成图片上传到服务器中。

导入PDF

一键导入PDF文件,并将PDF转换成图片上传到服务器中。

导入PPT

一键导入PPT文件,并将PPT转换成图片上传到服务器中。

上传网络图片

一键自动上传网络图片,自动下载远程服务器图片,自动上传远程服务器图片

下载示例

点击下载完整示例

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/5 6:48:02

HunyuanOCR定制化训练服务:针对特定行业文档微调模型选项

HunyuanOCR定制化训练服务&#xff1a;针对特定行业文档微调模型选项 在金融、医疗、政务等高度依赖纸质或电子文档流转的行业中&#xff0c;如何高效、准确地从复杂版式文件中提取结构化信息&#xff0c;一直是自动化流程中的“卡脖子”环节。传统OCR方案虽然能识别文字&#…

作者头像 李华
网站建设 2026/5/3 12:52:38

OAuth2.0认证集成:保护HunyuanOCR API免受未授权访问

OAuth2.0认证集成&#xff1a;保护HunyuanOCR API免受未授权访问 在AI模型服务快速走向产品化的今天&#xff0c;一个高精度的OCR接口可能意味着巨大的商业价值——但同样也可能成为攻击者眼中的“金矿”。腾讯混元OCR&#xff08;HunyuanOCR&#xff09;作为一款轻量级、高精…

作者头像 李华
网站建设 2026/5/6 9:38:39

低代码平台集成HunyuanOCR:宜搭、简道云组件封装教程

低代码平台集成HunyuanOCR&#xff1a;宜搭、简道云组件封装实战 在企业数字化浪潮中&#xff0c;每天都有成千上万张发票、合同、身份证件被上传到各类业务系统。如果仍靠人工逐字录入&#xff0c;不仅效率低下&#xff0c;还容易出错。更令人头疼的是&#xff0c;这些文档往往…

作者头像 李华
网站建设 2026/5/3 7:53:41

导师严选2025 AI论文工具TOP9:专科生毕业论文全场景测评

导师严选2025 AI论文工具TOP9&#xff1a;专科生毕业论文全场景测评 2025年专科生论文写作工具测评&#xff1a;为何需要一份精准指南&#xff1f; 随着人工智能技术的不断进步&#xff0c;AI论文工具逐渐成为高校学生&#xff0c;尤其是专科生群体的重要辅助工具。然而&#x…

作者头像 李华
网站建设 2026/5/7 7:41:48

化学分子式识别局限性:HunyuanOCR在科研图像中的误识别案例

化学分子式识别的隐忧&#xff1a;HunyuanOCR在科研图像中的误识别现象 在实验室里&#xff0c;一位研究生正将手写的反应方程式拍照上传至文献管理系统。系统迅速返回结果&#xff1a;“C6H12O6 6O2 -> 6CO2 6H2O”——看似流畅&#xff0c;但当他把这段文本导入化学结构…

作者头像 李华
网站建设 2026/5/7 8:03:34

互补滤波算法在姿态测量中的应用

一、加速度计测量角度原理以xOz平面为例&#xff0c;当姿态传感器发生倾斜&#xff0c;传感器重力作用在X轴与Z轴的分量分别为ax与az&#xff0c;俯仰角加速度计测量三轴角度存在的问题&#xff0c;当物体存在运动加速度时&#xff0c;使得姿态角测量不准确&#xff0c;角度会存…

作者头像 李华