转曲 PDF / Word 多语种校对预处理
把无文字层的转曲/扫描 PDF 或 Word 文档,转成可搜索 PDF + 结构化文本 + 自动校对报告。机械「线索层」,加速人工复核 —— 不替代视觉终审。
01
上传文件
拖入或点击选择 PDF / .docx,按需勾选语言。
02
自动处理
OCR → 结构化 → 校对检查,分阶段进度可见。
03
下载报告
Word 校对报告 + 可搜索 PDF + 结构化文本。
② 处理中
OCR 加文字层提取文本
结构化校对检查完成
③ 结果
0高优先 · 参数/事实
0疑似串版 · 待确认
0低优先 · 单位/风格
高优先(功率算术、NVRAM 等事实)优先处理;疑似串版逐条人工确认;单位/风格以矢量原稿为准。OCR 可能错字,数值与最终文字以原稿视觉确认为准。
常见问题 · 自助
支持哪些文件?
转曲/扫描 PDF(无文字层也可,会自动 OCR)和 Word .docx。Word 不走 OCR,直接读文本跑检查。
处理要多久?
Word 几乎秒出;PDF 取决于页数和语言数——几十页多语种约几分钟。页面有分阶段进度,处理时别关。
报告里几档问题怎么看?
高优先=参数算术不自洽(如 9V×3A≠30W)、NVRAM 等事实待核实,先处理;疑似串版=跨语言混入候选,高召回、需人工逐条确认;低优先=单位空格、风格禁用词。下载 校对报告(Word) 即完整清单。
串版为什么有“误报”?
检测刻意做成高召回(宁多勿漏),ES/西 与 IT/意 词形接近时会误判,已标“低置信”。扫一眼排除即可——它是线索,不是定论。
数据安全吗?
文件只在本服务器处理,不发往任何第三方、不调用任何外部 AI/API。产物存服务器临时目录,可定期清理。
遇到报错怎么办?
刷新重试一次;仍不行多为文件损坏或超大。把页面红色“出错”信息截图给管理员(运维手册 OPS.md 有对照排查)。