-
-
Notifications
You must be signed in to change notification settings - Fork 2k
翻译扫描档存在重影 / feat (main): supports ocr on scanned document #19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Comments
图片型的 PDF 文档暂时还没办法翻译,目前主要还是在优化电子书和论文的翻译效果 |
好的,非常感谢 |
均为图像有点为难人了,ocr的质量 影响文字的质量 影响翻译的效果 |
加一个可选流程paddleOCR, |
sayura |
和 minerU/marker 比较怎么样呀 |
sayura 就是 marker 的作者做的开源多国语言和表格的 OCR 模型😂 |
只有一段OCR的内容, 实在是看不懂怎么把OCR出来的结果往后传了。 |
建议使用有道来进行OCR翻译 |
尝试集成tesseract来实现OCR |
实际上pdf非常大一部分都是扫描版的,如果不能处理,使用范围会锐减 |
这个识别其实不是问题,主要是这个识别之后的排版信息没有了。需要对应排版信息。 |
sayura的ocr识别会输出包含bbox坐标和识别结果的json文件 |
排版信息指的不单纯是位置,比如字体,斜体,加粗。现在doclayout已经可以确认box,OCR直接跟后边也可以获取内容,但是行间距,字间距这些信息没有了。 |
I will explore related things recently, thanks for everyone's suggestions! |
目前只有这个issue是关于处理扫描版PDF的,不知道当前功能开发的优先级如何,先关注了 |
下个月会看一看 |
先关注了MinerU,扫描件的准确读取率挺高的(不是手机拍照);想结合这两个项目看起来还是有点难度 |
扫描件可以直接理解为图片,实际上是保持排版的图片翻译功能,可以参考微信的实现,长按图片点翻译可以自动翻译 |
mathTranslate对于扫描版的pdf文件的翻译效果咋样呢? |
压根不支持😂 |
BabelDOC 0.3.17 可以在文字区域底下加个白色背景,来部分支持OCR版PDF文档 |
mark |
What about https://ocrmypdf.readthedocs.io/en/latest/. Couldn't it improve detection? And make it work for ocr pdfs? |
#860 thanks |
遇到此问题时,请尝试使用 2.0 预览版 #586 并启用高级选项中的 OCR Workaround 来翻译。 |
当pdf文件均为图像,而不是可编辑(复制)状态时,翻译完全失败,具体见图
The text was updated successfully, but these errors were encountered: