java怎么判断pdf文件是否是扫描的呢?或者判断获取到的内容是乱码?

java怎么判断pdf文件是否是扫描的呢?或者判断获取到的内容是乱码?

緦唸λ蓇 发布于 2021-11-29 字数 281 浏览 665 回复 3

我要从很多pdf文件中提取其内容,因为pdf可能是扫描的,所以获取到的内容就是乱码了,这时候需要单独处理,所以我需要判断这个pdf文件是否是扫描的。

网上看到有判断字符串是否是乱码的代码,感觉实现的不是很好。

大家有没有什么好的工具或者好的方法呢?推荐一下哈,谢谢!

如果你对这篇文章有疑问,欢迎到本站 社区 发帖提问或使用手Q扫描下方二维码加群参与讨论,获取更多帮助。

扫码加入群聊

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

怎言笑 2021-12-01 3 楼

怎么检测?

顾忌 2021-11-30 2 楼

回复
解析 metadata也可以。

偏爱自由 2021-11-30 1 楼

检测里面是个图片。