博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
PDF文件如何转成markdown格式
阅读量:6590 次
发布时间:2019-06-24

本文共 777 字,大约阅读时间需要 2 分钟。

hot3.png

百度上根据pdf转makrdown为关键字进行搜索,结果大多数是反过来的转换,即markdown文本转PDF格式。

但是PDF转markdown的解决方案很少。

正好我工作上有这个需求,所以自己实现了一个解决方案。

下图是一个用PDF XChange Editor打开的PDF文件,我想将其内容通过markdown格式导出。

(1) 首先将该PDF导出成word格式,后缀.docx

(2) 使用typora获得该word文档的markdown源代码:

此时任务只完成了一半,因为typora这个工具转换成的markdown格式,如果原始的word文档里包含图片,这些图片以本地图片的形式存在于markdown里,那我如果直接将包含了这些本地图片的标签的markdown发布到简书,CSDN,开源中国,腾讯云,阿里云这些支持markdown的社区时,这些本地图片将无法显示。

因此我们必须找到一个高效的方法,将word里包含的本地图片先上传到网络上,再用生成的包含了图片网络url的markdown标签替换本地图片标签。 (3) 把word文件的后缀从.docx改成.zip, 解压后,在文件夹word的子文件夹media里能找到所有的本地文件。

把这些本地文件全部上传到网站,生成下面这些url:

我写了一个工具,可以把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码做一个合并,后并后,本地图片标签会被在线图片标签取代:

这个工具可以从我github上获得:

下图就是我的原始PDF转换成markdown格式后发布在某社区上的效果,和原始PDF外观完全一致:

要获取更多Jerry的原创文章,请关注公众号"汪子熙":

转载于:https://my.oschina.net/u/3771578/blog/3014207

你可能感兴趣的文章
Python的条件判断与循环样例
查看>>
C++用new来创建对象和非new来创建对象的区别
查看>>
mybaties中通用mapper的基本使用
查看>>
RDMA参考
查看>>
几维安全:千锤百炼,锻造移动游戏安全防护黄金铠甲
查看>>
把巧克力球送上天,玛氏用Uni Marketing 打造网红零食
查看>>
JVM 规范小结
查看>>
gatling系列教程(翻译)-第三节(快速开始)
查看>>
新一代视频AI服务 —— 阿里云智能视觉重磅发布
查看>>
阿里小二的日常工作要被TA们“接管”了!
查看>>
数据结构与算法14-栈和队列练习题
查看>>
JEESZ-SSO解决方案
查看>>
RS-232、RS422和RS-485的区别和各自的实现方式
查看>>
Java程序员面试失败的5大原因
查看>>
深入理解Java的分级引用模型
查看>>
PyCharm入门教程——在编辑器中选择文本
查看>>
2.2 流程控制-for序列 2.3 流程控制-for字典 2.4 循环退出 2.5 流程控制-while
查看>>
多币种钱包开发:什么是工作量证明(POW)?
查看>>
kotlin使用mapstruct(二)
查看>>
树形结构的数据库表Schema设计
查看>>