PDF文档数据难处理?有这几款神器就够了

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。

有没有一些省时省力的工具呢?

有的。下面就由小编给大家推荐一组简单好用的工具。

01

Tabula

 

PDF文档数据难处理?有这几款神器就够了

Tabula 是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。

当然对于科研党来说也很实用,比如当老师丢给你一个满是数据表格的PDF,让你整理成Excel的时候,它就排上用场了。

Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。

它除了免费,还有一个优点,就是多平台!

PDF文档数据难处理?有这几款神器就够了

除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。

 

缺点:Tabula不能做到光学字符识别,它不如下面会列举到的商业程序精确,比如它获取的行列边距不是很准确,需要手动调整。对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了。
02

Cometdocs

PDF文档数据难处理?有这几款神器就够了

CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。

缺点:不能免费处理图片,需要订购OCR服务。

对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。

Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。

与Tabula一样,Cometdocs不能识别横向放置的表格。

 

03

Adobe Export PDF

PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。

你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。

与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。

 

04

Nitro Pro

PDF文档数据难处理?有这几款神器就够了

Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。

05

Acrobat Pro

 

同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。

 

06

Zanran

 

PDF文档数据难处理?有这几款神器就够了

同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。

 

07

Zamzar

 

PDF文档数据难处理?有这几款神器就够了

同样是需要用邮箱接收文件的网上软件,但好处是免费使用。

 

08

Cogniview

PDF文档数据难处理?有这几款神器就够了

 

Cogniview(http://www.cometdocs.com/) 和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。

PDF文档数据难处理?有这几款神器就够了

 

09

ABLE2EXTRACT

 

ABLE2EXTRACT(http://www.investintech.com/)是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。

 

缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。

PDF文档数据难处理?有这几款神器就够了

010

Datawatch Monarch

 

Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。

 

011

ABBYY FineReader

 

参考教程:http://www.abbyy.com/finereader/

 

高达99.8%字符识别精度的专业的OCR结果,扫描并转换文件和图像到各种流行的电子格式,包括:DOCX、ODT、RTF、XSLX、PDF和PDF/A、PPTX、HTML、EPUB和FB2

 

缺点就是收费,中文官网显示售价1299人民币。

来源:科袖网、全球深度报道网

本站非明确注明的内容,皆来自转载,本文观点不代表清新电源立场。

(0)
清新电源清新电源
上一篇 2018年4月17日 下午9:16
下一篇 2018年4月18日 上午6:30

相关推荐

发表回复

登录后才能评论