不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给记者和数据工作者们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。
有没有一些省时省力的工具呢?
有的。下面就由小编给大家推荐一组简单好用的工具。
Tabula
Tabula 是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。
当然对于科研党来说也很实用,比如当老师丢给你一个满是数据表格的PDF,让你整理成Excel的时候,它就排上用场了。
Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。
它除了免费,还有一个优点,就是多平台!
除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。
Cometdocs
CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。
缺点:不能免费处理图片,需要订购OCR服务。
对于普通用户,Cometdocs可以每周免费转换五份PDF文档,超过这个数量就要收费,价格是每月9.99美元。如果一次性支付130美元则可以终身使用。
Cometdocs的一大特点是支持光学字符识别(Optical Character Recognition, OCR)技术,可以用于经扫描生成的PDF文档。由于其未必百分百准确,所以转换后仍需仔细检查一遍。
与Tabula一样,Cometdocs不能识别横向放置的表格。
Adobe Export PDF
PDF的这个官方转换工具需要付费使用,但24美元一年的价格并不算离谱。
你可以在官方阅读软件Adobe Reader上使用该转换工具,转换后直接用Excel、Word、PowerPoint或RTF打开新文档。
与Tabula类似,Export PDF可以快速处理大文档,但也同样不适用于扫描件或横向转置的表格。
Nitro Pro
Nitro Pro适合商业人士,功能强大但价格不菲,大约需要160美元。其缺点是只能用于Windows操作系统,将广大MacBook用户排除在外。
Acrobat Pro
同样是PDF官方出品,Windows和Mac均适用,但每月收费15美元,而且最少要订购一年。
Zanran
同样是收费软件,但可以试用,只要文件小于1.5MB,并提供你的邮箱。转换后的文件将以电子邮件的形式发送给你。
Zamzar
同样是需要用邮箱接收文件的网上软件,但好处是免费使用。
Cogniview
Cogniview(http://www.cometdocs.com/) 和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。
ABLE2EXTRACT
ABLE2EXTRACT(http://www.investintech.com/)是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。
缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。
Datawatch Monarch
Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。
ABBYY FineReader
参考教程:http://www.abbyy.com/finereader/
高达99.8%字符识别精度的专业的OCR结果,扫描并转换文件和图像到各种流行的电子格式,包括:DOCX、ODT、RTF、XSLX、PDF和PDF/A、PPTX、HTML、EPUB和FB2
缺点就是收费,中文官网显示售价1299人民币。
来源:科袖网、全球深度报道网
本站非明确注明的内容,皆来自转载,本文观点不代表清新电源立场。