整理海量文献数据?有这款 PDF 神器就够了

不少机构选择用PDF格式对外公布信息,避免遭篡改,而这样做却给我们带来了不大不小的麻烦:文字尚且可以复制粘贴,但表格一经粘贴就乱了顺序,只能新建一张表。 

有没有一些省时省力的工具呢?

 

有的。南非资深数据记者Laura Grant根据多年的经验推荐了一组简单好用的工具,以及使用PDF文档的小技巧。

 

整理海量文献数据?有这款 PDF 神器就够了

软件介绍

Tabula是个免费的工具,可靠且易用。其官网上称其“由记者设计,为记者服务。” 难怪深受广大非计算机专业人士的欢迎。当然对于科研党来说也很实用,比如当老师丢给你一个满是数据表格的PDF,让你整理成Excel的时候,它就排上用场了。

 

Tabula的一大好处是允许用户先上传一整份PDF文档,再选择其中的表格,一次导出单个或多个均可。输出的格式包括CSV和JASON的TSV,便于之后再用Excel、Google Sheet或Libre Office Calc等软件打开。

 

然而对于经过扫描生成的PDF文档,或者横向放置的表格,Tabula就无能为力了。

 

它除了免费,还有一个优点,就是多平台!

整理海量文献数据?有这款 PDF 神器就够了

除了 PC 用户,还支持 Mac,真的是 Mac 党的福音啊。接下来小编会给大家详细介绍如何使用。

下载安装

首先就是下载啦,软件是免费的,大家可以直奔官网下载。

地址:http://tabula.technology/

整理海量文献数据?有这款 PDF 神器就够了

 

解压后,打开软件,会自动打开浏览器。若没有事先安装Java,则会先跑出要求你先安装Java的通知:

 

整理海量文献数据?有这款 PDF 神器就够了

整理海量文献数据?有这款 PDF 神器就够了

点选“Browse”上传pdf档。

 

打开后界面是这样的,这个时候,剩下的几乎都傻瓜操作。

整理海量文献数据?有这款 PDF 神器就够了

我们可以参照这个步骤来操作。

▲ 上传包含数据表的 PDF 文件。

整理海量文献数据?有这款 PDF 神器就够了

▲ 通过单击表格的左上角并将鼠标拖到右下角来选择表格,直到所有数据都包含在阴影选择区域中。

整理海量文献数据?有这款 PDF 神器就够了

这里有几个注意点,一定要切记!

第 1:不要将标题圈进阴影区域,不然会打乱格式!

第 2:如果表格的表头包含合并单元格,不要圈进阴影区域,可以后续提取完数据再做处理!

▲ 随后,点击绿色按钮。

整理海量文献数据?有这款 PDF 神器就够了

▲ 随后会出现一个包含您的数据的窗口。检查数据以确保它看起来正确。如果数据丢失,我们可能需要稍微扩展我们的选择。

整理海量文献数据?有这款 PDF 神器就够了

▲ 选择我们需要的格式,点击下载按钮。

整理海量文献数据?有这款 PDF 神器就够了

打开文件,我们就可以将数据作为文本文件或电子表格,而不是 PDF 来进行处理!

但是小编发现一个问题,就是有时一些符号在 CSV 中会出现乱码,但是不知道是不是因为 Mac 的 Excel 兼容性不是特别好,但是这问题很好解决。

整理海量文献数据?有这款 PDF 神器就够了

只要选择 Excel 的替换功能,然后将乱码字符统一替换就好!

整理海量文献数据?有这款 PDF 神器就够了

就会得到想要的结果啦。具体的一些操作和小诀窍,还需要大家使用以后来告诉小编呦。

补充

这个网页是由 tabula 建立的本地端网站服务器提供,所以不用担心数据会上传到远程。

缺点

1. pdf必须是文字型的,图片的pdf则无法处理
2. 偶尔导出的数据会有乱码,需要手动调整取的范围;或者在导出页面,将数据复制粘贴到excel也可以解决这个问题

来源:生物学霸、科袖网资料

本站非明确注明的内容,皆来自转载,本文观点不代表清新电源立场。

(0)
清新电源清新电源
上一篇 2018年3月25日 上午6:29
下一篇 2018年3月26日 上午6:29

相关推荐

发表回复

登录后才能评论