Calibre 使用教程之批量获取电子书元数据

我以前写过一些 Calibre 教程,在 Calibre 发布 3.0 里程碑版还写了一篇文章整理 Calibre 常用功能。这些教程的功能操作主要是 Calibre 为我们提供的图形界面更容易用于单个任务,但界面成为需要批量处理的任务的障碍。

例如,本文将以某种方式区分大量电子书的质量。为了提高效率,没有用 Calibre 图形界面。

1.如何区分电子书的质量?

相信很多朋友都有屯电子书的习惯,很多朋友会用 G 计划将电子书文件拉到自己的硬盘上。虽然大家都知道这些电子书的质量参差不齐,但显然缺乏效率逐一查看成千上万的电子书文件。那么如何区分电子书文件的质量呢?从电子书元数据判断是个好办法。

Kindle 电子书有两种来源,一种来自亚马逊官方网站,另一种来自网民自制。虽然亚马逊提供的电子书不能100%完美,但质量仍然优于自制电子书。Kindle 电子书的格式一般包括 AZW3、AZW、MOBI 等等。只有 MOBI 格式,亚马逊正式提供了生成工具 KindleGen,但亚马逊官方 Kindle 商店没有直接提供 MOBI 电子书格式。其他格式,如 AZW3 的生成方法均未公开,Calibre 软件之所以能转换 AZW3 等格式也应该是专家通过反编译等手段 Hack 到,和原生有一些微差别。

使用 Calibre 转换后的电子书将在元数据中留下 Calibre 标记,很多提供电子书下载的网站也会通过 Calibre 等转换软件将自己的网站宣传信息填充到电子书元数据中。虽然你看到了 AZW3 格式,但它不再是从亚马逊官方网站上获得的原始电子书文件。所以我们可以简单地判断:所有元数据都与亚马逊官方提供的原始电子书不匹配AZW3、AZW 文件都是修改过的非原始电子书文件。

对亚马逊官方提供的 Kindle 电子书元数据内容如下:

Title         Author(s)          Publisher    Languages   zho
Published   2012-09-30T16:00:00 00:00
Identifiers   mobi-asin:B00OUS31CM

如果经过 Calibre 软件转换,其元数据内容如下:

Title         Author(s)          Publisher    Book Producer       : calibre (2.80.0) [https://calibre-ebook.com]
Languages           : zho
Published           : 2012-09-30T16:00:00 00:00
Identifiers         : mobi-asin:fa225c79-f5ee-47b8-9fe1-1afb5f6c177f

从上面可以看出,第三方软件将在电子书的元数据中插入和修改某些信息。如果转换器修改标题、作者和其他信息,则与原始文件完全不同。AZW3 格式方面,原始文件和 Calibre 转换的文件在内容排版上差别不大,但可能会影响生词提示等X-Ray 等依赖 ASIN 编号相关功能的使用。我们可以通过元数据大致识别哪些电子书没有问题,哪些电子书需要检查。

2、如何获取电子书元数据

如何获取电子书元数据?如果有大量文件,如何批量获取电子书元数据?Calibre 在图形界面中,我们可以通过菜单查看或编辑电子书的元数据,并查看单本电子书的元数据。如果我们想分批获得它,就很难实现它。事实上, Calibre 除了我们通常使用的图形界面外,还提供了一些命令行工具(Command Line Interface,简称 CLI)。图形界面上的一些功能实际上是通过调用这些工具来完成任务的。例如,读取电子书的元数据是本文调用的命令行工具ebook-meta完成。

1、准备 ebook-meta 工具

假如你的电脑是 Windows 系统一般安装在 Calibre 之后 ebook-meta    命令应该是可用的。如果不放心,可以打开命令提示符直接输入 ebook-meta    命令,如果有命令的帮助信息,确定是可用的。

* 提示:如果运行命令后找不到命令,需要自己配置。右键单击计算机,单击弹出菜单中的属性 -

阅读剩余
THE END