我是怎么看历史久远的论文的(不完全总结)

二十世纪之前的科学研究惯例跟今天不同。我们今天习惯的文献索取手段(就算不提互联网技术),在用于寻找历史久远的论文的时候,总有各种不适应的地方。

首先一定要尽可能找到一个论文的所有信息,确认这篇论文的存在。这些信息包括作者的全名(姓与名,拼写准确)、年份、标题、发表的期刊的全名、卷、期、页码等。历史上的很多期刊的卷、页经常被一些不小心的引用者搞错,但是年份是很少搞错的,更不用说加上标题和作者全名。用部分论文信息的关键词,在Google上搜索,可以搜到后续不同的论文引用这篇论文时的其他信息,如果你手头上的citation信息恰好有误,是很容易从Google上的搜索结果看到正确版本的(即大多数结果共同的版本)。

确定了信息,就要去翻阅相应的那本期刊,找到这篇论文。有些期刊,已经由我们熟悉的出版商做了电子存档,把里面的论文一篇一篇地独立出来,跟我们今天的论文一样放在这些出版商的网站上了,还有DOI号,因此不会造成很大的困难。例如Proc./Trans. R. Soc.、Phil. Mag.、Ann. Phys.等。所以一定要先看看会不会是这样的情况,不要走了弯路。但其中也有些问题例如Ann. Phys.的彩页问题,在我之前的文章已经讲过。但仍然有很多期刊,特别是曾经昙花一现,没有延续至今的期刊,并没有在这些出版商网站上像今天的论文那样提供下载。所幸的是很多图书馆或者国际组织都在对这些历史书籍进行扫描电子化工程(例如Google Books),所以这些期刊很可能都以一整本书的形式在相应的网站上提供下载。

要找到这些期刊,一定先要确定你想要找的那一年,这个期刊叫什么名字,是多少卷。在前互联网时期,人们往往不太注意这些标题、名称的恒定性,因为他们不担心别人通过关键词搜索会漏掉自己。在那个年代人们反正都是要亲自去图书馆查阅这些的,他们能保证被查到的关键只在于图书馆管理员是否尽职。所以他们在这些标题上的改变可能会根据当时的其他因素而变化,造成我们今天搜索的困难。同理,在前全球化时代,他们也不觉得一定要统一一种国际通行的惯例。例如卷号是每年都从1开始,还是从期刊的第一卷开始跨越年份地编号。如果是前者,卷号并不唯一对应一期。今天我们都习惯后者了。 我们所说的“卷”,英语为volume,常简写为vol.或v.;德语叫band,常简写为bd.;法语叫tomé,常简写为t。这些历史期刊在卷之上还有系列(series),法语是série。有时系列是不重要的,因为卷号唯一对应一本。但有时系列是重要的。不同期刊之间要小心。否则你手头上的citation信息明明年、卷都对了,也找到了这本期刊,但却发现相应的页码没有你要的这篇论文。

例如,Mémoires de l’Academie Imperiale des Sciences de Saint Petersbourg,这个期刊是法语标题的,但实际上是俄国的。里面常常同时有德、法、俄语的论文。对于这个期刊,除tomé号之外,“série号是重要的。写了t. 6(第6卷)的有三本:1818年的标题是“Mémories de L’Académie Impériale des Sciences de St. Pétersbourg. Tome VI. Avec L’Histoire de L’Académie pour L’Année 1813 et 1814”;1851年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. par Divers Savants et lus dans ses Assemblées”;1857年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. Sciences Mathématiques et Physiques”;1863年的标题是“Mémoires présentés a L’Académie Impériale des Sciences de St-Pétersbourg. Sixième Série. VIIE Série”。但Citation一般期刊只缩写主标题,对于这个例子,对应年份是很关键的。

老的期刊的电子存档,首先可以在Google找找看。我现在知道的有Biodiversity Heritage LibraryGallica、Google Books、巴伐利亚州立图书馆。网上也有很多大学的图书馆网站总结了一些历史期刊的数字存档去哪里找,所以在Google上搜也会搜到这些网站。还有一个好的源头就是这些期刊的Wikipedia词条。注意要找这些期刊所在语种的词条,不要看英语的。因为这些期刊的国家的网友做的词条只会比英语词条更详细。用网页翻译就可以一键翻译成英语。

类似Gallica这种把一个期刊所有年份全部做了电子化的,一般也会按年份卷号给你查找。但Google Books对待这些期刊都当作独立的书(因为Google Books的计划是对图书进行电子化),所以很难定位到你要的那一期。但有时你还是很寄希望于能在Google Books上查到。所以在Google Books上搜索的时候最好加上这个期刊里印的卷号。例如你要第78卷,但期刊上会印的却是Band LXXVIII。罗马数字在那个年代很常用。你可以在网上找个罗马数字和阿拉伯数字在线转换工具解决。

另外还可以试试在Google搜期刊名再带上Wikisource,看Wikisource上有没有大总结。例如Annalen der Physik在Wikisource上的页面堪称一站解决所有问题。同理,在wikisource上要找你的期刊相应的语言的词条。通过Wikisource你也会了解很多期刊的标题延革、历史命名惯例,以及常见的电子存档网站,积累很多知识。而且Wikisource上除了有按期刊做的词条之外还有按人做的,例如F. Kohlrausch的词条(同理要找德语的)。

找到了你要的文章之后,就是要把它翻译成英语。第一步是对文件进行OCR。一般上述的这些电子存档网站都能下载整本期刊的PDF。可以用PDF编辑软件把你不要的页删掉,只剩下你要的论文那几页。然后去找个OCR工具把它的文本提出来。OCR的效果很依赖原图片的清洁和清晰度。所谓清洁就是页面上不要有一些小污点,否则会被OCR认为是句点,你事后清理的时候防不胜防,因为你又看不懂德语或法语。清晰就是字要清晰特别是德语法语有很多那些重音符号,不清晰的话OCR会认不对,或者认成其他字母,而你又看不懂德语或法语,认错了你也不知道的。所以,在上述查找电子存档的那步,不要找到一处就万事大吉了,要尽可能把全网你能找到有的版本都找到,选出一个扫描质量最好的来进行OCR。

OCR工具也有好有坏,特别是针对不同语言进行优化的。有的OCR根本处理不了德语和法语。我喜欢在线工具,因为在线工具一搜一打把,马上就能试用,不用下载到本地安装完了才知道不好。经过比较我发现这个OCR在线工具比较智能,它真的能根据语言本身的语法进行智能优化,识别的错误率很低,而且对不同的排版还有一定的处理能力。虽然要付费但也是值得的。

识别出来的文本,经常会有多余的换行符,同时也会有一些明显可能识别错误的地方,例如原文中一些inline公式、希腊字母等。因此这一步就是要把多余的换行符去掉,同时清理掉肉眼可见的错误,得到一个比较干净的文本。然后上传给Google Translate去翻译。

Google Translate翻译的效果还是可以的,至少能让你知道每句话说什么。此时你就要把一些图、表等OCR做不到的部分从原文截图塞到相应的位置,然后打印成PDF,变成一个英语版的论文。

这时就可以像读普通文献那样进行阅读了。

One thought on “我是怎么看历史久远的论文的(不完全总结)

  1. Pingback: 粘弹性的认识历史(一) – 万物皆流

Comments are closed.