0%

Project Ocean

千年以来人们一直梦想有一个世界级的图书馆,在这个图书馆里能够存放世界上所有出版过的印刷在纸上的知识。可以预见,如果是实体的图书馆这种想法将很难实现。但是,随着信息化时代的到来,全世界所有知识的电子化是可以实现的。Google在2002年就启动了一个「Project Ocean」计划,用以扫描所有的图书,建立一个统一的世界数字图书馆。

然而,经过十年的发展,这个计划却最终在一阵喧嚣中戛然而止。这里是「朝花夕拾」第二十一期,本期话题来自于最近听的「Blow Your Mind」的一期播客。

雄心勃勃的计划

从工程师的角度来说,这个计划毋庸置疑是一个雄心勃勃的伟大的计划。如果这件事情做成了,这将是留给人类的一个伟大礼物。2000年后出版的图书是可以直接电子化的,问题在于将之前存在的纸质的图书电子化。人类的知识有几千年的历史,而书籍中承载的可能是其中质量最高的部分。

然而,这么多的知识中,很大的一部分都深藏在世界上各大图书馆深深的房间中,很少有人能够访问。设想一下,如果这些积累了千年的知识电子化后,人们通过浏览器就可以搜索到对应的知识,这将有多么的大的裨益。

技术的问题

  • 首先我们需要知道,有多少本书需要电子化。在2010年8月,也就是10年前,谷歌在博客中发了一条消息,说全世界总共有129864880册图书。这里主要是英文图书,如果算上其他文字的,还是在亿这个量级。
  • 第二个问题,如何电子化。Google给的方法是扫描,他们研发了一套专门的扫描系统,每台仪器一小时可以数字化1000页左右的图书。

待扫描的书会被放在一个特别设计的自动支架上,支架可以适应不同的书脊,并且将图书固定。仪器上方有一排灯,还有价值至少1000美元的光学器材,包括四个摄像头,两个分别照着摊开的书的左右两半,还有一个负责确定扫描范围的光学雷达,它会在图书表面生成一层激光网格,从而捕捉到纸页的曲度。操作员负责手动翻页,因为也没有机器能比得上人手的快捷和轻柔了,然后脚踩踏板来触发相机进行拍照,一系列动作仿佛是在弹一架奇怪的钢琴。

  • 是的,这个系统还是需要人来翻页的,因为也没有机器能比得上人手的快捷和轻柔了。
  • 第三个问题,扫描后如何将这些扫描的照片转化为文字,识别书籍中的插图和图表、提取页码、把脚注转化为引用、将所有的书籍形成网络,形成一个知识库。这个就更多的是OCR和NLP等研究的领域。

其实,Google并不是第一个产生这个想法,密歇根大学早就开始了其700万册图书馆藏数字化的计划。按照他们的计划,700万册图书需要1000年,而Google告诉他们,同样的事情,他们只需要六年。

Google给密歇根大学图书馆提议:图书馆将所有的书借给谷歌,谷歌来替对方完成全部的扫描。最后你能得到你的全部馆藏的电子版,而谷歌将获得海量的还不曾被人问津的数据资源。布林如此描述谷歌对图书馆藏的渴望,“人类的知识有几千年的历史,而书籍中承载的可能是其中质量最高的部分。”试想如果所有被尘封在纸页间的知识能够进入搜索引擎?

早在2004年之前,谷歌就开始了扫描工作。之后,谷歌和密歇根大学、哈佛、斯坦福、牛津、纽约公共图书馆和许多其他图书馆系统都订立了合约,并且以超过佩吉预言的速度,在十年多一点的时间里扫描了大约2500万册图书。图书扫描工作花掉了谷歌大约4亿美元。这项工作不仅仅依靠技术,还依靠强大的物流支持。

  • 因为有的图书比较古老,在扫描过程中可能会出现错误。谷歌提出了一个机智的ReCAPTCHA计划用于解决在扫描中发现的错误。其基本思路是,为了验证人类所输入的文字是正确的,而不是随意输入,有两个字会被显示出来;一个是光学文字识别软件无法辨别的字,另一个是一个已经知道正确答案的字。如果用户正确的回答出已知正确答案的字,那么就假设所输入的另一个光学识别软件无法识别的字是认真的查看后被输入而非随便输入。

人的问题

经过10年的时间,Google已经扫描了2500万册的图书,这是他们之前预计的图书总量五分之一。然而,在这个过程中,逐渐出现了很多反对的声音,并最终导致了这个项目的终止。

  • 美国作家协会和出版商对Google提出了集体诉讼,指控谷歌大规模侵犯知识产权,毕竟他们才有图书的版权。

  • Google则认为他们的目标是为了让用户能够检索图书,对于那些有版权的书,谷歌只能显示图书的片段,搜索结果中只能显示你搜索到的条目前后的几句话。Google认为他们只是制作了图书的副本,属于对于图书的合理使用。

  • 事实上,这种版权问题早就发生在唱片、广播、有线电视等传统出版商身上,并不是版权所有者想要打压新技术,相反他们是想从新技术中分一杯羹。

  • 随着诉讼的进展,出版商发现,他们实际上并不想阻止Google扫描绝版图书,甚至鼓励这种行为。

  • 于是在这个过程中,Google,作家,出版商,图书馆四方进行了妥协,形成了「谷歌图书搜索修正协议」

    • 协议要求谷歌支付1亿2500万美元,其中包括一次性支付给它已经扫描过的图书的版权方的4500万美元(大约按每本书60美元计算),分别向出版商和作者支付的1550万美元和3000万美元诉讼费,以及用来创立图书版权登记处的3450万美元。
    • 这项协议中也规定了到底应该如何展示和出售这些重获新生的绝版图书。按照协议,谷歌可以展示该书至多20%的部分来诱使用户购买,谷歌可以出售可下载的电子版,价格则由算法或者版权所有者来确定,由1.99美元到29.99美元不等。所有绝版书都会被打包存进一个“机构订阅数据库”,大学可以买下这个数据库,供全校师生免费搜索和阅读里面的全部书籍。
    • 这个解决方案像是一个三赢——图书馆可以得到成千上万的图书,谷歌在图书搜索服务上的投资没有白费,作者和出版商能够从已经毫无商业价值的书中获得一笔新的收入来源。
  • 但是这个「谷歌图书搜索修正协议」引起了更大的争议

    • 学校的教授们担心发生在学术期刊市场的事情会在谷歌图书的数据库上重演,一旦图书馆和学校对订购谷歌的数据库产生依赖,订购价格将会像高利贷一样暴涨,最终涨的和各路学术期刊一样高

    • Google的竞争对手也觉得收到了这份协议的威胁。

      • 微软公司就不出所料地声称,如果谷歌是唯一一个可以合法地检索绝版图书的搜索引擎,这无疑会强化谷歌在全世界作为搜索引擎霸主的地位。如果谷歌利用这些绝版图书来满足用户的长尾需求,这将是一个对于其他公司来说很不公平的竞争优势。

- > 
  >
  > 亚马逊公司则担心这项协议会让谷歌建立一个无可匹敌的图书商店。亚马逊认为,任何想要出售绝版图书的人,都必须要一本一本地确认图书版权,这是最好的,但是集体诉讼的协议却让谷歌一次性获得了所有图书的授权。

随着一轮又一轮的诉讼与协议,现在的状态是,Google基本尘封了这个计划。之前扫描的这2500万册图书以50PB的大小的文件存在于硬盘上。

参考资料