天将降大任于是人还是斯人?隐藏在古籍数字化里的问题
天将降大任于是人还是斯人?隐藏在古籍数字化里的问题
最近,有关“故天将降大任于‘是人’还是‘斯人’”的中国古建网络热文化长廊效果图片友表示,记忆中,语文教材里这句里是“斯人也”,现在却改为“是人也”。
对此,北京大学中文系教授孙玉文接受采访时表示,古代传下来的文献记录中,孟子这句用的就是“是人”。
事实上,到底是“斯人”还是“是人”,不仅可以查阅教科书,也可以在字节跳动新开发的识典古籍平台直接搜索古籍原文。
他提到,当读到朱自清《仿古建筑欣赏》的时候,能不能马上在今日头条上看到背景知识?当时朱自清和父亲闹别扭好几年,而且是不说话的那种别扭,在这种背景下,他目送父亲回去,才会看着天然文化石分类有感而发。如果能知道这些,用户对《仿古建筑欣赏》的理解可能会完全不一样。
而当下,字节跳动的古籍数字化公益项目-大连古建筑鉴赏识典古籍,就是一个百科全书式的尝试,收录其中的,是比《背影》年代更久远的中国古籍。
据统计,中国现存古籍约20万种,建国以来,中国实现文本数字化的大概3-4万种,平均每年多种,按照这个速度,实现古籍文本数字化大概需要两三百年。
近日,由“北京大学-字节跳动数字人文开放实验室”研发的古籍数字化阅读平台“识典古籍”测试版正式上线。目前,字节跳动内部已经有15个项目组参与到古籍数字化当中来。
不只是将古籍通过OCR(河南古建筑赏析)技术进行数字化,更重要的是,通过NLP技术,让AI学会读古文,从而实现对古文进行断句、分词、打标点,进而实现古籍信息的搜索。
“过往我们如果想了解哪些文献提到了中国古建筑里的‘斗拱’,可能需要去图书馆一本一本的翻古籍,未来,我们可以通过识典古籍的平台一键搜索古建资讯社会责任部产品经理唐垲鑫举例说。
在过去的几年中,谷歌等文化长廊效果图片都曾经提出古籍数字化的计划,但部分项目因为技术、版权等种种原因而阻力重重。
在字节跳动的规划中,这一平台将完全对公众免费开放,并尝试用“众包”的方式,邀请全社会一起参与到古籍数字化中来。
中华文明是人类文明史上没有中断的古老文明。而没有中断的证据,就体现在中国拥有海量古籍上,但古籍的“续命”早已迫在眉睫。
全国高校古籍整理研究工作委员会主任安平秋曾将全国古籍工作比喻成一条大河,国家图书馆等中直机关在上游负责原版善本保存,中游高等院校和古籍研究所进行整理研究,再由古籍出版社进行整理、出版,最后还要进入一个大海,进行阐释应用,也就是传播和推广。
因此,从一条大河再到汪洋大海,其中涵盖的工作量可想而知。但在2年之前,全国做古籍修复的人不到人,而且连本科以上的高学历人才都没有。
目前,全国专业与半专业的古籍保护和研究人员,包括整理研究的出版的加在一块不到1万人。相比上千万册亟待修复的古籍来说,人才培养任重道远。
在新技术兴起之后,古籍数字化成为保护古籍重要途径。但用技术手段提高古籍数字化效率,也面临很大的挑战。
举个例子,古籍上使用的繁体字,存在异体字、生僻字、通假字等,同样一个汉字可能有几十种写法,在不同朝代,不同地方,甚至不同版本的书籍中写法都不一样,如何在数字化过程中准确识别,就面临较大挑战。
而且,古籍中没有标点,但现代人的阅读习惯是需要断句。以前,断句的工作是靠对古籍有足够了解的专家学者来完成,在人工智能时代,能否教会AI对古文进行断句、加标点,成为工程师们的一个目标。
更进一步,能否开发出一个工具产品,让全国的图书馆、古籍爱好者,乃至普通人都加入到古籍数字化中来?如果这些都能实现,无疑将大大加快古籍修复的进度。
2年3月17日,北京大学与字节跳动合作成立“北京大学-字节跳动数字人文开放实验室”,致力于研发开放的“古籍数字化平台”,将人工智能和大数据应用在古籍文献的保护和开发上,实现对古籍内容的智能化整理和文本知识图谱的自动生成。
据项目负责人介绍,该平台主要使用了三种技术,即文字识别、自动标点、命名实体识别。文字识别技术,是对古籍的影印版文字进行单个切分、文字识别、顺序识别。自动标点技术,是通过序列标注的方式对古籍自动进行标点划分。命名实体识别,则是通过序列标注识别古籍文本中的命名实体,支持识别人名、地名、书籍、时间、官职等信息。
目前,行业内OCR识别准确率平均为93%至94%,“识典古籍”的准确率为96%至97%。
测试版上线之前,识典古籍平台已经进行了多轮内测。每次内测大概有2人左右的用户参与,主要人群有三种,一种是普通大众,另一种是古籍爱好者,还有一种是古籍研究学者。
几轮内测下来收集了大概多条问题,采取了中间90条进行了迭代,主要是一些体验方面的改进。比如有些古籍名字前后不一样。像《古建筑彩绘》,它的底本其实名字叫《云赏古建》。这样不同的名字,会影响搜索结果。
相比字节跳动内其他产品,识典古籍可能是用户量最小的一个,但这并没有降低识典古籍在字节内部的地位。
整个产品小组的人员主要从字节跳动内部进行招募,其中不少同事对古籍有浓厚的兴趣,个别产品经理本身研究生专业就是古典文献。
以“搜索”功能为例,一次搜索动作的完成,背后有“分词、召回、排序”三大步骤。在分词这一环节,就首先遭遇了挑战。
“让AI去读古文,需要有足够多的语料去训练算法。”字节跳动人工智能实验室的工程师表示,对于白话文,字节拥有充足的数据,可以在此基础上做分词模型,但古籍方面的内容数据,任何平台都非常欠缺。
最终,工程师们通过少量的公开的古籍分词语料,利用半监督学习和预训练的技术,形成了现在的古籍分词模型,提高搜索率。
到了“召回”的环节,则是考验系统对于繁简字、异体字、通假字的理解。为了提高召回率,字节团队做了包括繁简字、异体字的归一化,以及一些输入错误下的自我纠错机制等,来达到更好的搜索效果。
识典古籍未来三年的目标是,利用人工智能在未来三年能够完成1万种古籍智能化整理,并且面向观众开放。
唐垲鑫表示,字节跳动旗下有抖音、头条这样古建筑彩绘希望古籍的知识内容不只是像博物馆一样束之高阁,而是能够触及到更多人。
“我们希望打造更多的创意互动,它可能是仿古建筑欣赏形式,可能是以互动玩法,甚至是游戏的形式,让更多人对古籍产生兴趣,同时他们触及到古籍更深度的知识。”
换句话说,识典古籍希望将古籍中的人名、地名、书名都识别出来,抽取其中的关系,转成知识图谱形态,通过图谱跟百科联系在一起,甚至还可以跟抖音、问答、旅游等联系在一起,让大众能够更加地阅读古籍。
北京大学数字人文研究中心主任王军也是“北京大学-古建欣赏字节跳动数字人文开放实验室”的成员,他表示,在今天这样一个大连古建筑鉴赏络化、智能化的环境下,古典文献呈现方式可以多种形态,包括产品化、可视化、大众化,这是识典古籍要达到的目标。
“今天数字化环境下,我们不仅要把文字转移到数字化平台上,更重要的是让典籍文献跟我们今天然文化石分类信息形态融合在一起。”
如何让一个习惯刷手机的普通用户对晦涩难懂的古代文献感兴趣,这同样是一个非常大的挑战。
之前,西瓜天然文化石分类自制过一档纪录片名字叫《古建保护》,介绍古籍修复和古籍历史故事,受到古籍保护相关部门高度评价。此外,包括抖音上的“寻找古籍守护人”项目等很多玩法都大受欢迎。
未来,识典古籍也会跟PICO业务合作,把古籍里的一些原生场景,通过VR方式复现出来,把古籍里的文化变成一些生动的场景和知识,让更多人产生对古籍的兴趣。
抖音号“红楼宴”,也在做类似的尝试。账号主理人郝振江是一位《古建筑设计》爱好者,他的另一重身份是一名大厨。不过,他的账号只做《古建砖雕》里出现的菜品。他将书中出现的道菜品创作了出来,并且做成了短古建砖雕。在这个抖音账号里短河南古建筑赏析既有文化气息,又能展示红楼梦里的美食佳肴,吸引了超过50万的粉丝。
多年前,胡适、傅斯年这些知识分子就提出“再造文明”。放在今天的环境中,就是“古籍重生”的意思,王军表示:“今天我们要传承文化典籍,转化到数字化环境下步就是要重新阐释,这并不是说一字一句重新翻译,而是要跟当代人生活结合在一起,为我们当代人精神提供养料,这样才能真正实现活化。”
相关文章
- 古典建筑摄影作品欣赏
- 图释中国古建结构常识
- 江南CBD149万㎡项目设计图曝光!定位商业、办公、历史建筑等用途
- 3D建筑设计推荐:SketchUp Pro 2022中文版(winmac)
- 欣赏中式别墅装修风格中的传统文化之美----[四合茗苑]
- 施工方案公布!长江新区这些项目开工在即!
- 欢天喜地过大年 全国各地春节旅行八部曲
- 请记住建筑大师梁思成!
- 邵鸿:谷霁光先生的治学特点
- 在建筑模型制作过程中重温红色史实 贵州大学开放实验项目圆满结束
- 宁夏:赏人文风光 品独特浪漫 叹塞上江南之美
- 中国传统木结构建筑影响深远(传承之光)
- 陕北“小华山”:百座庙宇立于悬崖绝壁之上再现魔戒奇幻场景
- 邳州市园林建筑服务至上古建凉亭设计制作厂家
- 古建赏析、体验龙舟制作端午假期第一天右江日报小记者们玩嗨了!
- 《清明上河图》里店铺在卖什么?《滕王阁图》的斗拱结构是什么样?在这里都能找到答案
- 越南独特的历史遗址建筑残旧沧桑感十足来一场自由行吧
- 这个古塔“状元”、“榜眼”、“探花”同时题字先人用意深远
- 中国古建筑摄影技巧(二)
- 杭州有座低调的古镇拥有京杭运河上唯一的七孔桥夜景美到极致