阿里妈妈字体

近日,字节跳动向北大教育基金会提供捐赠,全面支持“北京大学-字节跳动数字人文开放实验室”的工作,研发古籍数字化平台,利用智能技术加速中华古籍资源的数字化建设,向全社会提供公益化服务。

我国现存古籍有20万种,据不完全统计,其中已经数字化扫描影像的有8万种,而实现文本数字化的仅有3-4万种。这意味着,大量的古籍无法在网上找到,或只能阅读影像版本,无法进行内容检索,要找到所需信息,只能一页页翻阅。

以“北京大学-字节跳动数字人文开放实验室”为研发基地构建的古籍数字化平台,就是希望解决这些问题。该平台将通过OCR(光学字符识别)、句读、实体识别、知识图谱构建等方面的多种技术,实现古籍的智能化整理,让古籍能够以文本的形态加以检索、关联阅读和深度挖掘与利用。

智能化数字图书馆 
所谓智能化整理,就是把古籍里的文字自动识别出来,并添加标点,转化为数字化文本;同时,使用者可以根据自己的需求进行关键词检索,快速找到所需信息;还可以根据实体(时代、人物、地点等)作整体性分析和关联检索,让分散在同一本古籍不同位置,或不同古籍的相关知识快速、全面聚合。这相当于搭建了一座古籍智能化数字图书馆,让研究者找资料时,不再需要一本本书查找,一页页翻阅。

该平台是一站式古籍智能化整理平台,将对社会大众免费开放。古籍收藏者、研究者、相关专业的师生和广大古籍爱好者可以利用该平台,展开古籍文字识别、句读、校对等全系列工作,提高古籍数字化的效率和质量。

“我们希望通过公益捐赠,支持北大的古籍数字化成果全面转化为社会服务。我们也希望与北大的跨学科团队在OCR、自然语言处理、知识图谱等技术领域展开全面合作,充分利用人工智能技术加快古籍数字化整理、研究与利用,让更多的研究者、爱好者以更高效、便利的方式获取古籍里蕴藏的丰富知识。”字节跳动 AI Lab总监李航表示。

“北京大学-字节跳动数字人文开放实验室”将调动国内外的相关力量,在三年内完成一万种精选古籍的智能化整理工作,基本覆盖儒家、道家和佛学的核心典籍目录。我们十分欢迎更多古籍收藏机构、研究机构和热心古籍事业的个人加入这个项目,共同打造一个开放的数字人文实验室。

“我们将发挥字节跳动在互联网产品研发和设计上的优势,优化并创新古籍数字化平台的产品功能,为大家提供更好的古籍检索和阅读体验。”北京字节跳动企业社会责任部产品总经理唐垲鑫表示,“后续我们还会尝试将古籍数字化平台的内容与今日头条、头条百科、抖音等产品相连接,让优质的古籍内容和传统文化知识可以触及到更多用户。”

文化传承是字节跳动公益重点关注的一个领域。去年6月17日,字节跳动投入1000万元,联合中国文物保护基金会成立的古籍保护专项基金在国家图书馆启动。该基金定向资助修复《永乐大典》“湖”字册等来自国家图书馆、地方图书馆等机构珍藏的105册(件)珍贵古籍;培养100名古籍修复人才。这些修复的古籍也将部分引入古籍数字化平台。


版权:秀设计整理发布,未经允许禁止转载和商用,如有侵权请联系我们。
评论列表 (0)
发表第一个评论!
0 点赞 收藏 0 评论
分享
返回顶部