10月11日,“北京大学——字节跳动数字人文开放实验室”研发的古籍数字化平台“识典古籍”测试版正式上线。
目前,该平台已覆盖390部经典古籍,主要来自《四部丛刊》,共计3000多万字,即日起向公众免费开放。 未来三年,《知识典古籍》将陆续完成万种古籍智能化整理工作,基本覆盖儒家道家佛学核心典籍目录,届时将全部免费开放。
今年3月,北京大学与字节跳动合作设立“北京大学——字节跳动数字人文开放实验室”,着力将人工智能技术应用于古籍资源智能化整理。
据“经典古书”项目负责人介绍,该平台目前主要使用字符识别自动标点命名实体识别三大技术。 文字识别技术是将古籍的影印版文字单独截取,进行文字识别和顺序识别。
自动标点符号技术是对古典按顺序书写自动分配标点符号的技术。 实体识别技术是指通过序列标记识别文本中的人名地名书籍时间官职等信息。
据悉,目前业内的OCR识别精度平均为93%至94%,《古典书籍》的精度为96%至97%。
与其他古籍数字化平台相比,“古典古籍”独树一帜,页面简洁陂览流畅,提供影印原件作为参考,还具有主题词检索和繁体字转换功能,方便专业研究者广大古籍爱好者使用。 同时,《知识典古籍》书目持续更新,未来手机移动版上线。
未来,“经典古籍”将向全社会开放古籍阅读检索研究能力,实现全自动整理校对,实现存量古籍全数字化。 此外,平台还鼓励拥有文献的学者自行上传文献,用户也可以参与重新创作和重新诠释。
————————————————
发表评论