古文字作品 | 古文字知识 | 加入收藏 古文字转换器软件可转换多种古文字在线预览 网页版 V2.0
古文字转换器

当前位置:古文字网 > 古文字知识 >

古文字图像识别取得新突破,华东师大打造电子版“字海”

时间:2023-08-02 06:18:45 编辑:古文君 来源:古文字网

华东师范大学今天(28)举行“冷门绝学”专业“新文科”建设成果发布会”,学校中国文字研究与应用中心利用图像识别工具与数据库创建的“智能型中国文字数字平台”取得重大成果,所包含的文字材料覆盖了自殷商甲骨到明清文字整个汉字发展史的各种时段的各种类型。

以往的技术识别停留在“抽象识字”阶段,仅仅识别出图像属于哪个今日楷字字目,不能确认图像是哪个古文字材料中的哪个字。因为历代出土实物文字材料的用字大面积未被国际标准字符集覆盖,约7万古文献用字有着网络和数据库的使用障碍,所以缺乏标准字符集的支持,成为制约出土文字数据库建设普遍性难题。

“中国文字数字平台”的建设目标,是将通用中文字符集尚不能完全覆盖的中国历代出土实物文字材料纳入可运用数字化来处理和研究的范围。通过古文字图像识别消除了传统古文字数据库,使用者不识之字他就不能使用数据库检索查询的盲点,大大提升了数据库的社会服务功能;另外还可以实现数字平台中图片载体材料与字符集载体材料的自动数字关联,进而营造了古文字资料大数据生成和机器学习的环境,为各种研究专题的智能化手段介入创造了条件。

记者了解到,“中国文字数字平台”自上世纪90年代后期开始启动,已推出《商周金文数字化处理系统》和《战国楚文字数字化处理系统》;2019年正式发布古文字智能识别工具“商周金文智能镜”。在此基础上,2020年以来,文字中心又相继开发了多种出土文字智能图像识别系统,并完成图像识别工具与数据库的有效结合,创建了智能型古文字数字平台。

迄今为止,这一数字平台包括殷商甲骨文数据库有7万余片甲骨,110万字;商周金文数据库1.7万篇器铭,18万字;战国楚简数据库9种著录,10万字;先秦古玺、古陶、古币和石刻文字数据库3.7万方,16万字;秦汉简牍数据库50种,90万字;汉代金石文字十种数据库3万方,20万字;魏晋至元代石刻文数据库1.5万种,300万字;唐代写本文字数据库500篇,60万字;元明刻本文字数据库四种,24万字;明清手写文字数据库920片,7万字;中国古代字书数据库16种,6万字头,300多万字;日藏汉字抄本数据库48种,65万字等。

作者:上海电台记者刘康霞

编辑:包露

责任编辑:向晓薇

Copyright:2014-2023 古文字转换器 www.93290.com.cn All rights reserved.