藏文古籍字丁数据集半自动标注方法

在线阅读 下载PDF 导出详情
摘要 摘 要:藏文古籍字丁数据集是用机器学习技术进行藏文古籍字符识别的数据基础。传统的藏文古籍字丁数据集采用人工标注方式构建,其中画标注框任务与输入类别名任务因串行进行而耗时较长,并且输入的类别名为藏文字丁,这导致人工标注的方法存在标注时间长和标注门槛高的问题。对此,本文提出了一种半自动标注方法:将画标注框和输入类别名两项串行任务并行化,其中由具备藏文输入能力的标注者完成输入类别名任务,其余标注者完成画标注框任务;通过标注框的中心点坐标信息对标注框进行行间排序和行内排序,分割、整合倾斜古籍图像对标注框进行行纠正,排序好的标注框赋予对应的目标类别名,从而整合得到完整的目标标注信息。该方法不仅可为藏文古籍字丁数据集标注缩短时间和降低门槛,而且可为其他文种的古籍文字数据集标注提供有益参考。
出处 《中国科技信息》 2022年18期
分类 [][]
出版日期 2023年01月07日(中国期刊网平台首次上网日期,不代表论文的发表时间)
  • 相关文献