2007-05-24 11:06:02 下载试卷 标签:大学 少数民族 函数 启蒙教育 特长测试
近日,由清华大学承担的多体蒙古文(混排汉英)印刷文档识别暨统一平台少数民族文字识别系统通过了教育部科技发展中心组织的鉴定。
在教育部、国家语委、国家自然科学基金委的支持下,清华大学与内蒙古大学、内蒙古师范大学协作研究开发成功了多体蒙古文(混排汉英)印刷文档识别系统,并结合清华大学已研制成功的的藏维文等文档识别研究成果,在世界上首次推出了统一平台上蒙古文、藏文、维吾尔文、哈萨克文、柯尔克孜文及朝鲜文(混排汉英)印刷文档识别系统。在多体蒙古文(混排汉英)印刷文档识别系统研究方面,根据蒙古文的实际特点和难点,采用基于字素的文本切分识别方案。
主要技术特点如下:
1.提出了一种基于统计鉴别分析的多字体多字号蒙古文字符识别的方法,对蒙古文的常见多种字体(白体、黑体、报体、哈旺体/楷体等二十余种字体)具有良好适应性,单字测试平均识别率达99%以上;
2.提出并实现多字体蒙古文文本切分方法,在提取单词基线位置后,通过定义代价函数,综合分析字符几何位置、形状等多种信息,取代价函数极小值处作为切分点;提出了蒙汉英语种判别方法,结合汉、英文识别技术,实现蒙汉英混排文本识别。文本识别率可达96.8 %以上。
3.具有蒙古文印刷文档版面分析方法,可分析处理文本、图片、表格区域。
4. 研制字符形码到Unicode标准蒙古文编码转换方法。
关注奥数网官方微信 数学资料、数学真题、更有全国教育资讯
微信搜索“奥数网”或扫描二维码即可添加
来源:教育部科技发展中心