資源簡介
…首款篇章級中文手寫字庫
…系統的樣本采樣機制
…真實環境下的手寫
…廣泛的應用支持
未來的脫機手寫漢字識別的研究對象必會從孤立工筆手寫漢字逐漸過渡到真實手寫中文語句。脫機手寫漢字識別領域亟需建立一個脫機手寫中文文本庫,用于支持面向真實手寫環境的漢字識別研究。為此,我們提出了面向真實手寫環境的基于無切分策略的脫機手寫漢字識別。我們經過三年的系統工作,建立了一個包含約20萬字的HIT-MW中文手寫文本庫(英文全稱為Harbin Institute of Technology-Multiple Writers Database,中文名稱為哈爾濱工業大學多人手寫庫,縮寫為HIT-MW庫),用于研究上述問題(具體情況見下文)。由于采取了系統的采樣方案,庫中包含了很多真實手寫現象,不僅有歪斜的(skewed)文本行,還有交疊(overlapping)和粘連(touching)文本行;除了抄寫錯誤(miswriting),還有涂改文字(erasure)的存在。這樣,脫機手寫漢字識別從理想化的“單字”識別進入到面向真實手寫環境的“文本”識別(或語句識別)的更高層次。
代碼片段和文件信息
評論
共有 條評論