OCR***版,OCR全稱是光學(xué)字符識(shí)別技術(shù)(Optical Character Recognition,簡(jiǎn)稱OCR)。我公司的印刷體文字識(shí)別系統(tǒng)識(shí)別率達(dá)到或超過(guò)99.5%。
這是針對(duì)***單位、企業(yè)及有文字錄入需求的個(gè)人用戶,在日常的工作中,快速的對(duì)書(shū)刊、報(bào)紙、公文、宣傳頁(yè)等印刷稿件中內(nèi)容進(jìn)行錄入的應(yīng)用需求而推出的。
b. OCR SDK版,OCR SDK是光學(xué)字符識(shí)別二次開(kāi)發(fā)包(Optical Character Recognition Software Develop Kit,簡(jiǎn)稱OCR SDK)。OCR SDK為其它程序使用漢字識(shí)別提供了編程的接口。它提供了Windows標(biāo)準(zhǔn)的Dll方式調(diào)用,用戶可以通過(guò)Dll中的函數(shù)調(diào)用SDK中的漢字識(shí)別功能,實(shí)現(xiàn)系統(tǒng)集成。
注意:市場(chǎng)上出售的手寫(xiě)板等是“動(dòng)態(tài)”(聯(lián)機(jī))手寫(xiě)漢字識(shí)別,我們現(xiàn)在開(kāi)發(fā)的OCR是“靜態(tài)”(脫機(jī))印刷體、手寫(xiě)體漢字識(shí)別。“靜態(tài)”手寫(xiě)漢字識(shí)別在文字識(shí)別領(lǐng)域公認(rèn)是***高峰、***難克服點(diǎn),而且“動(dòng)態(tài)”識(shí)別與“靜態(tài)”識(shí)別的應(yīng)用范圍完全不同。“動(dòng)態(tài)”識(shí)別只相當(dāng)于一種輸入法,“靜態(tài)”識(shí)別不僅僅是一種輸入法,它還應(yīng)用于更廣的范圍。
2.系統(tǒng)特色
a. 本識(shí)別技術(shù)的特色是“不采用行掃描,歷遍位圖中的所有點(diǎn)”。采用漢字結(jié)構(gòu)分拆假設(shè)法、抽取線條整形法等算法,計(jì)算原始點(diǎn)陣的筆畫(huà)穿透數(shù)目,從而確定方向線素特征,從漢字筆畫(huà)描述庫(kù)中檢索出漢字。為提高識(shí)別準(zhǔn)確性,還采用了周邊四角特征、任意連續(xù)三點(diǎn)特征抽取、輪廓描述等輔助算法來(lái)進(jìn)行檢驗(yàn)。
b. 使用流線式掃描并識(shí)別,掃描識(shí)別一鍵OK。
3.運(yùn)行環(huán)境
運(yùn)行環(huán)境 Windows 9x/Me/NT/2000/XP
***低配置 CPU 300 MHZ以上,64M內(nèi)存以上(建議128M以上)
4.技術(shù)、質(zhì)量概述
識(shí)別速度:在PIII 1.2G處理器256M內(nèi)存的PC機(jī)上,4至6秒/A4頁(yè)。
識(shí)別字體:全自動(dòng)識(shí)別宋、仿宋、楷、黑、圓、隸書(shū)等百余種中文簡(jiǎn)體,英文、數(shù)字、圖片混排的稿件。
識(shí)別語(yǔ)言:簡(jiǎn)體中文
單字識(shí)別準(zhǔn)確率:印刷體漢字≥99%
聯(lián)想識(shí)別準(zhǔn)確率:印刷體漢字≥99.5%
支持文件格式:BMP、TIF、TIFF、JPG、JPEG、PCX、TGA、DIB、EMF、WMF。
輸出格式:TXT、RTF。
識(shí)別要求:5號(hào)字體以上的印刷材料,可選擇掃描分辨率為300dpi以上,字體越小要求分辨率越高。
其它功能:自動(dòng)傾斜更正、去除指定顏色、保留指定顏色、灰度處理等。
支持硬件:普通掃描儀、名片掃描儀、逐行掃描筆、數(shù)碼相機(jī)、帶數(shù)碼相機(jī)功能的手機(jī)等。