對于一些掃描后的文件,掃描出來的文件都不是很規(guī)范,有些傾斜,那么怎么才能把這些掃描文件進行校正呢?下面小編就給大家?guī)砩袝栁淖肿R別怎么用 尚書六號OCR軟件進行掃描校正方法。
尚書六號OCR軟件進行掃描校正教程
下面我們主要是介紹,采用MICROTEK掃描儀的驅動軟件SCANWIZARD 5,如何配合尚書六號OCR軟件做好OCR識別的工作的要點。
推薦的工作步驟如下:
1. 掃描圖像文件。
建議在桌面上直接使用SCANWIZARD 5軟件,注意將軟件切換到高級工作模式。原因是這樣能便于用戶檢查掃描儀工作時的分辨率。
推薦的掃描分辨率設定在300DPI,色彩模式可以是“RGB彩色”或者“灰階”。
選擇“掃描到”的文件格式是TIF或者JPG兩者都可以。將掃描的文件存在用戶確定的目錄下面。
2. 打開尚書六號讀取掃描好的圖像文件。
3. 被識別圖片的預處理。
這部分工作,主要包括:傾斜校正、設定正確的識別區(qū)域。
傾斜校正過程,如圖所示,按下工具欄的最下面的一個工具。
按下“圖像傾斜校正”工具后,會出現(xiàn)如下的對話窗口:
此時按下“是”按狃。系統(tǒng)就給予圖片做水平的傾斜校正,做完后,結果如下:
注意,自動傾斜校正功能,只能對原稿做+-2.8度的傾角的校正,如果原稿的傾斜角度大于2.8度,系統(tǒng)會建議用戶重新掃描稿件,以提高識別率。
如何正確設定識別區(qū)域,這是一個值得用戶注意的地方:
如下的“海爾”一文,實際是分成兩個欄目,進行閱讀的,所以我們在設定識別區(qū)域的時候,注意需要將這個特點表現(xiàn)出來,需要設定兩個識別區(qū)域,如圖所示。
對于一些文字稿件,中間有圖片的時候,我們建議采用繞開的方式,進行識別區(qū)域的設定,如下圖:
對于表格類的圖片,為了將標題欄也能識別進去,我們建議采用如下的識別區(qū)域設定,特點是表格部分必須整個框選,同時標題作為一個單獨的框選區(qū)域。
4. 開始進行識別
在開始“識別”的時候,注意識別的軟件的設定值是否正確,默認值如下:
5. 識別校對完成后,存盤格式的選擇文件保存的類型有四種,建議一般文本的識別,用戶選擇TXT格式。
如果是表格識別,識別結果請選擇“CSV”格式,用EXCEL能夠打開。