在 UiPath 中,OCR (Optical Character Recognition) 功能可以用來識別並提取圖像或掃描文件中的文本內容,使機器能夠理解並處理這些文本數據。UiPath 提供了多個 OCR 引擎的選擇,每個引擎都有一些差異,包括效果、支持語言、速度等方面。以下是常見的幾個 OCR 引擎及其差異:
以下我們介紹兩種用OCR取得文字的方式與4種OCR引擎。
1.
利用Load Image + OCR引擎取得整張圖像中的文字。
a. 非雲端服務:Micorsoft OCR, Tessract OCR
b.
雲端服務:Google Cloud Vision, Micosoft Azure Computer Vision
<特別注意>:
l Google Cloud Visionà屬性欄位中的Apikey為必要填寫,以下提供教學影片如何取得API
key。
l Micosoft Azure Computer Visionà屬性欄位中的Apikey與 EndPoint為必要填寫,以下提供教學影片如何取得API key。
[補充]:
l “Google Cloud Vision” API key取得方式參考影片:https://www.youtube.com/watch?v=cld-An4u_I8
l “Micosoft Azure Computer Vision” API key與end point取得方式參考影片:https://www.youtube.com/watch?v=hSzMtcEUtHk
2. 利用Get OCR Text + OCR引擎取得整張圖像中的文字或部分區域的文字。
7.1 Load Image + OCR引擎取得整張圖像中的文字
<範例圖片>
<辨識結果>
我們可以看到Micorsoft OCR、Google Cloud Vision表現不錯,Tessract OCR、Micosoft Azure Computer Vision在中文的辨識表現較差,Tessract OCR的問題是因為Uipath內建的語言資料庫沒有中文,所以只要在網路上下載中文資料庫放入指定路徑並在Language屬性寫上中文代號(“chi_tra”)即可,如下圖示說明:
< Tessract OCR 加入中文資料庫後辨識結果>
但我們可以看到英文部分反而結果變差了,雖然中文被辨識出來了但結果也沒有很好,這可能是因為圖片的解析度不高造成的。
我們再來看Micosoft Azure Computer Vision的部分,它看起來只辨識出英文,英文辨識得也不錯,但中文完全沒被辨識出來,這是因為它預設只辨識英文,如果要辨識其他語言,一樣在Language處填入language code,Micosoft Azure Computer Vision的繁體中文language code為” zh-Hant”。
我們可以看出Language處填入” zh-Hant”,中文被辨識出來且英文的辨識結果也沒有變差。
7.2 利用Get OCR Text + OCR引擎取得整張圖像中的文字或部分區域的文字
利用Get OCR Text搭配OCR引擎可以取得整張圖像中的文字或部分區域的文字,以下是模組基本架構:
以下是我們給的一個範例:
利用edge瀏覽器開啟一個帳單的pdf檔à將畫面最大化à擷取帳單總金額(用藍色小手指框選)à利用MessageBox顯示金額結果
留言
張貼留言