丹尼爾糕 Profile picture
Software engineer Polygot: Chinese, English, French, Japanese, Korean, etc

Dec 16, 2021, 8 tweets

今天看的是 NAVER DEVIEW 的 For Better Image Translation (Papago Image/AR Translation) tv.naver.com/v/23649339 #NAVER #DEVIEW
主要在講 Papago App (Naver出的翻譯軟體) 中對於圖片翻譯的改善技術。講得有條有理,而且投影片也做得很棒!

這幾張 slide 很清楚地描述了圖片(in-place)翻譯的四個步驟:1. 文字認識, 2. 組成單字, 3. 機器翻譯, 4. 重繪出結果。這個演講的主題主要是在講如何改善第二步和第四步,讓翻譯效果在某些情況下可以有更好的表現。最後還有一個 section 是在講即時翻譯的技術。

在組成單字,句子,和段落時,如果遇到圖片是菜單、收據,或是商品包裝上的介紹時,換行的位置常常需要判斷是要當成同一行,還是是不同的項目。這邊利用了 BERT 技術來做這個判斷。從第三張圖可以看出來,有了精準的斷行分析後,在產出結果時,不會再把每行黏在一起。

再來是講到繪製翻譯結果的改善:從第一張圖可以看得出來,翻譯後的文字背景很人工,是很明顯的色塊。這裡利用了 GAN 的技術,去更有效地算出文字的背景和前景,還跟其他演算法的效果做了比較。(中間有一大段聽不懂)。

從改善前改善後的差異看得出來,有了很明顯的進步,幾乎看不出來翻譯的文字是貼上去的,完全跟原本的圖片背景融合在一起。

最後一段講的是即時翻譯,這邊有利用到 object tracking 的技術,大概的步驟是:1. 找出代表性的 frame, 2. 進行該 frame 的翻譯, 3. 持續利用 Optional flow 的方式追蹤翻譯好的區塊並重繪。

我試了一下用 Papago App 跟 Google Translate 來翻譯這篇演講的大綱韓文版。先不論翻譯的結果,單就呈現效果來說, Papago 的效果確實好太多了。

另一個有不同背景顏色和前景顏色的翻譯繪製效果。看起來好的那個是用 Papago App 翻譯的。

Share this Scrolly Tale with your friends.

A Scrolly Tale is a new way to read Twitter threads with a more visually immersive experience.
Discover more beautiful Scrolly Tales like this.

Keep scrolling