QQ在線咨詢
客服熱線1
021-52688021
客服熱線2
021-52688022
您的位置:首頁 > 中文

維基百科的谷歌翻譯問題

維基百科成立的目的是讓世界各地的知識免費提供 - 但現在,它主要是用英語提供。英語維基百科是迄今為止最大的版本,有550萬篇文章,301個版本中只有15個有超過一百萬篇。這些文章的質量可能會有很大差異,重要內容往往完全缺失。二百零六個版本缺少一篇關于幸福情緒狀態的文章,只有不到一半的文章缺少一篇關于智人的文章。


這似乎是機器翻譯工具的完美問題,并且在1月份,谷歌與維基媒體基金會合作解決它,將谷歌翻譯納入基金會自己的內容翻譯工具,該工具使用開源翻譯軟件。但對于使用非英語維基百科版本的編輯而言,內容翻譯工具更多的是一種詛咒而不是祝福,更新了關于維基百科是否應該從事機器翻譯業務的爭論。


“人們將谷歌翻譯為無法實現......顯然不是。”

內容翻譯工具作為測試版功能提供,可讓編輯人員根據其他版本的自動翻譯生成新文章的預覽。如果使用得當,該工具可以為編輯人員構建人員不足的版本節省寶貴的時間 - 但是當它出錯時,結果可能是災難性的。一位全球管理員指出從英語到葡萄牙語的翻譯特別荒謬。什么是英文版的“鄉村泵”在通過機器翻譯成葡萄牙語時變成了“炸彈村”。


“人們認為谷歌翻譯是完美的,”管理員說道,他要求用他們的維基百科用戶名稱佛蒙特州提及。 “顯然不是。它并不意味著取代了解語言。“


那些偽劣的機器翻譯已成為一個問題,有些版本已經創建了特殊的管理規則,只是為了蓋章。英語維基百科社區選擇具有臨時“快速刪除”標準,僅允許管理員刪除“2016年7月27日之前由內容翻譯工具創建的任何頁面”,只要頁面歷史記錄中不存在不是機器的版本-translated。這種“特殊情況”的名稱迅速刪除標準是“X2。由內容翻譯工具創建的頁面。“


“應該討論一項改善機器學習的社區廣泛戰略”

如果你近年來看到人工智能與人工翻譯達到“平等”的頭條新聞,這可能會令人驚訝。但這些故事通常指的是機器翻譯能力的狹隘,專業測試,當軟件實際部署在野外時,人工智能的局限性變得清晰。正如印第安納大學布魯明頓分校認知教授道格拉斯霍夫斯塔特(Douglas Hofstadter)在一篇有關該主題的有影響力的文章中所闡述的那樣,人工智能翻譯很淺薄。它產生的文本具有表面層次的流暢性,但通常會忽略單詞和句子的深層含義。人工智能系統通過研究大量訓練數據中的統計模式來學習如何翻譯,但這意味著他們對語言的細微差別視而不見,這些語言的使用頻率較低,缺乏人工翻譯的常識。


維基百科編輯的結果是一個主要的技能差距。他們的機器翻譯通常需要那些翻譯的密切監督,他們自己必須很好地理解他們正在翻譯的兩種語言。對于已經被志愿者束縛的較小的維基百科版本來說,這是一個真正的問題。


Guilherme Morandini是葡萄牙語維基百科的管理員,經常看到用戶在內容翻譯工具中打開文章,并立即發布到另一種語言版本而不進行任何審核。根據他的經驗,結果是偽劣的翻譯或徹頭徹尾的廢話,這是該版本作為信息來源的可信度的災難。 Morageini在The Verge的指導下,將這篇關于JusufNurki?的文章作為一個例子,將其機器翻譯成葡萄牙語。第一行,“......éumBósnioprofissionalque atualmente joga ...”直接翻譯為“...是一個目前正在播放的專業波斯尼亞人”,而不是英文版“......是波斯尼亞專業人士籃球運動員。”


“機器翻譯永遠不會成為WIKIPEDIA上的文章的一種可行方式”

印度尼西亞維基百科社區甚至正式要求維基媒體基金會從該版本中刪除該工具。維基媒體基金會似乎不愿意在此基礎上這樣做,并且在過去已經否定了社區的共識。私下里,人們對The Verge表示擔心,人們擔心這可能會成為2014年媒體瀏覽器大戰的重播,這會引起基金會與其監管的社區主導版本之間的巨大不信任。


Jo?oAlexandrePeschanski是巴西FaculdadeCásperLíbero的新聞學教授,他教授Wikiversity課程,是當前機器翻譯系統的另一個批評者。 Peschanski說:“應該討論一個改善機器學習的社區范圍的戰略,因為我們可能會通過我所說的相當艱巨的翻譯努力來削弱效率。”翻譯工具“很關鍵”,而且在Peschanski的經驗中他們“公平地”工作他說,“面臨的主要問題是文章中使用的模板不一致。理想情況下,這些模板包含許多文章或頁面可能需要的重復材料,通常在各種語言版本之間,使語言更容易自動解析。


Peschanski將翻譯視為重用和適應的活動,語言版本之間的重用取決于內容是否存在于另一個網站上。但適應意味著在繼續之前將“不同的文化,語言特定的背景”帶入翻譯。更廣泛的解決方案是制定某種項目范圍的政策,禁止機器翻譯,無需人工監督。


The Verge采訪本文的大多數用戶傾向于將手動翻譯與機器翻譯結合起來,后者僅用于查找特定單詞。所有受訪者都同意佛蒙特州的聲明,即“機器翻譯永遠不會成為在維基百科上發表文章的可行方式,僅僅因為它無法理解不能在語言之間翻譯的復雜人類短語”,但大多數人都認為它確實有其用途。


面對這些障礙,與英語維基百科相比,較小的項目可能總是具有較低的質量標準。質量是相對的,未完成或寫得不好的文章不可能完全消失。但這種差異伴隨著真正的成本。 “在巴西這里,”莫蘭迪尼說,“維基百科仍然被認為是不值得信賴的”,這一聲譽在英國文章的翻譯中毫無幫助。佛蒙特州和莫蘭迪尼都同意,在純機器翻譯的情況下,相關文章最好不要刪除。在很多情況下,他們只是“太難以保持”。


James Vincent為本文提供了額外的報道。


披露:Kyle Wilson是英語維基百科的管理員和全球用戶重命名者。他沒有從維基媒體基金會收到付款,也沒有參與付費編輯,廣泛解釋。


辽宁快乐12选五遗漏