翻譯公司:在 eDiscovery 數據中查找外語(yǔ)的技巧
Date: 2020-06-09 11:13:15Source: 志遠翻譯
Relativity 博客上發(fā)表了一篇新的 ATA 翻譯文章。
Relativity 是最受律師和法律專(zhuān)業(yè)人士歡迎的電子發(fā)現平臺。我們最近在 Relativity 網(wǎng)站上發(fā)表了一篇博客,強調了快速識別關(guān)鍵外語(yǔ)信息的三個(gè)重要技巧。請看下文。
您是一家大律師事務(wù)所的 eDiscovery 專(zhuān)家。坐在辦公桌前,登錄 Relativity 網(wǎng)站,開(kāi)始篩選文件。您一直瀏覽著(zhù),尋找需要的東西,甚至在截止日期之前就找到了。于是您開(kāi)始思考午餐吃什么。我要在街對面的那家店買(mǎi)一份 15 美元的沙拉嗎?那我要買(mǎi)披薩嗎?買(mǎi)披薩吧,超值。一整塊披薩,太棒了。
然后,您會(huì )看到一個(gè)巨大的、看起來(lái)像外國文件的緩存。您以為是羅馬尼亞語(yǔ),但實(shí)際上您不懂羅馬尼亞語(yǔ)。您也不懂拉脫維亞語(yǔ)、立陶宛語(yǔ)或波蘭語(yǔ)。可能是其中之一嗎?您的額頭上冒出一粒汗珠,您開(kāi)始恐慌,在腦海中瀏覽您的選項:
- 要問(wèn)其中一個(gè)伙伴該做什么,請翻到第 17 頁(yè)
- 要進(jìn)入一個(gè) 13 小時(shí)的網(wǎng)絡(luò )兔子洞,請翻到第 25 頁(yè)
- 要跑到停車(chē)場(chǎng)在車(chē)里哭,請翻到第 33 頁(yè)
在審閱過(guò)程中盡早識別出外語(yǔ),對于實(shí)現清晰、可預測的成本、防止不必要的延遲和構建有意義的工作流至關(guān)重要。這里有一些簡(jiǎn)單的技巧可以幫助您在國外的 eDiscovery 領(lǐng)域暢行。
1.使用外語(yǔ)停止詞
如果您沒(méi)有 Relativity Analytics,或者您正在尋找一種快速、簡(jiǎn)單的方法來(lái)掃描您的數據集以尋找某種外語(yǔ),那么在 dtSearch 中創(chuàng )造性地使用停止詞可能會(huì )有所幫助。
停止詞,也稱(chēng)為噪音詞,是給定語(yǔ)言中使用頻率最高的單詞(例如,在英語(yǔ)中:and、the、my、all、for)。它們通常會(huì )從 dtSearch 或關(guān)鍵字搜索中被過(guò)濾掉,因為它們非常常見(jiàn),不會(huì )返回有價(jià)值的搜索結果。然而,這些詞頻繁出現也使它們成為查找外語(yǔ)文檔的好方法。
因為可以安全地假設在任何文本中都可以找到停止詞,所以對停止詞列表的 dtSearch 可能會(huì )返回任何外語(yǔ)文檔。例如,如果您認為您的數據集可能包含德語(yǔ),那么搜索德語(yǔ)停止詞將有希望返回任何帶有德語(yǔ)文本的文檔。
請注意,每種語(yǔ)言都有自己獨特的停止詞集,因此與其翻譯英語(yǔ)單詞列表,不如從法律語(yǔ)言服務(wù)專(zhuān)家那里獲得所需外語(yǔ)的停止詞列表。
2.運行語(yǔ)言標識
雖然有了停止詞技巧能找到外語(yǔ)文檔,但是這要求您預先知道數據集中有哪些語(yǔ)言,并且如果您搜索的語(yǔ)言不止一種,那么您會(huì )感到單調乏味。對于可能包含多種語(yǔ)言的數據集,或者如果您只是想在對任何一種外語(yǔ)進(jìn)行雙重檢查之后,繼續您的評審,那么,最好使用完整的語(yǔ)言識別分析。
語(yǔ)言識別運用機器學(xué)習,自動(dòng)檢測文本中的語(yǔ)言。Realativity Analytics 中的一個(gè)特性,它能返回文檔中的主語(yǔ)言和最多兩種次要語(yǔ)言,以及每種語(yǔ)言的百分比。
因此,您可以利用語(yǔ)言識別輸出來(lái)指導下一步。構建鳥(niǎo)瞰圖面板,以能夠縱觀(guān)文檔數量、管理員數量和語(yǔ)言控制數量;按語(yǔ)言批量處理文檔,高效地發(fā)送給外語(yǔ)審校員;然后將外文文本發(fā)送給機器翻譯,這樣您就可以得到英文版要點(diǎn)。無(wú)論采用哪種方法,語(yǔ)言識別結果都將為接下來(lái)的審閱工作流程打下基礎。
3.認識到互聯(lián)網(wǎng)是您的朋友——除非它不是
互聯(lián)網(wǎng)的美妙之處在于,您只需點(diǎn)擊一個(gè)按鈕就能找到您想要的任何東西。僅利用谷歌搜索可能有的語(yǔ)言中的停止詞,將為您帶來(lái)一些快速而可靠的回報。例如,搜索“西班牙語(yǔ)停止詞”,您會(huì )看到一個(gè)包含 40 多種語(yǔ)言的完整的停止詞列表?;ヂ?lián)網(wǎng)很棒吧?但不要讓它給您一種虛假的安全感。
我們都知道有免費的翻譯工具。您可能認為,簡(jiǎn)單地將文檔復制并粘貼到這些免費引擎之一中,就可以解決語(yǔ)言識別混亂的問(wèn)題,但在繼續之前,有幾個(gè)重要的問(wèn)題需要考慮:
- 當您考慮到可能要處理的文檔數量時(shí),復制和粘貼是非常單調乏味的。“Ctrl+C,Ctrl+V”在面對成百上千個(gè)文檔時(shí)并不是一個(gè)切實(shí)可行的選項。
- 免費的在線(xiàn)翻譯工具并不安全。一旦您將文本輸入其中一個(gè)工具,該文本也歸這些工具所有了。在大多數情況下,您處理的是不應該向第三方公開(kāi)的敏感性文檔。但當然,您早已明白這一點(diǎn)。
所以您找到了外語(yǔ)文檔?,F在怎么辦呢?
現在是時(shí)候確定這些外文文檔是否相關(guān),是否要優(yōu)先處理或需要其他的處理——換句話(huà)說(shuō),是時(shí)候弄清楚這些文檔的所要表達的意思了。為此,您可能希望與受信任的語(yǔ)言服務(wù)供應方合作。選擇一個(gè)可靠的供應方是另一個(gè)話(huà)題,但是這里有一些快速的技巧可以幫助您開(kāi)始:
- 確保他們具備 ISO 認證的質(zhì)量——糟糕的翻譯會(huì )造成混亂,浪費您的時(shí)間和金錢(qián)。保護自己別出現這種情況。選擇一個(gè)經(jīng)過(guò) ISO 認證的供應方是一個(gè)好的開(kāi)始。
- 確保他們具備豐富的 eDiscovery 經(jīng)驗——多數情況下是結合各種工具,如機器翻譯、外語(yǔ)審校、和關(guān)鍵字搜索詞翻譯——這將會(huì )優(yōu)化您的時(shí)間和成本,所以確保您的供應方熟悉于此,以及如何將其適用于這些類(lèi)型的項目。
- 確保他們熟悉您所選擇的技術(shù)——選擇一個(gè)已經(jīng)熟悉您的 eDiscovery 軟件的合作伙伴可以節省時(shí)間,提高安全性,并防止頭痛。有些甚至可能為您的平臺提供專(zhuān)用的應用程序,比如 ATA 的 Relativity 插件,為您已知的工具提供專(zhuān)用的支持。
翻譯公司