印地語(yǔ),采用天城體書(shū)寫(xiě),與英語(yǔ)并列為印度的兩大官方語(yǔ)言。它不僅是印地語(yǔ)帶的通用語(yǔ)言,還廣泛流行于印度各地。2011年的人口普查數(shù)據(jù)顯示,有高達(dá)3.4億人將印地語(yǔ)視為母語(yǔ)。這種語(yǔ)言的廣泛使用導(dǎo)致了拼寫(xiě)上的多樣化,一些社區(qū)為貼合自身發(fā)音和用語(yǔ)習(xí)慣,對(duì)標(biāo)準(zhǔn)現(xiàn)代印地語(yǔ)進(jìn)行了簡(jiǎn)化或變通。
當(dāng)前,盡管印度政府已制定了標(biāo)準(zhǔn)現(xiàn)代印地語(yǔ)的拼寫(xiě)規(guī)范,但全球各地的印地語(yǔ)使用者在實(shí)際書(shū)寫(xiě)中仍會(huì)采用多種廣受認(rèn)可的拼寫(xiě)形式。
隨著印度科技使用的急速增長(zhǎng),印地語(yǔ)用戶(hù)傾向于采用更為高效的方式進(jìn)行非正式書(shū)面交流。我們注意到,印地語(yǔ)手機(jī)用戶(hù)在輸入和編寫(xiě)信息時(shí),希望能夠同時(shí)運(yùn)用天城體文字和拉丁字母書(shū)寫(xiě)形式的印地語(yǔ)單詞,而界面也能根據(jù)需求同步展示這兩種書(shū)寫(xiě)形式。
盡管存在官方的拉丁字母書(shū)寫(xiě)印地語(yǔ)系統(tǒng),但在非正式場(chǎng)合下,印地語(yǔ)使用者在羅馬化方面展現(xiàn)出更大的靈活性,這主要源于這種羅馬化是基于語(yǔ)音的,且印度各地存在多樣化的地區(qū)發(fā)音。
例如,在處理鍵盤(pán)等文本預(yù)測(cè)模型的自然語(yǔ)言處理(NLP)工具時(shí),必須充分考慮這些拼寫(xiě)上的變體。為了提供更貼合用戶(hù)需求的體驗(yàn),這些工具需要更加真實(shí)地反映用戶(hù)的交流方式。因此,我們迫切需要一套能夠更精準(zhǔn)地代表印地語(yǔ)使用者可能用于音譯天城體詞形的拼寫(xiě)數(shù)據(jù)。
為此,牛津語(yǔ)言(Oxford
Languages)研發(fā)了一項(xiàng)創(chuàng)新的音譯數(shù)據(jù)功能,該功能能夠全面呈現(xiàn)印地語(yǔ)單詞所有潛在的拉丁拼寫(xiě)形式。例如,??????這個(gè)詞就可以被音譯為“kyonki”、“kyunki”或“kyuunki”。我們期望在數(shù)據(jù)解決方案中,能夠以非層級(jí)結(jié)構(gòu)的方式展示這些拼寫(xiě)變體,從而優(yōu)化印地語(yǔ)鍵盤(pán)輸入和科技寫(xiě)作體驗(yàn)。我們希望能呈現(xiàn)的變體涵蓋多個(gè)方面,包括anusvara與半字母的拼寫(xiě)、呼格復(fù)數(shù)形式、nuqta的使用、完整/r/與半/r/:的差異,以及舊式、規(guī)范與現(xiàn)代拼寫(xiě)之間的對(duì)比。
我們針對(duì)印地語(yǔ)等具有豐富變體的語(yǔ)言開(kāi)發(fā)這些詞匯數(shù)據(jù)特征,旨在將其應(yīng)用于書(shū)面自然語(yǔ)言處理和生成式人工智能應(yīng)用中,以提升印地語(yǔ)母語(yǔ)使用者的整體體驗(yàn)。
在技術(shù)為受眾打造更本土化解決方案的過(guò)程中,必須深入考量語(yǔ)言中的諸多細(xì)微差別。因此,在數(shù)據(jù)研發(fā)階段,語(yǔ)言專(zhuān)家的參與顯得至關(guān)重要。