全國(guó)服務(wù)熱線:400-080-4418
“敲入mantiandaxue,出來(lái)的正是‘漫天大雪’,為什么不是‘滿天大雪’,或者‘漫天大學(xué)’?”網(wǎng)民小姚在網(wǎng)上提出了這樣的問(wèn)題。(上海企業(yè)網(wǎng)站建設(shè))
小姚不知道的是,輸入法如此“善解人意”的背后,決定性因素是一種名為“語(yǔ)料”的東西。日前,搜狗輸入法宣布,其語(yǔ)料庫(kù)容量已超1TB,是其他中文輸入法的數(shù)十倍,對(duì)于韓文、日文等語(yǔ)系,這更是“天文數(shù)字”。
“享受輸入”之謎(上海網(wǎng)絡(luò)優(yōu)化)
小姚是搜狗輸入法的忠實(shí)粉絲,“平時(shí)用習(xí)慣了倒沒(méi)覺(jué)得什么,一次重裝系統(tǒng)無(wú)法上網(wǎng),只用系統(tǒng)自帶的智能ABC,那種感覺(jué)太痛苦了,一夜回到了解放前!
在中國(guó)上網(wǎng)的計(jì)算機(jī)中,有80%安裝了搜狗,他們與小姚一樣,已經(jīng)習(xí)慣了“享受輸入”。(上海網(wǎng)站建設(shè))
“語(yǔ)料”正是重要的幕后功臣之一。據(jù)搜狗輸入法工程師介紹,很多人都知道“詞庫(kù)”,詞庫(kù)越大,則輸入法越聰明,不過(guò)“語(yǔ)料庫(kù)”的重要性有過(guò)之而無(wú)不及,它決定了詞庫(kù)中詞匯的組合,并且決定了哪一個(gè)詞被排在輸入結(jié)果的前面。
一般來(lái)說(shuō),語(yǔ)料庫(kù)越大,則輸入效率越高。據(jù)統(tǒng)計(jì),目前多數(shù)輸入法語(yǔ)料庫(kù)大約在40GB~150GB,搜狗輸入法的1TB,即約1000GB,多出數(shù)十倍。如此龐大的信息量相當(dāng)于200億本《新華字典》收錄的字?jǐn)?shù)。
搜狗的自我挑戰(zhàn)(上海做網(wǎng)站)
雖然已遠(yuǎn)比對(duì)手“聰明”,但搜狗還在“自己跟自己較勁”。按照搜狗語(yǔ)料庫(kù)目前的容量,它的輸入準(zhǔn)確率可以接近90%,而其他輸入法只有50%~80%,但當(dāng)這個(gè)容量再擴(kuò)大,它對(duì)輸入效率的提升將越來(lái)越難。
對(duì)此,搜狗做了兩方面的工作,力圖讓語(yǔ)料庫(kù)爆炸增長(zhǎng):其一,發(fā)揮“人肉”的優(yōu)勢(shì),讓用戶貢獻(xiàn);其二,通過(guò)搜索引擎抓取互聯(lián)網(wǎng)上的詞匯。
顯然,圍繞“語(yǔ)料”,搜狗已率先找到了一條可讓其無(wú)限、爆炸增長(zhǎng)的路,這也是過(guò)去幾年里,它能引領(lǐng)輸入體驗(yàn)潮流,不斷推高文字錄入效率水準(zhǔn)的原因。
中文輸入的未來(lái)(上海網(wǎng)站推廣)
回首輸入法的發(fā)展歷程,它已從過(guò)去的“單機(jī)軟件”變成了今天來(lái)自云端的“互聯(lián)網(wǎng)服務(wù)”,集搜索引擎、大規(guī)模數(shù)據(jù)處理、自然語(yǔ)言處理、大規(guī)模網(wǎng)絡(luò)并發(fā)處理等多項(xiàng)技術(shù)于一身。
業(yè)內(nèi)人士指出,搜狗對(duì)文字輸入的大貢獻(xiàn)在于,它既給出了輸入法的宏觀方向,又形成了自己體系化的方法論。(企業(yè)網(wǎng)站建設(shè))
Copyright 2008 © 上海網(wǎng)至普信息科技有限公司 All rights reserved. 滬ICP備11006570號(hào)-13
滬公網(wǎng)安備 31011402007386號(hào)