CNET科技資訊網(wǎng) 8月22日 北京消息:拿到一部新 Android 手機后,裝個微信就能和朋友打字聊天、裝個微博就能向外發(fā)布信息,對于中國用戶來說這一切是很自然的事情。不過,在全球大部分國家,情況其實不是這樣的,大部分人打開手機以后沒有輸入法可用,它們的母語不能顯示在電子設(shè)備的屏幕上,甚至在互聯(lián)網(wǎng)世界里是不存在的。
當我們談論 Google 時,最先想到的可能是無人駕駛汽車、AlphaGo、Project Loon 這些激動人心的項目。其實,互聯(lián)網(wǎng)上一些最基礎(chǔ)的工作,比如讓盡可能多的語言顯示在電子屏幕上、讓每一個網(wǎng)民都能輸入自己的母語、保護文字多樣性生態(tài)這樣的事,Google一樣在默默地做。雖然聽起來這些事情可能不如無人駕駛汽車那樣高大上,但這些“小”項目對互聯(lián)網(wǎng)發(fā)展的意義卻一點也不比那些高大上的項目差。
圖片來自:WP
從上面這張圖中,我們可以看到互聯(lián)網(wǎng)世界各種語言內(nèi)容的數(shù)量和對應語言人口的數(shù)量其實是不太協(xié)調(diào)的,而 Google 的愿景則是希望讓全球用戶都有足夠的內(nèi)容。
讓全世界各種文字都能正常顯示在互聯(lián)網(wǎng)上
要想讓全球用戶都能在互聯(lián)網(wǎng)上找到自己的母語內(nèi)容,首先要解決的問題就是各種文字在電腦、手機等電子設(shè)備上顯示的問題。所以,從 2011 年開始,Google 內(nèi)部啟動了 Noto 字體項目,它的目標是希望所有的語言都能顯示并且有統(tǒng)一協(xié)調(diào)的觀感。
在項目啟動后的幾年中,Google 除了制作了拉丁文、孟加拉文、梵文、中文、日文、韓文這樣使用人數(shù)較多的語種外,還把一些已經(jīng)滅絕了的古文字也列進了項目計劃中。Google 字體工程經(jīng)理陳雍昇表示:雖然這些字體現(xiàn)在已經(jīng)沒有人類使用了,但出于保護文字多樣化生態(tài)的考慮,Google 仍然會為它們制作對應的字體。
除了盡力支持全球所有種類的語言,Google 在設(shè)計這套字體時還要考慮美感的問題?,F(xiàn)在,我們查看文檔經(jīng)常會遇到兩種或者多種文字混排的情況,如果這兩種文字不是按照統(tǒng)一的規(guī)格設(shè)計的,那么顯示出來的效果可能就會讓人覺得怪異,所以 Google 在設(shè)計這套字體時并不是針對每一種語言單獨設(shè)計,而是把全世界 100 多種語言放在一起統(tǒng)籌設(shè)計。按照 Google 字體產(chǎn)品經(jīng)理蕭湘曄說法,這樣做的好處就是用戶可以在視覺上得到一種跨語言的和諧度。
有好處自然也有壞處。雖然把 100 多種語言放在一起統(tǒng)籌設(shè)計能給用戶統(tǒng)一的視覺感受,但設(shè)計時的難度卻大大增加了。比如來說,不同的字體往往有不同的基線,如果讓它們基線都對齊那可能就亂套了;不同的語言也有不同的高度,如果一定要讓他們高度一樣,閱讀的體驗可能會非常糟糕;阿拉伯語言是從右到左的語言,它的排版自然和其他字體會有一些差別……
兼顧不同地區(qū)的書寫差異
不難看出,雖然字體設(shè)計這樣的事情聽上去不如無人駕駛汽車那樣讓人興奮,但 Google 為之付出的努力卻并不少?,F(xiàn)在,我們已經(jīng)很少在移動設(shè)備上看到亂碼、不能顯示的小方格這樣的情況了,Google 在其中自然功不可沒。
從 2011 年項目啟動以來,Noto 字體覆蓋的文字種類已經(jīng)超過 100 種、語言種類超過 500 種、字符數(shù)量超過 110,000 個,每天被上億人次使用。Google 正在搭建的這套互聯(lián)網(wǎng)語言系統(tǒng)直接影響著互聯(lián)網(wǎng)在發(fā)展中地區(qū)的發(fā)展。
讓每一位網(wǎng)民都能輸入自己的母語
雖然對中國用戶來說,各大互聯(lián)網(wǎng)公司幾乎都在爭著為這片市場的用戶開發(fā)中文輸入法,但對于生活在一些欠發(fā)達地區(qū)的網(wǎng)民來說,他們的情況往往是沒有母語輸入法可用,即便買了智能手機也不能和朋友們愉快的交流。
就拿印度這個人口眾多的大國來說,它的語言大約有幾百種,其中 29 種語言的使用人口超過一百萬。由于印度的有些母語太復雜,以至于有很多受過高等教育的人,他們會寫他們的母語,但是卻完全不知道怎么輸入。
對于 Google 來說,在解決了文字顯示問題之后,讓人們都能在移動設(shè)備上輸入自己的母語就成了一個新目標。Google 輸入法工程師楊帆表示,無論是 Google 在 Android 上的輸入法產(chǎn)品,還是在 iPhone 上的輸入法 GBoard,它們的長期目標都是支持各種各樣的語言。
現(xiàn)在,Google 的 Android 輸入法已經(jīng)可以支持 100 多種語言,產(chǎn)品經(jīng)理林林在向 PingWest 品玩介紹這款產(chǎn)品時表示:由于每種語言都有自己獨特的字母以及獨特的語法,所以支持這么多語言并不是一件容易事。
Google 輸入法鍵盤
舉例來說,馬拉雅拉姆語一共有 50 多個字母,而且每個字母使用的頻率還差不多,這也就意味著 Google 需要把 50 多個字母都擺在一個小小的手機屏幕上——這真是太難為設(shè)計師了。在開發(fā)印度語輸入法時,團隊成員沒有一個人懂印度語,但最終他們還是做出了支持了 11 種印度的主要語言的輸入法。此外,像阿拉伯語和希伯來語是從右往左寫的,這自然又要做一些有針對性的調(diào)整。
目前,Google 輸入法產(chǎn)品除了支持 100 多種語言外,還支持從大到小各種屏幕尺寸的設(shè)備。無論是在手機、平板,還是在巨大的 Android 電視上,你都可以用 Google 輸入法打出自己想要的文字。
對于 Google 來說,它投入大量資源開發(fā)的這些字體和輸入法除了能讓互聯(lián)網(wǎng)上的內(nèi)容更多樣化外,從商業(yè)的角度考量,也很契合 Google 吸納下一個 10 億用戶的戰(zhàn)略目標。Google 工程總監(jiān)鐘勝華告訴 PingWest 品玩,在 2005 年時 Google 就感受到了國際化的重要性,并希望旗下產(chǎn)品能在全世界任何國家、任何地區(qū)都有更好的體驗。
所以,當一些互聯(lián)網(wǎng)公司希望優(yōu)先照顧好特定國家、特定地區(qū)的特定用戶群時,Google 在產(chǎn)品方面的考量則是希望全球都能用。也正是由于這種產(chǎn)品思維,那些已經(jīng)滅絕的文字才能被正常顯示在互聯(lián)網(wǎng)上,那些欠發(fā)達地區(qū)的用戶才能在智能手機上輸入自己的母語,那些生活在世界角度經(jīng)常被忽略的人才能感受到互聯(lián)網(wǎng)的美妙。
好文章,需要你的鼓勵
這項研究提出了"高效探測"方法,解決了掩碼圖像建模AI難以有效評估的問題。通過創(chuàng)新的多查詢交叉注意力機制,該方法在減少90%參數(shù)的同時實現(xiàn)10倍速度提升,在七個基準測試中均超越傳統(tǒng)方法。研究還發(fā)現(xiàn)注意力質(zhì)量與分類性能的強相關(guān)性,生成可解釋的注意力圖譜,展現(xiàn)出優(yōu)異的跨域適應性。團隊承諾開源全部代碼,推動技術(shù)普及應用。
伊利諾伊大學研究團隊開發(fā)了CLAIMSPECT系統(tǒng),通過層次化分解復雜爭議、智能檢索相關(guān)文獻、多角度收集觀點的方法,將傳統(tǒng)的"真假"判斷轉(zhuǎn)變?yōu)槎嗑S度分析。該系統(tǒng)能夠自動構(gòu)建爭議話題的分析框架,識別不同觀點及其支撐證據(jù),為科學和政治爭議提供更全面客觀的分析,已在生物醫(yī)學和國際關(guān)系領(lǐng)域驗證有效性。
清華大學研究團隊首次提出情感認知融合網(wǎng)絡(ECFN),讓AI能像人類一樣理解和表達情感。該系統(tǒng)通過多層次情感處理架構(gòu),在情感識別準確率上比現(xiàn)有最佳系統(tǒng)提升32%,情感表達自然度提升45%。研究突破了傳統(tǒng)AI情感理解的局限,實現(xiàn)了跨模態(tài)情感融合、動態(tài)情感追蹤和個性化情感建模,為醫(yī)療、教育、客服等領(lǐng)域帶來革命性應用前景。
哈佛大學研究團隊通過創(chuàng)新的多智能體強化學習方法,讓AI在戰(zhàn)略游戲中學會復雜推理。研究發(fā)現(xiàn)AI通過游戲競爭能發(fā)展出類人思維能力,在邏輯推理、創(chuàng)造性解決問題等方面表現(xiàn)顯著提升。這項突破性成果為未來AI在醫(yī)療、教育、城市管理等領(lǐng)域的應用奠定基礎(chǔ),展現(xiàn)了通過模擬人類學習過程培養(yǎng)真正智能AI的新路徑。