av天堂久久天堂色综合,最近中文字幕mv免费高清在线,在线a级毛片免费视频,av动漫,中文字幕精品亚洲无线码一区

<dl id="kq5vr"><em id="kq5vr"></em></dl>

首頁
對(duì)話創(chuàng)新
對(duì)話科技行者
機(jī)器人新紀(jì)元
AI論文解讀
聯(lián)系我們

微信掃一掃，關(guān)注公眾號(hào)

科技行者
算力行者

見證連接與計(jì)算的「力量」

沙特Misraj團(tuán)隊(duì)打造阿拉伯文檔"火眼金睛"：讓機(jī)器讀懂天書般的阿拉伯文字

人工智能光學(xué)字符識(shí)別多模態(tài)模型

沙特Misraj團(tuán)隊(duì)打造阿拉伯文檔"火眼金睛"：讓機(jī)器讀懂天書般的阿拉伯文字

作者：科技行者

2025-10-14 12:09

分享至：

沙特Misraj團(tuán)隊(duì)開發(fā)出專門識(shí)別阿拉伯文檔的AI模型Baseer，解決了阿拉伯文從右到左書寫、字母變形、變音符號(hào)復(fù)雜等技術(shù)難題。該模型在50萬對(duì)圖像-文本數(shù)據(jù)上訓(xùn)練，詞錯(cuò)誤率僅0.25，顯著超越谷歌、微軟等產(chǎn)品。研究團(tuán)隊(duì)還創(chuàng)建了高質(zhì)量評(píng)測(cè)基準(zhǔn)，為全球4億阿拉伯語使用者的數(shù)字化需求提供了重要技術(shù)支撐。

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

2025-10-14 12:09 ? 科技行者

在這個(gè)全球化的時(shí)代，當(dāng)我們輕易地用手機(jī)掃描中文、英文文檔時(shí)，卻很少想到世界上還有數(shù)億人使用著一種讓機(jī)器"頭疼不已"的文字——阿拉伯文。這項(xiàng)由沙特阿拉伯Khobar地區(qū)Misraj團(tuán)隊(duì)的七位研究人員Khalil Hennara、Muhammad Hreden、Mohamed Motasim Hamed、Ahmad Bastati、Zeina Aldallal、Sara Chrouf和Safwan AlModhayan共同完成的突破性研究，發(fā)表于2025年9月的arXiv預(yù)印本平臺(tái)，論文編號(hào)為arXiv:2509.18174v1。感興趣的讀者可以通過這個(gè)編號(hào)查詢完整論文。他們開發(fā)的模型名叫"Baseer"，在阿拉伯語中意為"洞察者"或"能清楚看見的人"，正如其名，這個(gè)人工智能模型能夠像有經(jīng)驗(yàn)的阿拉伯文學(xué)者一樣，準(zhǔn)確地"看懂"各種復(fù)雜的阿拉伯文檔。

阿拉伯文對(duì)機(jī)器來說究竟有多困難呢？我們可以把它想象成一種"變形文字"。與中文方塊字或英文字母不同，阿拉伯文就像書法中的草書，每個(gè)字母都會(huì)根據(jù)它在詞語中的位置發(fā)生形狀變化。更有挑戰(zhàn)性的是，阿拉伯文從右向左書寫，還經(jīng)常在字母上方或下方添加小點(diǎn)和符號(hào)（稱為變音符號(hào)），這些符號(hào)雖然小，但對(duì)意思的影響卻很大。此外，阿拉伯世界有著豐富多樣的字體風(fēng)格，從古典的書法體到現(xiàn)代的印刷體，每一種都有其獨(dú)特的視覺特征。這就好比讓一個(gè)只會(huì)認(rèn)識(shí)印刷體漢字的人去識(shí)別各種書法作品一樣困難。

正是這些特殊性質(zhì)，讓傳統(tǒng)的文字識(shí)別技術(shù)在處理阿拉伯文時(shí)常常"翻車"。研究團(tuán)隊(duì)在測(cè)試現(xiàn)有的先進(jìn)文字識(shí)別系統(tǒng)時(shí)發(fā)現(xiàn)，即使是在英文文檔上表現(xiàn)優(yōu)異的商業(yè)產(chǎn)品，在面對(duì)阿拉伯文檔時(shí)錯(cuò)誤率也會(huì)急劇上升。這種情況就像一個(gè)精通多國語言的翻譯家，遇到一種從未學(xué)過的文字時(shí)也會(huì)束手無策。

為了解決這個(gè)難題，研究團(tuán)隊(duì)采用了一種巧妙的策略。他們沒有從零開始訓(xùn)練模型，而是選擇了已經(jīng)具備強(qiáng)大視覺理解能力的Qwen2.5-VL-3B-Instruct模型作為基礎(chǔ)，然后專門為阿拉伯文檔處理進(jìn)行針對(duì)性改造。這就像是請(qǐng)一位已經(jīng)精通圖像識(shí)別的專家，再專門培訓(xùn)他識(shí)別阿拉伯文字的技能。

在訓(xùn)練數(shù)據(jù)的準(zhǔn)備上，研究團(tuán)隊(duì)展現(xiàn)出了令人印象深刻的細(xì)致程度。他們構(gòu)建了一個(gè)包含50萬對(duì)圖像-文本樣本的龐大數(shù)據(jù)集，其中30萬對(duì)來自合成數(shù)據(jù)，20萬對(duì)來自真實(shí)世界的文檔。合成數(shù)據(jù)的制作過程就像一個(gè)精密的"文檔工廠"：首先從互聯(lián)網(wǎng)上收集高質(zhì)量的阿拉伯文markdown格式文檔，然后通過嚴(yán)格的質(zhì)量篩選，剔除那些語言不通順或表格缺失信息過多的文檔。接下來，系統(tǒng)將這些文檔轉(zhuǎn)換成HTML格式，再生成Word文檔，最后渲染成PDF并轉(zhuǎn)為圖像。

為了讓模型能夠應(yīng)對(duì)真實(shí)世界的各種情況，研究團(tuán)隊(duì)在合成數(shù)據(jù)中加入了令人驚嘆的多樣性。他們使用了39種不同的阿拉伯字體，涵蓋了從A4到A3等多種頁面尺寸，還包括橫向和縱向布局。背景顏色方面，75%使用淺色系，25%使用深色系，文本顏色也有9種淺色和16種深色的搭配。頁面布局更是考慮周全：65%采用傳統(tǒng)的右對(duì)齊（符合阿拉伯文從右到左的閱讀習(xí)慣），5%左對(duì)齊，30%居中對(duì)齊。欄目設(shè)置上，75%為單欄，20%為雙欄，5%為三欄布局。

更為精妙的是，研究團(tuán)隊(duì)還對(duì)15萬張圖像應(yīng)用了29種不同的變換效果，模擬真實(shí)世界中文檔可能遇到的各種情況。這些變換被分為八大類：印刷前調(diào)整（如添加水?。⒂∷C(jī)械缺陷（如臟污印跡）、人工標(biāo)記（如手寫批注）、紙張老化效果（如折疊、發(fā)黃）、數(shù)字噪音（如椒鹽噪音）、幾何調(diào)整（如透視扭曲）、光照調(diào)整（如低光條件）、以及模糊效果（如運(yùn)動(dòng)模糊）。這樣做的目的是讓模型能夠像一個(gè)經(jīng)驗(yàn)豐富的圖書管理員一樣，即使面對(duì)破損、污跡或光線不佳的古老文檔，也能準(zhǔn)確識(shí)別其中的內(nèi)容。

真實(shí)世界數(shù)據(jù)的收集同樣充滿智慧。研究團(tuán)隊(duì)從書籍、雜志、教育文檔和學(xué)術(shù)論文中精選了具有代表性的頁面，這些頁面涵蓋了從簡單的純文本到復(fù)雜的多欄布局、表格、圖片等各種情況。為了確保質(zhì)量，他們使用先進(jìn)的視覺語言模型生成初始標(biāo)注，然后由人類專家進(jìn)行細(xì)致的人工驗(yàn)證，確保每一個(gè)標(biāo)注都準(zhǔn)確無誤。

在模型訓(xùn)練方面，研究團(tuán)隊(duì)經(jīng)過反復(fù)實(shí)驗(yàn)，發(fā)現(xiàn)了一個(gè)關(guān)鍵洞察：只訓(xùn)練語言解碼器部分，而保持視覺編碼器凍結(jié)不變，能夠獲得最佳效果。這種策略的智慧在于，它保留了預(yù)訓(xùn)練模型強(qiáng)大的視覺理解能力，同時(shí)讓語言部分專門適應(yīng)阿拉伯文的特殊性質(zhì)。這就像是讓一個(gè)已經(jīng)擅長看圖的人，專門學(xué)習(xí)如何用阿拉伯語描述所看到的內(nèi)容，而不需要重新訓(xùn)練他的視覺能力。

為了評(píng)估模型的性能，研究團(tuán)隊(duì)還創(chuàng)建了一個(gè)名為"Misraj-DocOCR"的高質(zhì)量評(píng)測(cè)基準(zhǔn)。這個(gè)基準(zhǔn)包含400個(gè)精心挑選的高質(zhì)量圖像，每一個(gè)都經(jīng)過人類專家的嚴(yán)格驗(yàn)證。與此同時(shí)，他們還發(fā)現(xiàn)并修正了現(xiàn)有KITAB-bench數(shù)據(jù)集中的許多錯(cuò)誤，這些錯(cuò)誤包括幻覺文本（如突然出現(xiàn)英文句子"You're right - let me write it exactly as it appears in the image, maintaining the right-to-left direction:"）、缺失的頁碼、以及小字體文本的遺漏等問題。

實(shí)驗(yàn)結(jié)果令人振奮。在Misraj-DocOCR基準(zhǔn)測(cè)試中，Baseer取得了0.25的詞錯(cuò)誤率（WER），顯著超越了現(xiàn)有的開源和商業(yè)解決方案。相比之下，谷歌的Gemini-2.5-pro獲得了0.37的WER，微軟Azure AI文檔智能服務(wù)為0.44，而其他開源模型的WER則在0.5到1.4之間。更重要的是，Baseer在結(jié)構(gòu)理解方面也表現(xiàn)出色，在TEDS（樹編輯距離相似性）和MARS（布局感知對(duì)齊）等衡量文檔結(jié)構(gòu)保持能力的指標(biāo)上都取得了最佳成績。

這些成果的意義遠(yuǎn)超技術(shù)本身。對(duì)于全球4億多阿拉伯語使用者來說，Baseer的出現(xiàn)意味著他們終于有了一個(gè)能夠準(zhǔn)確理解自己文字的智能助手。在數(shù)字化浪潮中，這將幫助阿拉伯世界更好地保存和傳承其豐富的文化遺產(chǎn)，同時(shí)促進(jìn)教育、商業(yè)和政府部門的數(shù)字化轉(zhuǎn)型。

研究團(tuán)隊(duì)的工作不僅在技術(shù)層面取得了突破，更為其他語言的文檔理解研究提供了寶貴的經(jīng)驗(yàn)。他們證明了通過精心設(shè)計(jì)的數(shù)據(jù)構(gòu)建策略和訓(xùn)練方法，可以有效地將通用的多模態(tài)大語言模型適配到特定語言和領(lǐng)域，這為處理其他具有復(fù)雜文字系統(tǒng)的語言（如印地語、泰語、阿姆哈拉語等）提供了可借鑒的路徑。

此外，研究團(tuán)隊(duì)還展現(xiàn)出了開放科學(xué)的精神。他們將修正后的KITAB-bench數(shù)據(jù)集和新創(chuàng)建的Misraj-DocOCR基準(zhǔn)都公開發(fā)布，為學(xué)術(shù)界提供了寶貴的研究資源。這種做法不僅推動(dòng)了整個(gè)領(lǐng)域的發(fā)展，也體現(xiàn)了科學(xué)研究中協(xié)作共享的重要價(jià)值。

從技術(shù)創(chuàng)新的角度來看，Baseer的成功還揭示了幾個(gè)重要趨勢(shì)。首先是大規(guī)模預(yù)訓(xùn)練模型的強(qiáng)大適應(yīng)性，通過適當(dāng)?shù)奈⒄{(diào)策略，這些通用模型能夠在特定領(lǐng)域取得專業(yè)級(jí)的表現(xiàn)。其次是數(shù)據(jù)質(zhì)量和多樣性的關(guān)鍵作用，精心構(gòu)建的訓(xùn)練數(shù)據(jù)能夠顯著提升模型在真實(shí)場(chǎng)景中的表現(xiàn)。最后是評(píng)估基準(zhǔn)的重要性，高質(zhì)量的評(píng)測(cè)標(biāo)準(zhǔn)對(duì)于推動(dòng)技術(shù)進(jìn)步具有不可替代的作用。

展望未來，Baseer的成功為阿拉伯文檔處理技術(shù)開啟了新的篇章。隨著模型的不斷完善和應(yīng)用場(chǎng)景的擴(kuò)展，我們可以期待看到更多基于這項(xiàng)技術(shù)的實(shí)際應(yīng)用，從智能翻譯工具到歷史文獻(xiàn)數(shù)字化項(xiàng)目，從教育輔助系統(tǒng)到商業(yè)文檔處理平臺(tái)。這不僅將提升阿拉伯語使用者的數(shù)字化體驗(yàn)，也將為全球文化多樣性的保護(hù)和傳承貢獻(xiàn)重要力量。

說到底，Baseer的故事告訴我們，技術(shù)進(jìn)步的真正意義不在于炫目的數(shù)字指標(biāo)，而在于它能否真正服務(wù)于人類的實(shí)際需求。當(dāng)一個(gè)阿拉伯學(xué)者能夠輕松地將手寫筆記轉(zhuǎn)換為數(shù)字文本，當(dāng)一個(gè)歷史研究者能夠快速檢索古老文獻(xiàn)中的信息，當(dāng)一個(gè)學(xué)生能夠更便捷地獲取阿拉伯語學(xué)習(xí)資料時(shí)，這項(xiàng)技術(shù)的價(jià)值就得到了最好的體現(xiàn)。在這個(gè)日益數(shù)字化的世界里，確保每一種語言、每一種文化都能在技術(shù)進(jìn)步中獲得平等的機(jī)會(huì)，這正是像Baseer這樣的研究所承載的深遠(yuǎn)意義。

Q&A

Q1：Baseer模型是什么？它主要解決什么問題？

A：Baseer是沙特Misraj團(tuán)隊(duì)開發(fā)的專門用于阿拉伯文檔識(shí)別的AI模型。它主要解決阿拉伯文字識(shí)別困難的問題，因?yàn)榘⒗膹挠业阶髸鴮?、字母?huì)變形、有復(fù)雜的變音符號(hào)，傳統(tǒng)的文字識(shí)別技術(shù)在處理時(shí)錯(cuò)誤率很高。

Q2：Baseer的識(shí)別準(zhǔn)確率有多高？比其他產(chǎn)品強(qiáng)多少？

A：Baseer在測(cè)試中達(dá)到了0.25的詞錯(cuò)誤率，這意味著每100個(gè)詞中只有0.25個(gè)識(shí)別錯(cuò)誤。相比之下，谷歌Gemini-2.5-pro的錯(cuò)誤率是0.37，微軟Azure是0.44，其他開源模型錯(cuò)誤率在0.5-1.4之間，Baseer明顯領(lǐng)先。

Q3：普通用戶能使用Baseer進(jìn)行阿拉伯文檔識(shí)別嗎？

A：目前研究團(tuán)隊(duì)已經(jīng)開源了相關(guān)技術(shù)和數(shù)據(jù)集，但Baseer還主要是一個(gè)研究階段的模型。普通用戶可能需要等待基于這項(xiàng)技術(shù)開發(fā)的商業(yè)應(yīng)用產(chǎn)品，或者有技術(shù)背景的用戶可以通過學(xué)術(shù)渠道獲取和使用這個(gè)模型。

人工智能光學(xué)字符識(shí)別多模態(tài)模型

分享至

0贊

好文章，需要你的鼓勵(lì)

推薦文章

人工智能
動(dòng)態(tài)專家搜索
推理優(yōu)化

2025-10-22 13:24

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)團(tuán)隊(duì)提出動(dòng)態(tài)專家搜索方法，讓AI能根據(jù)不同問題靈活調(diào)整內(nèi)部專家配置。該方法在數(shù)學(xué)、編程等任務(wù)上顯著提升推理準(zhǔn)確率，且不增加計(jì)算成本。研究發(fā)現(xiàn)不同類型問題偏愛不同專家配置，為AI推理優(yōu)化開辟新路徑。
人工智能
強(qiáng)化學(xué)習(xí)
模型優(yōu)化

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)研究團(tuán)隊(duì)提出SIRI方法，通過"壓縮-擴(kuò)張"交替訓(xùn)練策略，成功解決了大型推理模型"話多且準(zhǔn)確率低"的問題。實(shí)驗(yàn)顯示，該方法在數(shù)學(xué)競賽題上將模型準(zhǔn)確率提升43.2%的同時(shí)，輸出長度減少46.9%，真正實(shí)現(xiàn)了效率與性能的雙重優(yōu)化，為AI模型訓(xùn)練提供了新思路。
人工智能
視頻生成
實(shí)時(shí)流媒體

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)與騰訊聯(lián)合研究團(tuán)隊(duì)開發(fā)出Rolling Forcing技術(shù)，實(shí)現(xiàn)AI視頻實(shí)時(shí)流式生成的重大突破。該技術(shù)通過滾動(dòng)窗口聯(lián)合去噪、注意力錨點(diǎn)機(jī)制和高效訓(xùn)練算法三項(xiàng)創(chuàng)新，解決了長視頻生成中的錯(cuò)誤累積問題，可在單GPU上以16fps速度生成多分鐘高質(zhì)量視頻，延遲僅0.76秒，質(zhì)量漂移指標(biāo)從傳統(tǒng)方法的1.66降至0.01，為交互式媒體和內(nèi)容創(chuàng)作開辟新可能。
人工智能
幾何學(xué)習(xí)
空間智能

2025-10-22 10:14

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)研究團(tuán)隊(duì)發(fā)現(xiàn)，通過讓AI模型學(xué)習(xí)解決幾何問題，能夠顯著提升其空間理解能力。他們構(gòu)建了包含約30000個(gè)幾何題目的Euclid30K數(shù)據(jù)集，使用強(qiáng)化學(xué)習(xí)方法訓(xùn)練多個(gè)AI模型。實(shí)驗(yàn)結(jié)果顯示，幾何訓(xùn)練在四個(gè)空間智能測(cè)試基準(zhǔn)上都帶來顯著提升，其中最佳模型達(dá)到49.6%準(zhǔn)確率，超越此前最好成績。這項(xiàng)研究揭示了基礎(chǔ)幾何知識(shí)對(duì)培養(yǎng)AI空間智能的重要價(jià)值。

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

浙江大學(xué)突破：讓AI專家團(tuán)隊(duì)在考試時(shí)"動(dòng)態(tài)組隊(duì)"，推理能力飆升

2025-10-22 13:24

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

清華大學(xué)新突破：AI模型居然能學(xué)會(huì)"少說話多做事"，推理效率提升一倍還更準(zhǔn)確

2025-10-22 13:24

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

南洋理工大學(xué)突破性研究：用AI實(shí)現(xiàn)多分鐘視頻實(shí)時(shí)流式生成，就像看電視直播一樣

2025-10-22 13:24

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

華中科技大學(xué)團(tuán)隊(duì)突破性發(fā)現(xiàn)：讓AI像幾何學(xué)家一樣思考，竟能大幅提升空間理解能力

2025-10-22 10:14

----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-

友情鏈接

至頂網(wǎng)
管理現(xiàn)代化
和訊IT
TechWeb
第三媒體
速途網(wǎng)
51CTO傳媒
投資界
科技訊
智者新時(shí)代

京ICP證15039648號(hào) 京ICP備15039648號(hào)-9 京公網(wǎng)安備 11010802021500號(hào)

北京第二十六維信息技術(shù)有限公司（至頂網(wǎng)）版權(quán)所有。 | 聯(lián)絡(luò)我們

舉報(bào)電話：010-62641205　涉未成年人舉報(bào)專線：010-62641208 舉報(bào)郵箱: jubao@zhiding.cn 　網(wǎng)上有害信息舉報(bào)專區(qū)：https://www.12377.cn