本部要聞 來源:中譯語通日期:2025-09-04瀏覽次數:3845

2025年1月8日,美國司法部正式發(fā)布《防止受關注國家獲取美國敏感個人數據和政府相關數據的規(guī)定》,以落實美國前總統拜登于2024年2月28日簽發(fā)的第14117號行政令。該最終規(guī)則于2025年4月8日正式生效,限制或禁止美國敏感個人數據和政府數據流向中國、俄羅斯等六個受關注國家及其相關涵蓋主體。涉及的敏感數據包括六類:身份驗證信息、個人財務信息、個人健康數據、生物識別數據、人類基因組數據與精準地理位置信息。這意味著中美在科技與數據領域的脫鉤,正從“技術出口管制”進一步延伸至“個人數據防火墻”的建立。
2024年諾貝爾化學獎公布,一半共同授予德米斯·哈薩比斯和約翰·M·詹珀,“以表彰他們在蛋白質結構預測方面的成就”;另一半則授予大衛(wèi)·貝克,“以表彰在計算蛋白質設計方面的貢獻”?;邶嫶蟮纳镄畔祿?,在大模型與超級算力的支撐下,基因測序分析、基因突變識別、藥物特性預測、靶點和藥物發(fā)現、臨床前實驗設計、老藥新用等多個方向的研究獲得了極大提升。
美國衛(wèi)星公司MAXAR拍攝了0.3m精度的伊朗福爾多核設施圖像,該設施曾被美國B-2轟炸機打擊。此外,合成孔徑雷達還拍攝了伊朗納塔茲核設施的衛(wèi)星圖像。在伊以沖突中,美西方在高精度的衛(wèi)星數據支撐下實現戰(zhàn)場上的“單向透明”。Airbus公司也通過0.3m精度衛(wèi)星拍攝了位于智利的太空望遠鏡高清圖像。這些案例體現出,地理空間數據在國防軍事、國家安全、應急救援、智慧城市等諸多領域具有廣泛而重要的應用潛力。
根據新摩爾定律,互聯網數據總量每12個月翻一倍。而AI智能體的超級摩爾定律,在過去的六年中,其完成任務能力每7個月就會提升一倍。預計未來幾年,這一增速還將以更驚人的幅度持續(xù)提升。中譯語通就是一家每日與這些數據、相關機構、這些領域的用戶深度合作,并已連續(xù)四次被美國國防部列入“中國涉軍企業(yè)”的大數據和人工智能的企業(yè)。
2023年,美國防部發(fā)布《國防部數據戰(zhàn)略》,明確將數據定位為戰(zhàn)略資產,提出“使國防部成為以數據為中心的機構,通過智能計算資源快速、規(guī)?;厥褂脭祿垣@取作戰(zhàn)優(yōu)勢和提高效率”的發(fā)展愿景。2025年7月23日美國白宮發(fā)布《贏得競賽:美國人工智能行動計劃》,提出“美國將主導建設全球最大、質量最高的人工智能適用科學數據集,以加快構建美國人工智能的競爭優(yōu)勢”。 毋庸置疑,數據是戰(zhàn)略資產,是增強作戰(zhàn)準備度的戰(zhàn)略資產,是增強科技研發(fā)效率的戰(zhàn)略資產,是加速新藥創(chuàng)新的戰(zhàn)略資產。數據也是戰(zhàn)略武器。戰(zhàn)略數據已經成為大國博弈的新疆域,關乎國家安全。高質量的戰(zhàn)略數據資源,也將重構大國間人工智能競爭的格局。在此背景下,我們應高度重視并加快推進中國自主的戰(zhàn)略數據儲備體系建設。
在這種復雜的國際博弈環(huán)境下,我們主張建立認知主權下的全球數據戰(zhàn)略與安全新范式——即在尊重各國數據主權的前提下,通過自主、安全、深入地理解與運用跨域數據,構建決策智能新范式,以應對數據跨境流動、主權爭議和安全威脅等日益嚴峻的問題,真正使數據成為國家競爭力、企業(yè)價值與個體權益的核心要素。
2015年中譯語通就提出了“跨語言大數據”的概念。這也是該詞匯首次在互聯網上出現。歷經十余年發(fā)展,我們逐步構建起從數據采集到可視化分析,從數據分析到知識圖譜、從機器翻譯到語音識別、從計算機視覺到AIGC、從大模型再到智能體的全棧技術與數據能力。我們努力跨越語言障礙,探尋數據的關聯,在多模態(tài)數據中尋找復雜數據世界的邏輯。認識到,復雜數據問題本質上是治理問題,不是技術問題。
在數據能力方面,這些年來,我們已經形成了千億級高質量數據集、覆蓋全球200多個國家或地區(qū)、120種語言,超過200萬獨立數據源的數據挖掘能力?;诖竽P图夹g,我們還形成了將數據轉化為可理解、可推理的語義網絡的能力,發(fā)布了“格物”大模型。在昨日召開的“國防科技智能體應用研討會”閉門會議上,我們正式發(fā)布了GTCOM AIP平臺。該平臺是一個驅動大模型進化、賦能智能體協同的動態(tài)、可計算、可演化的認知系統和數據融合中臺,通過為人工智能賦予“知識”與“規(guī)則”,使其認知和行為變得可解釋、可控制和可互操作。
掌握數據主權的關鍵并非數據本身,而在于數據處理和應用的核心“大腦中樞”,即大模型驅動能力。當前,僅依賴數據訓練的大模型仍面臨幻覺頻出、認知層次淺、復雜任務執(zhí)行成功率低等問題。因此,我們需要一個新的認知層來為AI提供結構化的世界模型。具體可以總結為認知感知與萃取層、本體構建與演化層、智能體賦能與協同層三個層次。認知感知與萃取層負責精準抽取實體、關系、事件、動作等核心本體要素,破除語言與語義壁壘,并解析圖像、音頻、視頻中的多模態(tài)信息,將其對齊至統一的語義本體表征空間,從而產出源源不斷的、經過初步結構化的“認知流”。接收到“認知流”后,大模型動態(tài)驅動構建、維護和演化全局知識網絡,即本體,進而形成一個活的、持續(xù)成長的結構化世界模型,成為所有推理與交互的“事實來源”。最后,將本體作為“行動綱領”,為每個智能體注入本體知識,定義復雜的任務流程和智能體角色,自動觸發(fā)并協調多個智能體協同完成一項宏任務。我們努力地在“高質量數據集+本體+大模型+智能體”深度融合的基礎上,構建可信任、可解釋、可協同的智能體生態(tài)。
當我們擁有高質量的數據集和戰(zhàn)略數據儲備,建立起可信數據空間,有了高性能的智能體之后,我們仍需清醒地認識到:數據的價值在于流動。除了中文數據,還有規(guī)模更為龐大的全球數據。例如,在大宗貨品交易中計算大豆數據時,我們不僅需要中國的數據,還需要美國、巴西、澳大利亞等多國數據的支撐。當我們進行生命科學和藥物研究的時候,中國以外的數據我們還缺少很多很多。寶貴的高質量數據資源是中國的是世界的。我們應在“一帶一路”框架下積極推進“全球可信數據空間”建設,踐行認知主權新范式,不斷提升我國在全球數據治理中的話語權。
在全球數據戰(zhàn)略及安全新范式下,我們應在各參與方的數據源之上,共同構建一個關于“深度應用”的認知本體。該本體以跨語言、跨標準的方式,明確定義每一項關鍵里程碑指標,如同為使用不同語言的人士提供一個通用的“世界語”來討論專業(yè)問題。我們倡導“可信計算”而非簡單數據共享。例如,不同區(qū)域的模型算法可通過平臺以加密查詢的方式,“請教”位于其他區(qū)域的本體層。系統在本地執(zhí)行計算,將脫敏后的模型參數或統計結果安全地返回給請求的系統。整個過程確保原始數據不出域,實現“可用不可見”,完全符合數據主權的規(guī)定。我們推行“智能治理”而非人工標注。所有數據交互行為均被本體自動記錄,形成不可篡改的數據血緣。監(jiān)管機構可隨時審計,確保每一次數據訪問都符合預設治理規(guī)則。這各機制為建立跨國間的監(jiān)管互信提供了堅實的技術基礎。
我們倡議在“認知主權”與“全球數據信任之網”的理念下,共同建設數據信任生態(tài)的發(fā)展愿景。在“一帶一路”框架下,我們愿以“GTCOM AIP”的能力為基礎,與全球的開發(fā)者、標準化組織及企業(yè)開展合作,共同定義并豐富各個行業(yè)的“認知本體”。從國防工業(yè)到金融風控,從供應鏈韌性到智慧城市,從新藥研發(fā)到地理空間研究,我們通過編織一張張垂直領域的“信任之網”,應對全球性挑戰(zhàn),為全球數字經濟發(fā)展貢獻中國智慧與中國技術。