2025中國國際數字經濟博覽會在石家莊國際會展中心開幕??平芸萍级麻L于洋受邀出席2025首席數據官峰會論壇,并作主題為《人工智能產業決勝與 Data&AI 數據基礎設施建設》演講。 


以下內容根據科杰科技董事長于洋現場演講整理。


 

科杰科技董事長于洋 


一、數據是人工智能產業發展的關鍵,數據的關鍵是高質量數據集


在大國競爭中,人工智能產業是核心競爭領域,其由算力、算法、數據三大要素構成。目前我國在算力領域已有競爭方案與大規模計算方式,算法領域已實現混合專家突破,而數據作為人工智能產業決勝的重要因素,是實現彎道超車的關鍵。 


人工智能的發展,是算力、算法、數據三大核心要素協同驅動的結果,三者缺一不可,唯有形成合力才能真正讓人工智能落地應用。 


算力領域,中國憑借前瞻性布局,大力推進大規模計算中心建設,從超算中心到智算中心,構建起了具有競爭策略的算力體系。算法層面,國內科研與產業界也實現了諸多突破性進展。混合專家模型(Mixture of Experts, MoE)、多頭潛在注意力模型(Multi-Head Latent Attention,MLA)等創新成果不斷涌現。 


當前,國內外數據應用共同面臨挑戰:一是海量數據的存儲、傳輸與計算需投入巨額硬件及算力資源,直接推高了技術落地的成本;二是文本、圖像、音頻等多模態數據的格式差異大,缺乏統一的整合標準,導致跨類型數據融合難度極高;三是現有數據平臺效率低下,數據清洗效率低、標注周期長,直接拖慢模型訓練進度,影響應用落地時效。在此背景下,部分企業對 AI 的應用預期過高,期望其解決全場景問題,但低質量數據往往導致模型輸出效果未達預期,最終項目被迫擱置。 


數據的規模和質量直接決定了人工智能技術所能達到的高度和深度。數據決定模型的認知邊界,模型的學習范圍依賴于數據覆蓋的領域,數據越廣泛,模型對不同場景、問題的認知能力越強;數據質量影響輸出的可靠性,低質量數據會導致模型訓練出現偏差,輸出結果的準確性和可信度大幅下降;數據多樣性提升模型魯棒性,涵蓋多場景、多維度、多來源的數據能幫助模型應對復雜多變的實際應用環境;大規模優質數據支撐模型能力增長,充足的數據量能讓模型不斷優化參數、完善邏輯,實現能力迭代升級;高質量數據更是商業落地的根基,能確保模型在實際業務場景中有效發揮作用,推動人工智能產業價值落地。 


正如國家數據局局長劉烈宏所指出的,數據集的質效提升是人工智能賦能實體經濟的“催化劑”。在算法和算力逐漸趨同的背景下,高質量數據集已成為塑造AI模型核心競爭力的關鍵護城河。 


因此,若想在人工智能產業發展競爭中勝出,下一步需聚焦數據競爭力的構建。 


二、高質量數據集需要一套數據基礎設施承載


人工智能的發展高度與深度,直接取決于數據這一新型生產要素的規模與質量,破解高質量數據供給不足的瓶頸,是人工智能落地見效的首要前提。但高質量數據集并非憑空產生,也不是一勞永逸的成果,而是需經過持續匯聚、加工、治理的動態過程,只有依托數據基礎設施平臺,才能穩定輸出鮮活的數據能力,實現與基礎模型在各產業場景的深度融合。 


高質量數據集是經過采集、加工等一系列數據處理操作后,可直接用于開發和訓練人工智能模型,并能有效提升模型性能的數據集合。它通過系統性篩選、清洗、標注、增強合成、質量評估等環節,形成標準化的數據產品,具備格式統一、質量可控、場景適配性強等特點。從本質上來說,高質量數據集與普通數據的區別在于“可用性”與“效能”方面存在代際差。 


需要明確的是,高質量數據并非憑空產生,也不是能夠一勞永逸獲取的成果。高質量數據集的構建是一個動態的過程,它必須以持續、穩定、鮮活的數據供給作為基礎。高質量數據建設像巷戰,不同企業、不同產業、不同行業具有各自獨特的情況,無法通過單一舉措一次性解決所有問題。因此,需要針對每個企業、每個產業、每個行業的具體情況,逐一梳理數據資源,搭建起科學合理的治理體系,最終形成高質量的企業級、產業級、行業級數據集。 


與此同時,高質量數據集的建設離不開一套專業化的數據平臺的支撐,這個平臺要能夠貫通數據采集、匯聚、清洗、標注、治理至應用的數據全生命周期,既精準承接高質量數據集建設訴求,更以全鏈路技術賦能,確保數據供給的穩定輸出與高可用屬性。

 


三、Data&AI 一體化平臺是數據基礎設施的核心引擎


AI 時代對數據平臺提出了全新要求:向下需結合 GPU 進行新的算力優化,向上需面向各終端場景進行模型調優、開展規?;?Agent 開發以解決實際問題。因此,AI 工程、AI Infra 需與數據工程深度融合,構建 Data&AI 一體化平臺能力 —— 這是數據基礎設施的核心。 


數據基礎設施是以釋放數據要素價值為目標的新型基礎設施,整合硬件、軟件及標準規范,從宏觀視角看,數據基礎設施是從數據要素價值釋放角度出發,面向社會提供數據采集、匯聚、傳輸、加工、流通、利用、運營、安全服務的新型基礎設施,其中Data&AI一體化平臺作為技術底座,數據確權與價值分配機制構建權益框架,數據流通連接器實現跨域數據交互,以及支持數據產品與應用交易的數據商城體系,是集成硬件、軟件、模型算法、標準規范、機制設計等在內的有機整體,Data&AI 一體化平臺作為基礎軟件平臺,是數據基礎設施的核心引擎。 


從企業角度來看,Data&AI一體化平臺核心是打通數據存儲、治理、計算與 AI 模型開發全鏈路,實現 “Data for AI” 和 “AI for Data” 雙向賦能。它是傳統大數據平臺的升級形態,通過 AI 原生架構重構數據處理范式,成為人工智能時代的 “核心生產工具”。


在人工智能時代,對數據平臺有全新要求,向上銜接基礎模型,為場景化的模型調優與創新應用落地提供有力支撐;向下承接算力資源,充分釋放算力優勢,實現計算資源的優化調度與高效利用。 


大至國家城市級可信數據空間建設,小至如金融風控、智能制造、醫療健康、零售等應用場景,實現AI應用全方位落地讓技術精準適配場景,讓數據在采集、清洗、標注環節(Data Infra)即可適配 AI 訓練、模型開發(AI Infra)無縫對接,整合AI與數據基礎設施能力,推動AI在各業務場景實現 “最后一公里” 的規?;涞兀Ξa業智能化升級。 


四、數據基礎建設系統化方法體系:“方法論+技術+產品+實踐”


數據基礎設施建設并非單純的技術或軟硬件工作,而是需要 “方法論+技術+產品+實踐” 的系統化支撐,以實現組織性、規模性協同。在方法論上,科杰科技基于多年實踐,形成了 “數據治理與數據工程深度融合”“集中式管理、分散式賦能” 的混合數據智能落地體系;在技術與產品上,以 Data&AI 一體化平臺為核心載體;在實踐中,已覆蓋制造、工業、能源、金融、零售等領域 —— 例如在智能制造領域,將工業知識數字化,讓 “數據/軟件” 成為智能制造的“大腦”,為制造強國建設筑牢核心基石。 


Data&AI 一體化平臺作為提供核心技術能力支撐的基礎平臺,其意義遠不止于解決單點技術問題,更在于為大型組織與企業未來 5 - 10 年持續推進的數智化轉型提供核心支撐能力——數智能力。人工智能時代,數智能力已成為與供應鏈能力、財務能力、人力資源能力并列的關鍵企業能力,是企業發展不可或缺的核心能力。 


科杰科技深耕Data&AI 一體化領域逾六載,打造面向AI-Native的 Data&AI 一體化平臺 KeenData Lakehouse,平臺融合“AI-Native”設計理念,自研Al-in-Lakehouse智能驅動型架構,打通數據工程→模型訓練/推理→Agent工廠→智能應用全鏈路,以“可信+智能+系統”的平臺能力推進“Data&AI ”新基建,支撐大型組織從數據驅動邁向智能驅動。平臺突破傳統數據與AI割裂的架構,將湖倉一體引擎、OLAP數據治理和AI技術統一,形成精簡高效的All-in-One技術解決方案。自研多模態計算引擎在單流水線中完成數據清洗至結果分析,數倍提升GPU推理吞吐,結合 KMI 推理加速、模型量化及Unity Catalog實現跨模態智能治理。 


強大的技術實力與產品硬實力,科杰科技贏得行業廣泛認可:不僅斬獲省部級科學進步一等獎,連續三年蟬聯中國大數據私有化平臺 TOP5、中國湖倉一體平臺軟件市場占有率NO.1,更獲評國家級專精特新重點“小巨人”企業、人民網 “匠心飛躍獎”、工信部軟件產品可信卓越級認證、金融行業金鼎獎等多項重磅榮譽,同時躋身Gartner、IDC 等國際權威機構數據基礎平臺全球推薦廠商行列,成為 Data&AI 一體化領域的標桿企業。 


依托方法論+技術+產品+實踐支撐,科杰科技形成服務生產制造、工業、能源、金融、零售等 20 + 行業近 200 個大型組織,為其量身打造適配業務需求的數據基礎設施與數據底座,落地效果顯著。同時,科杰積極響應國家數字中國、數據要素等相關政策,深度參與政府側數據基礎設施及可信數據空間規劃建設,承接國內多個關鍵城市可信數據空間及先行先行示范區項目,讓核心能力在政企雙場景中全面落地,持續拓寬數據價值釋放路徑。 


能源行業:中國石化基于 Data&AI一體化平臺KeenData Lakehouse,構建了覆蓋9大核心業務、數據總量達1.2PB的數據資源池,制定數據標準3727項,提供數據服務3093個。通過AI賦能,經營分析報表查看效率從1周大幅縮短至4小時,準確率提升,并成功構建勘探垂類大模型所需的高質量數據集,推動業務智能化創新。 


金融企業:中信銀行基于KeenData Lakehouse的金融級實時數據平臺,整合十大核心業務域數據,支撐億級客戶實時交易需求。平臺實現信貸審批關鍵環節響應時間縮短60%,實時反欺詐攔截效率顯著提升,并推動風險監控、移動經營等10余個核心應用落地,形成全域實時數據管理能力。 


跨國外企:永旺集團基于KeenData Lakehouse的Data&AI一體化平臺,整合十大主題域數據,存儲量達TB級。通過AI賦能,核心報表響應速度提升10倍,業務決策周期縮短50%,智能定價使KVI商品銷量增長9%,CDP會員運營推動復購率提升8.45%,同時構建起實時庫存預警體系,缺貨率下降12%,全面驅動業務智能化升級。 


城市政府:以Data&Al一體化平臺為載體,以”建、服、管、運”為總體思路,構建"1+4+N"框架與可信數據空間提高“供數、用數”效率,推動促進數據要素的可信流通與合規共享,實現1000+數據主體接入、2000+數據產品發布、30+典型應用場景打造、5+重點行業覆蓋、公共數據資源接入,賦能產業經濟發展,推動數據要素價值釋放,并實現數據可持續運營。 


依托領先技術底座與深厚軟件積淀,結合多領域、多場景的項目實踐深度驗證,科杰科技精準洞察企業數智化轉型升級核心趨勢,為企業提供兼具科學性與落地性的全流程行動指南。 


科杰科技提出 “集中式管理,分散式賦能” 的核心建設模式:通過集中式管理實現數據全生命周期的統一管控與質量把控,以分散式賦能激活業務一線創新活力,讓數據價值精準滲透業務場景。同時,深度推動 “數據治理與數據工程深度融合”,將治理要求系統性嵌入數據采集、處理、應用等工程化全環節,突破傳統事后修正的局限,助力企業構建深度數智驅動型組織?;诳平芸萍?Data&AI 一體化平臺 KeenData Lakehouse,為上述方法論提供堅實落地支撐。 


完成KeenData Lakehouse的Data&AI一體化平臺建設后,企業級大數據與 AI 部門的核心架構已全面構建。該部門不僅具備強勁的技術引擎、低代碼化的數據與 AI 開發工具,更通過標準化管理辦法與數據資產的深度配套,實現了數據與 AI 能力的高可用、高復用。但要進一步向更廣泛的業務單元輸出精準服務,仍需破解行業 Know-how 沉淀不足、個性化業務需求響應不及時的核心挑戰。因此,大數據與 AI 部門的功能升級必然走向 “數據 + AI 的業務化表達”—— 以 Data Fabric 數據編織與虛擬化技術為核心,廣泛的中基層人員能快速找到數據、調用 AI 工具、消費數據服務,真正讓數智能力融入日常業務。 


而 Data Fabric 的落地,離不開底層低代碼開發、智能路由計算與 AI 工程管線的協同支撐,最終實現全組織的數據消費與 AI 應用自由,達成數據研發、AI 開發、業務運營的一體化閉環,推動整個組織形成數據與 AI 雙驅動的工作模式。 


值得強調的是,作為核心支撐的 Data&AI 一體化平臺,KeenData Lakehouse并非單純的軟件平臺,而是企業必須持續迭代的核心競爭力。其本質是“先進技術+成熟軟件+ AI 工程” 深度融合的綜合體系,不僅解決技術落地問題,更通過 “集中式管理,分散式賦能” 的核心模式塑造企業全新管理方式,是軟件深度融入企業管理的最佳實踐載體。它串聯起技術工程、數據管理、AI 運營與業務協作,幫助企業建立基于數據與 AI 需求的新型協作機制,最終推動組織從管理模式、業務流程到價值創造的全方位數智化轉型,讓轉型從口號真正落地為可持續的增長實效。

 


五、數據基礎設施社會化價值


數據具有依附性等特點,決定了其價值必須依托具體應用場景實現,且跨產業、基層一線場景能創造更廣泛價值。但基層普遍面臨 “無數據、無技術” 的困境,數據基礎設施的社會化價值,正在于將數據(生產要素)與 AI 技術(生產工具)進行更有效的社會化配置,通過 “數據可用不可見”“集中式管理 + 分散式賦能”,這種普惠性的配置方式才能真正實現AI變革,激發個體創新。


 


科杰科技董事長于洋


 


數字經濟的鮮明特點,是以數據為核心生產要素。區別于傳統生產要素的關鍵,數據具有可復制、可共享、無限增長的屬性,這些屬性讓數據擺脫了土地、資本等傳統要素的稀缺性與消耗性束縛——復制無需額外成本,共享可突破時空限制,無限增長能持續積累規模效應,這也讓數據成為數字經濟時代最具潛力的生產資源。 


但需明確的是,復制行為本身無法直接產生價值,其核心價值的釋放,關鍵不在于 “流通” 這一行為本身,而在于 “流通后的高效利用”。數據流通的核心意義,在于打破數據孤島的壁壘,讓分散在不同部門、不同主體、不同場景中的零散數據流動起來、聚合起來,為后續利用打下基礎,但流通只是數據價值實現的前提,而非最終結果。只有將聚合后的數據流與具體業務場景深度綁定、精準適配,讓數據嵌入跨行業終端服務與產業基層一線的真實需求中,才能讓抽象的數據轉化為決策支撐、效率提升、創新突破等實際成果,真正釋放其作為生產要素的深層價值。 


這些能夠催生數據價值的場景,廣泛扎根在工廠的生產車間、社區的便民服務點、農戶的田間地頭,以及中小企業的日常經營中,遍布社會經濟毛細血管的一線場景。只有讓數據精準對接基層的生產需求、群眾的生活需求、企業的經營需求,才能讓其規模性與多樣性充分發揮作用,通過流動性實現跨場景價值聯動。 


在實際的一線場景中,數據作為生產要素的價值已得到充分驗證。 


以藥企為例,藥企可匯聚多家醫院的臨床實踐案例進行深度分析,以此精準優化藥物生產工藝與臨床應用方案,單家醫院的病例積累過程往往耗時漫長,而通過多院醫療案例的集中整合,能顯著加速頭部醫院的科研進程與成果轉化效率。 


然而,企業AI場景落地始終受困于 “數據管理能力缺失” 的瓶頸:一方面,中小企業、基層機構雖有強烈的AI場景落地需求,卻缺乏數據源渠道與數據獲取能力,陷入 “有需求無數據” 的窘境;另一方面,即便通過零散渠道獲取到部分數據,也因缺乏專業的數據技術團隊與AI工具支撐,難以實現數據的深度加工、有效分析及價值轉化,最終導致 “有數據無價值”。 


那么,如何面向基層場景、一線工作者與群眾,實現數據生產要素社會化的有效配置與普惠性供給?這需要打破技術壁壘與資源壟斷,讓中小企業無需高昂投入即可獲取合規數據資源,讓基層工作者借助輕量化 AI 工具提升效率,讓普通群眾也能享受 AI 時代的紅利。 


廣泛推進數據基礎設施與可信數據空間建設,正是解決上述問題的核心關鍵。通過搭建數據基礎設施,推動數據生產要素與 Data&AI 技術生產工具深度融合,以 “可用而不可見” 的數據安全流通機制、“集中式建設 + 場景化賦能” 的創新服務模式,為中小企業及基層場景精準供給優質生產要素(數據)與高效生產力工具(AI技術),實現數據生產力與生產要素的優化配置,釋放基層蘊藏的創新活力與價值潛力。 


數據基礎設施的價值落地離不開關鍵技術的硬核支撐 ——Data&AI一體化平臺正是激活場景價值創造的核心引擎,它能打破數據與場景的壁壘,讓數據在具體應用場景中真正 “活起來”,從靜態資源轉化為驅動基層高質量發展的強勁動能。

 


六、扛鼎時代使命:AI 技術出海與數據能力協同,共筑全球產業新優勢


過去十年,中國穩步走向世界舞臺中心,持續輸出中國先進生產力。中國科技企業完全可以為全球客戶提供基于中國市場驗證的創新產品,并且因地制宜地創造全新業務生態。目前科杰已在日本、沙特、阿曼、馬來西亞等國,為當地運營商、金融機構及政府科技部門提供數據基礎設施落地支撐。 


過去十年,中國穩步走向世界舞臺中心,持續輸出中國先進生產力。 


自2019年起,在政策的有力推進下,中國全行業的數字化轉型加速。超過10億的5G移動數據端用戶市場為這些企業積累了無可比擬的技術經驗。借助這一經驗,中國科技企業完全可以為全球客戶提供基于中國市場驗證的創新產品,并且因地制宜地創造全新業務生態。 


同樣,憑借在國內積累的成熟Data&AI數據基礎設施建設經驗與核心技術,科杰科技主動走向海外市場,將國內先進的技術、產品與方法論,輸出到海外國家和地區,助力當地構建AI時代發展的核心能力,推動當地人工智能產業與數字經濟的發展,與沙特、新加坡、南非、日本、馬來西亞、菲律賓等全球多國的客戶建立了深厚合作關系,與全球伙伴攜手,共筑產業新優勢,為全球數字經濟發展貢獻中國智慧與中國力量。

 

來源:日照新聞網
原標題:人工智能產業決勝與 Data&AI 數據基礎設施建設——科杰科技于洋中國國際數字經濟博覽會主題演講