海天瑞聲(688787)6月21日晚間公告,擬定增募資不超7.9億元,用于投資AI大模型訓練數據集建設項目、數據生產垂直大模型研發(fā)項目。
【資料圖】
公告顯示,海天瑞聲主要從事AI訓練數據的研發(fā)設計、生產及銷售業(yè)務。公司通過設計數據集結構、組織數據采集、對取得的原料數據進行加工,最終形成可供AI算法模型訓練使用的專業(yè)數據集,用軟件形式向客戶交付。
本次募集資金兩項投資項目,將全部圍繞海天瑞聲主營業(yè)務展開。
其中,AI大模型訓練數據集建設項目是通過建設應用于通用和特定垂直領域的AI大模型訓練數據集,提升行業(yè)內面向大模型訓練數據集的類別和質量。
公開資料顯示,雖然中國數據資源豐富,但由于數據挖掘不足,以及大量數據無法在市場上自由流通等原因,優(yōu)質中文數據集仍然稀缺。
以ChatGPT為例,其模型訓練數據中,中文數據來源不足千分之一。目前,國內頭部科技企業(yè)主要基于公開數據集以及自身特有的數據進行大模型訓練,但由于中文優(yōu)質數據質量以及數據資源的制約,國內大模型的能力與以ChatGPT為代表的國際大模型相比仍存在一定差距。
而在本項目建成后,將提供可供大模型訓練和評測的不少于10個品類的專業(yè)數據集,顯著提升行業(yè)內面向大模型訓練數據集的類別和質量,協助實現公共數據、社會數據等各類高價值數據資源匯聚,實現基于大模型通用能力和垂直領域數據的訓練學習。
海天瑞聲表示,將基于過往的數據服務經驗,結合行業(yè)前沿需求,積極拓展大模型訓練數據服務領域,力爭將大模型訓練數據等創(chuàng)新業(yè)務打造成為具有潛在高增長價值的新型業(yè)務板塊。
此外,截至2022年底,海天瑞聲累計服務客戶數量已達到810家,包括阿里巴巴、騰訊、百度、科大訊飛、海康威視、字節(jié)跳動、微軟、亞馬遜、三星、中國科學院、清華大學等全球主流企業(yè)、教育科研機構以及政企機構。
海天瑞聲的存量客戶與新業(yè)務的客戶重合程度較高,且存量客戶群中的部分頭部企業(yè)已輸出或計劃輸出其大模型產品與服務,為公司該項新業(yè)務拓展提供了客戶資源基礎。
根據德勤數據,2022年中國人工智能基礎數據服務市場規(guī)模為45億元,2027年規(guī)模將達到130-160億元,年復合增長率為23.6%-28.9%。
數據生產垂直大模型研發(fā)項目建設目標則是通過大模型基礎研究,研發(fā)海天瑞聲數據生產垂直大模型,并以海天瑞聲數據生產垂直大模型為核心,升級海天瑞聲一體化技術支撐平臺。
公告稱,數據集生產能力和一體化技術支撐平臺是海天瑞聲核心技術的重要體現。目前 ChatGPT等模型執(zhí)行通用生成任務的效果證明了大模型可具備數據生成能力。
本項目的建設將基于海天瑞聲在深度學習階段數據集生產所積累的know-how,自主研發(fā)數據生產垂直大模型,構建大模型數據處理技術通用化解決方案能力,實現完整、可持續(xù)迭代的大模型數據技術框架和數據策略,進一步提高公司在人工智能基礎數據服務領域的智能化水平。
海天瑞聲表示,本次募集資金投資項目是公司在現有主營業(yè)務基礎上,結合市場需求和未來發(fā)展趨勢,加大對公司核心主業(yè)重點產品及重要研究方向投資力度的體現,符合國家大力支持人工智能發(fā)展的產業(yè)政策以及公司整體戰(zhàn)略發(fā)展方向。
(文章來源:證券時報·e公司)
關鍵詞: