300229 拓爾思
202302-03
AIGC:語義智能的春天
發布時間:2023 -02-03
分享至:
分享

AIGC是人工智能應用的一次重大突破,語義智能將迎來重大發展。拓爾思認為:

 

萬能的大模型不存在!拓爾思的目標不是做最大的模型,而是做專業的大模型。

 

數據+算法+算力三大核心要素,決定AIGC產出質量。拓爾思將以“專業大模型+領域知識數據”為核,努力構建起個性化、專業性的內容自動生成壁壘。

 

技術+產品+場景的完美結合,才能實現AIGC推動更多商業落地進程。拓爾思將在類人助手的道路上開拓全新模式,在G+B雙端的需求持續催化下,優化創新對話式AI、智能創作、AIGC搜索引擎等應用場景,實現用數字化勞動力替代枯燥重復性勞動、擴充資源稀缺勞動力、協助人類完成相應任務和滿足人類情感交流的需求。

 

10多年前,深度學習引發了人工智能的新浪潮,除了互聯網大廠外,以智能語音技術起家的科大訊飛成為人工智能領域的標桿性企業之一。伴隨著ImageNet的標志性突破,以四小龍為代表的圖像識別公司也獲得了很多的投資和關注度,但產業落地都碰到各種問題,人們開始懷疑人工智能賽道是否要陷入新一輪的低潮。OpenAI的ChatGPT橫空出世,人工智能再次成為人們的關注熱點,不同的是,這一次的關注,不僅僅是學術界、產業界和資本界,“跨界”和“出圈”的特征非常明顯。

 

拓爾思2011年上市的時候,當我們試圖給業界講“非結構化信息智能處理”的概念時,受眾是無感的,最后被貼為更通俗的“大數據第一股”的標簽。當我們在2019年第一次以“語義智能”的大主題給市場表達我們定位的時候,我們自認為把NLP、知識圖譜和圖像音視頻內容理解統一到“語義智能旗下,從而定位拓爾思是認知智能開拓者,但不是所有的人都能理解和認同。但是現在不同了,ChatGPT的流行,很容易給拓爾思的語義智能實現一個新的、輕松的表達。拓爾思語義智能=AI+NLP。其中AIGC將成為爆發點,爆發的不僅僅是技術,或者主要不是技術,而是應用的落地和遍地開花。

 

一、AIGC的發展現狀

大模型在對話體驗上的突破,讓機器已經能夠近乎完美地理解人類指令,并給出符合預期答案的時候,人類終于要從感知智能正式邁向認知智能了,人類終于可以用“說話”這種方式和計算機交互,并讓計算機生成我們需要的內容。

 

未來對話將成為新的UI,我們可以稱之為CUI(Conversation User Interface),這將給全產業帶來顛覆性的改變,推動世界用工模式的轉變,讓勞動力向數字化轉變,讓數字化勞動力能夠和人類員工完美配合,“人+數字化勞動力”將成為新的用工模式。2023年將為數字勞動力元年,ChatGPT的火爆將加速世界勞動力向數字化轉變,踏入認知智能的時代。

 

隨著ChatGPT的火爆,AIGC已經受到了全球資本、技術、產業和用戶等全維度的關注。AIGC全稱為AI-Generated Content,指基于大型預訓練模型、生成對抗網絡GAN等人工智能技術,通過已有數據尋找規律,并通過適當的泛化能力生成相關內容(文字、圖像、音視頻、代碼等)的技術。

 

目前AIGC技術可生成的內容形式已經拓展到了包括文字、圖像、視頻、語音、代碼、機器人動作等多種內容形式,生成式AI讓機器開始大規模涉足知識類和創造性工作,極大推動數字化內容生產與創造。

 

如:微軟宣布將ChatGPT整合到Office生產力程序套件中,并將通過云服務提供ChatGPT服務;美國新媒體巨頭Buzzfeed計劃要用ChatGPT來創作內容并削減12%的員工導致股價一夜翻倍;ChatGPT與搜索引擎結合,其內容呈現方式也許會導致固化的搜索引擎商業模式被打破的變革。

 

二、拓爾思的AIGC商業實踐

知識圖譜是AIGC利用AI學習實現自動生成的基礎之一。早在2015年,拓爾思參與了一項基于大數據的類人智能關鍵技術與系統的863課題《面向基礎教育的知識能力智能測評與類人答題驗證-高考機器人》,主要負責十億級條目規模知識圖譜以及大數據知識管理和檢索平臺的構建,助力該“高考機器人”能實現對類人答題原型系統的試題理解、常識記憶、語言運用、知識關聯、知識推理、初等數學求解等各個智力維度進行科學評價。該項目于2017年順利通過驗收。

 

基于NLP技術的文本生成可以算作是AIGC中發展最早的一部分技術。2016年,拓爾思在浙江日報報業集團的融媒體智能傳播服務平臺中(簡稱“媒立方”),率先推出了機器寫作,主要根據拓爾思的全網資訊大數據自動生成體育、氣象和財經等領域的主題稿件,推送到浙報媒立方。

 

2019年,拓爾思提出以“語義智能+行業/領域”的營銷策略。公司深耕自然語言處理,致力于以數據智能應用為核心,賦能不同行業的數字化轉型與降本增效的場景應用,并積極與客戶攜手,在AIGC相關領域,如機器寫作、對話式AI、內容人機協同和自動報告生成等應用場景已相繼打造出一批優秀實踐案例。

 

三、拓爾思的AIGC發展路徑

AIGC的興起源自深度學習技術的快速突破和日益增長的數字內容供給需求,市場潛力逐漸顯現。一方面,技術進步驅動AIGC可用性不斷增強;另一方面,大量需求牽引AIGC應用落地。拓爾思認為AIGC在數字化程度高及內容需求豐富的領域將有廣闊應用空間,個性化及自動化內容產出為AIGC產品的核心價值。

 

1、以“專業大模型+領域知識數據”為核,NLP技術突破推動更多AIGC商業落地

拓爾思在AIGC技術方面有著長期的投入和儲備,這與公司一直專注自然語言處理技術的研發和互聯網大數據的積累等優勢一脈相承。2022年元宇宙Web3.0的概念為市場熱捧,其中拓爾思為服務型虛擬數字人賦能“有趣的靈魂”的能力與產品得到業界廣泛好評。AIGC是拓爾思數字人利用NLP與數據智能相結合的重要方向之一,并稱之為虛擬數字人的“創造力”。

 

公司將基于通用AIGC大模型,專注優勢行業進行專業大模型的研發,融合學習行業特有的大數據和知識,提升大模型對行業應用的適配性。我們將以預訓練大模型、In-Context Learning、instruction tuning等技術為基礎,將文本生成、交互式生成、跨模態生成、小樣本學習、大模型與外部知識庫的融合等功能作為研發重點,突破基于大模型的AIGC關鍵技術,在問答式AI、智能創作、搜索引擎等領域實現成功應用。

 

2、加快推進拓爾思“智創”AIGC平臺的研發

拓爾思“智創”是一款專注文字生成類的內容自動生產平臺,其依托公司長期積累的自然語言處理技術和人工智能平臺產品為基礎,融合開源大模型,將專注在輔助型、應用型、創作型等文本內容的自動生成研發,以個性化、專業性的內容自動生成為壁壘,保持在AI領域的技術競爭力。

 

3、精耕細分場景,從降本增效走向額外價值轉移

結合拓爾思的優勢行業與客戶群體,公司將優先關注以下行業的AIGC細分場景:

 

新聞出版:機器人寫稿、內容創作協助、基于媒體大數據的自動報告生成(如熱點輿情報告、傳播力報告和榜單生成等)、多模態的自動配圖(基于文本的圖片、視頻生成)。

 

政務服務:公文輔助創作、政民互動服務(對話式AI的智能問答)、政務新媒體的創新應用(同新聞出版場景應用)、政策大腦的摘要/數據解讀。

 

金融領域:自動報告生成(企業報告、產業報告等)、證券研報的智能解讀和摘要生成、上市公司的信息檢索。

 

通用行業:知識圖譜構建、人機協同的內容生成(如水軍回復、考試答題等)、開源報告的簡報生成等。

 

元宇宙和云服務:虛擬人服務(靈魂大腦包羅萬象、主要是虛擬人的“理解力”與“創作力”相結合,重點是對話式AI、智能創作與虛擬人+物+景的自動生成);數家資訊云服務的報告生成、資訊信息精準對話式檢索;網察云服務的自動輿情報告生成等。