鄒傳偉:AI大模型時代的數(shù)據(jù)要素市場
一、從AI大模型看數(shù)據(jù)要素市場的重要性
AI大模型對訓(xùn)練數(shù)據(jù)集的要求很高。根據(jù)華泰證券黃樂平博士團(tuán)隊2023年5月11日《AI大模型需要什么樣的數(shù)據(jù)》,大模型訓(xùn)練使用的數(shù)據(jù)集規(guī)模持續(xù)增長,比如2018年GPT-1數(shù)據(jù)集約4.6GB,2020年GPT-3數(shù)據(jù)集達(dá)到了753GB,而2021年Gopher數(shù)據(jù)集已達(dá)10550GB(見下表)。
黃樂平博士團(tuán)隊引用的Villalobos等2022年《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》預(yù)測,語言數(shù)據(jù)將于2030-2040年耗盡,其中能訓(xùn)練出更好性能的高質(zhì)量語言數(shù)據(jù)將于2026年耗盡,而視覺數(shù)據(jù)將于2030-2060年耗盡。合成數(shù)據(jù)或?qū)浹a(bǔ)未來數(shù)據(jù)的不足。根據(jù)Gartner的預(yù)測,2024年用于訓(xùn)練大模型的數(shù)據(jù)中有 60%將是合成數(shù)據(jù),到 2030年大模型使用的絕大部分?jǐn)?shù)據(jù)將由人工智能合成。
在這個背景下,數(shù)據(jù)要素市場對AI大模型發(fā)展至關(guān)重要。不僅如此,數(shù)據(jù)要素市場是數(shù)字經(jīng)濟(jì)和數(shù)字金融發(fā)展的關(guān)鍵。數(shù)據(jù)要素市場還是理解個人隱私保護(hù)、平臺經(jīng)濟(jì)競爭、大科技公司監(jiān)管和金融科技發(fā)展等問題的關(guān)鍵。在各種類型的數(shù)據(jù)中,個人數(shù)據(jù)最受關(guān)注,但非人格數(shù)據(jù)也越來越受關(guān)注, 比如來自工業(yè)領(lǐng)域、物聯(lián)網(wǎng)設(shè)備、市政網(wǎng)絡(luò)和交通網(wǎng)絡(luò)等的數(shù)據(jù)。
二、我國在數(shù)據(jù)要素市場方面的工作
2020年4月,中共中央、國務(wù)院《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》提出加快培育數(shù)據(jù)要素市場。
2021年6月,全國人大常委會通過《數(shù)據(jù)安全法》。8月,全國人大常委會通過《個人信息保護(hù)法》。這兩部法律與2016年通過的《網(wǎng)絡(luò)安全法》構(gòu)成了我國的“數(shù)據(jù)三法”。
2022年12月,中共中央、國務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》(“數(shù)據(jù)二十條”),重點確立了數(shù)據(jù)產(chǎn)權(quán)制度(數(shù)據(jù)資源持有權(quán)、數(shù)據(jù)加工使用權(quán)、數(shù)據(jù)產(chǎn)品經(jīng)營權(quán)三權(quán)分置),流通交易制度(重點培育數(shù)據(jù)商和第三方服務(wù)機(jī)構(gòu)兩類主體),收益分配制度(初次分配按“誰投入、誰貢獻(xiàn)、誰受益”原則),以及安全治理制度。
2023年2月,黨中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》,提出暢通數(shù)據(jù)資源大循環(huán):構(gòu)建國家數(shù)據(jù)管理體制機(jī)制,健全各級數(shù)據(jù)統(tǒng)籌管理機(jī)構(gòu);推動公共數(shù)據(jù)匯聚利用,建設(shè)公共衛(wèi)生、科技、教育等重要領(lǐng)域國家數(shù)據(jù)資源庫;釋放商業(yè)數(shù)據(jù)價值潛能,加快建立數(shù)據(jù)產(chǎn)權(quán)制度,開展數(shù)據(jù)資產(chǎn)計價研究,建立數(shù)據(jù)要素按價值貢獻(xiàn)參與分配機(jī)制。2023年3月,國家數(shù)據(jù)管理局成立。
地方政府根據(jù)中央政府政策精神積極參與數(shù)據(jù)要素市場建設(shè),主要體現(xiàn)為3方面工作。第一,制定地方政策文件。比如,2023年7月,廣州和上海分別就《廣州市數(shù)據(jù)條例》、《上海市促進(jìn)浦東新區(qū)數(shù)據(jù)流通交易若干規(guī)定(草案)》公開征求意見。第二,成立數(shù)據(jù)交易平臺?;诠_信息的檢索表明,截至2023年2月,貴州、北京、深圳、上海、廣州、天津、重慶、河北、黑龍江、吉林、江蘇、浙江、福建、江西、山東、河南、湖北、湖南、廣西、海南、四川、陜西和寧夏等均成立了數(shù)據(jù)交易場所。第三,組建地方性數(shù)據(jù)集團(tuán)公司?;诠_信息的檢索表明,截至2023年6月,上海、福建、河南和湖北組建省級數(shù)據(jù)集團(tuán)公司,成都、武漢和南京組建市級數(shù)據(jù)集團(tuán)公司。
三、數(shù)據(jù)要素市場的關(guān)鍵問題
當(dāng)前數(shù)據(jù)要素市場面臨以下關(guān)鍵問題:第一,數(shù)據(jù)要素的確權(quán)問題。第二,數(shù)據(jù)要素市場的組織形式。第三,個人數(shù)據(jù)的隱私保護(hù)問題,以及如何在保護(hù)隱私的前提下促進(jìn)數(shù)據(jù)要素的有效流通。第四,數(shù)據(jù)要素的估值和計價問題。第五,數(shù)據(jù)要素的價值貢獻(xiàn)和收益分配。因時間限制,接下來聚焦于第一至三個問題。對第四和五個問題,我曾提出DataRank估值框架[1]。
(一)數(shù)據(jù)權(quán)利
聯(lián)合國貿(mào)易與發(fā)展會議2021年《數(shù)字經(jīng)濟(jì)報告》,數(shù)據(jù)權(quán)利指訪問、控制和使用數(shù)據(jù)的權(quán)利。
為什么淡化數(shù)據(jù)所有權(quán)?我認(rèn)為主要有兩方面原因。第一,很多數(shù)據(jù)難以界定所有權(quán),特別對個人數(shù)據(jù)。比如,用戶在互聯(lián)網(wǎng)服務(wù)平臺上“自愿”披露并被觀察的數(shù)據(jù)。第二,數(shù)據(jù)要素市場成立的前提是對數(shù)據(jù)的有效控制:控制誰(Who)能在何種條件下(What)以何種方式(How)使用數(shù)據(jù)。
數(shù)據(jù)要素確權(quán)的關(guān)鍵是界定數(shù)據(jù)主體與數(shù)據(jù)控制者之間的權(quán)利義務(wù)關(guān)系。比如,歐盟《通用數(shù)據(jù)保護(hù)條例》(簡稱GDPR,2018年實施)對個人數(shù)據(jù)引入訪問權(quán)利、修改權(quán)利、刪除或被遺忘權(quán)利、可攜帶權(quán)利、有限授權(quán)和最小化采集原則、個人數(shù)據(jù)跨境傳輸條件以及數(shù)據(jù)控制者的告知義務(wù)等。
此外,對公共數(shù)據(jù),要鼓勵以多種形式向社會提供不涉及個人信息、不影響公共安全的公共數(shù)據(jù)。可驗證計算、同態(tài)加密和安全多方計算等密碼學(xué)技術(shù),使數(shù)據(jù)“可用不可見”。
(二)數(shù)據(jù)要素市場的組織形式
盡管數(shù)據(jù)價值鏈長且復(fù)雜,但從供給和需求角度看,數(shù)據(jù)要素市場主要有三類參與者。第一,供給方是數(shù)據(jù)控制者,是收集、存儲數(shù)據(jù)并行使控制權(quán)的人或機(jī)構(gòu)。第二,需求方是數(shù)據(jù)使用者,他們接受或處理由數(shù)據(jù)提供者分享的關(guān)于數(shù)據(jù)主體的數(shù)據(jù),并將這些數(shù)據(jù)作為輸入以提供服務(wù)。第三,數(shù)據(jù)主體(包括個人、消費者和法人組織),指通過線上或線下活動產(chǎn)生數(shù)據(jù)并擁有相關(guān)權(quán)利的人或機(jī)構(gòu)。數(shù)據(jù)控制者和數(shù)據(jù)使用者分別對應(yīng)著金融市場的資金供給方和需求方。數(shù)據(jù)要素市場之所以重視數(shù)據(jù)主體(特別是個人數(shù)據(jù)主體),一是隱私保護(hù)的要求,二是為促進(jìn)數(shù)據(jù)收益的公平分配。“數(shù)據(jù)二十條”強(qiáng)調(diào),充分保護(hù)數(shù)據(jù)來源者合法權(quán)益,推動基于知情同意或存在法定事由的數(shù)據(jù)流通使用模式。
數(shù)據(jù)要素市場與金融市場之間存在同構(gòu)關(guān)系。目前討論的數(shù)據(jù)要素市場的主要組織形式,基本都能在金融市場的直接融資和間接融資模式中找到對應(yīng)者(見下表):
數(shù)據(jù)要素市場 | 金融系統(tǒng) | |
流通的要素 | 數(shù)據(jù) | 資金 |
要素供給者 | 數(shù)據(jù)提供者(數(shù)據(jù)控制者) | 存款者和投資者 |
數(shù)據(jù)主體 | ||
要素需求者 | 數(shù)據(jù)使用者 | 融資者 |
要素市場組織形式 | 開放銀行,數(shù)據(jù)信托,數(shù)據(jù)交易所 | 直接融資和間接融資 |
數(shù)據(jù)要素市場有3種組織形式值得關(guān)注。第一,開放銀行。在開放銀行模式下,銀行在用戶允許的情況下通過應(yīng)用編程接口(API)將用戶數(shù)據(jù)分享給第三方機(jī)構(gòu)以開發(fā)應(yīng)用和服務(wù),包括實時支付、幫助用戶更好地管理金融賬戶、市場營銷和交叉銷售機(jī)會等。開放銀行強(qiáng)調(diào)用戶對自己數(shù)據(jù)的權(quán)利,允許用戶在其他服務(wù)場景中使用銀行服務(wù),從而創(chuàng)新性地將銀行功能模塊和非銀行功能模塊融合在一起,體現(xiàn)了用戶第一、以用戶為中心提供產(chǎn)品和服務(wù)的原則。
第二,數(shù)據(jù)信托。數(shù)據(jù)信托借鑒了金融信托的理念和架構(gòu)。在數(shù)據(jù)信托中,收集并持有數(shù)據(jù)的機(jī)構(gòu)(即委托人),允許一個獨立機(jī)構(gòu)(即受托人)來決定如何為一個事先確定的目標(biāo)(特別是受益人的利益)而使用和分享數(shù)據(jù)。受托人有權(quán)決定如何使用和分享數(shù)據(jù)以釋放數(shù)據(jù)中蘊(yùn)含的價值,但要確保它的決定符合數(shù)據(jù)信托的設(shè)立目標(biāo)以及受益人的利益。
第三,數(shù)據(jù)交易所。全球范圍內(nèi)不存在流動性好的數(shù)據(jù)場內(nèi)交易所,但針對替代數(shù)據(jù)(Alternative data)的場外交易一直在發(fā)生。比如,以Robinhood為代表的Pay for order flow模式。根據(jù)“數(shù)據(jù)二十條”國家規(guī)范引導(dǎo)場外交易,培育壯大場內(nèi)交易;除了數(shù)據(jù)交易以外,數(shù)據(jù)還可以通過共享、開放、數(shù)據(jù)服務(wù)等方式實現(xiàn)流通。
(三)個人數(shù)據(jù)流通的特殊性
歐盟《通用數(shù)據(jù)保護(hù)條例》對個人數(shù)據(jù)引入的一系列權(quán)利在實踐中集中體現(xiàn)為“告知-同意”機(jī)制,但面臨如下挑戰(zhàn)。第一,信息服務(wù)提供者一般在用戶參與活動之初尋求用戶對使用和轉(zhuǎn)移數(shù)據(jù)的同意。用戶的同意是事前且 “一攬子式的”,而此時用戶很可能不清楚他們數(shù)據(jù)的真實價值。第二,用戶數(shù)據(jù)由不同機(jī)構(gòu)按不兼容的格式來收集和存儲。用戶即使能訪問與自己有關(guān)的數(shù)據(jù),也很難有效地將這些數(shù)據(jù)合并起來加以使用。數(shù)據(jù)“孤島”對數(shù)據(jù)主體和全社會構(gòu)成了顯著成本。
個人擁有自己數(shù)據(jù)的收益權(quán)在理論上很美,在實踐中很難操作。首先,單獨來看,個人數(shù)據(jù)的價值不高。個人數(shù)據(jù)的價值主要來自被集中起來后(即“衍生數(shù)據(jù)”)。其次,個人數(shù)據(jù)市場本質(zhì)上意味著將隱私從一項人權(quán)變?yōu)橐粋€可以出售的商品,可能造成倫理上的問題。
四、數(shù)據(jù)要素市場的前沿趨勢
從世界范圍看,歐盟走在了數(shù)據(jù)立法的前列。比如,我國《個人信息保護(hù)法》在一定程度上借鑒了歐盟《通用數(shù)據(jù)保護(hù)條例》。2022年6月,歐盟《數(shù)據(jù)治理法》生效,以規(guī)范公共部門持有個人數(shù)據(jù)的流通。2023年6月,歐盟議會和歐盟理事會就《數(shù)據(jù)法案》達(dá)成協(xié)議,以規(guī)范非人格化數(shù)據(jù)的流通。這兩個法規(guī)代表了數(shù)據(jù)要素市場的前沿趨勢,現(xiàn)摘要介紹如下。
(一)公共部門持有個人數(shù)據(jù)的流通
第一,個人數(shù)據(jù)重用(Re-use)。公共部門應(yīng)該用匿名化、差別隱私、概括化、抑制和隨機(jī)化、使用合成數(shù)據(jù)或類似方法以及其他最先進(jìn)的隱私保護(hù)方法處理個人數(shù)據(jù),以保證數(shù)據(jù)重用的環(huán)境是安全的。為了既有效地保障個人數(shù)據(jù)安全又便捷地促進(jìn)數(shù)據(jù)重用,公共部門應(yīng)采取“設(shè)計與默認(rèn)的開放” 措施,并提倡數(shù)據(jù)以匿名化的狀態(tài)由數(shù)據(jù)使用者采購。
第二,數(shù)據(jù)中介。數(shù)據(jù)中介以“商業(yè)關(guān)系”為目的,以實現(xiàn)數(shù)據(jù)在不特定數(shù)據(jù)主體、數(shù)據(jù)提供者與數(shù)據(jù)使用者之間分享。歐盟計劃對功能符合要求、具備獨立性并且采取歐盟認(rèn)可的數(shù)據(jù)保護(hù)措施的數(shù)據(jù)中介,發(fā)放通用認(rèn)可標(biāo)識,并建立歐盟層面的標(biāo)識認(rèn)證體系。
第三,數(shù)據(jù)利他主義。針對的情景包括數(shù)據(jù)主體向公益性質(zhì)的科學(xué)研究分享個人數(shù)據(jù)。歐盟計劃設(shè)立一系列認(rèn)定標(biāo)準(zhǔn),對符合要求的“數(shù)據(jù)利他”實體進(jìn)行備案登記,頒發(fā)“歐盟認(rèn)可的利他主義組織”標(biāo)準(zhǔn),并對“數(shù)據(jù)利他”組織的后續(xù)運營設(shè)定了專門的合規(guī)監(jiān)管要求。
(二)非人格化數(shù)據(jù)的流通
歐盟《數(shù)據(jù)法案》針對非人格化數(shù)據(jù)的使用,涵蓋各種智能設(shè)備、自動化生產(chǎn)線、自動駕駛汽車等產(chǎn)生的數(shù)據(jù),目標(biāo)是提供公平的訪問和共享框架,明確B2B和B2G的數(shù)據(jù)流通措施,同時確定數(shù)據(jù)處理服務(wù)提供商的義務(wù)。
歐盟《數(shù)據(jù)法案》規(guī)定,每個用戶,不管是個人還是法人組織,都應(yīng)該有權(quán)訪問其促成產(chǎn)生的數(shù)據(jù)。因此,使用聯(lián)網(wǎng)智能產(chǎn)品的用戶可以訪問由其產(chǎn)生的數(shù)據(jù)(通常由制造商采集)并可以向第三方分享。相應(yīng)的,聯(lián)網(wǎng)產(chǎn)品和相關(guān)服務(wù)應(yīng)默認(rèn)以可訪問的方式向用戶提供數(shù)據(jù)。用戶還有權(quán)選擇在不同的云數(shù)據(jù)處理服務(wù)提供商之間切換,以實現(xiàn)數(shù)據(jù)的自主轉(zhuǎn)移,而大科技公司及其掌控的平臺應(yīng)該予以配合。
五、數(shù)據(jù)基礎(chǔ)設(shè)施
數(shù)據(jù)基礎(chǔ)設(shè)施由3部分組成。第一,數(shù)據(jù)要素市場。第二,數(shù)據(jù)分析方法(Data analytics)。第三,算力。數(shù)據(jù)要素市場針對數(shù)據(jù)的收集、流轉(zhuǎn)和配置等,前文已介紹相關(guān)進(jìn)展,但這需要結(jié)合數(shù)據(jù)分析方法和算力,才能看到數(shù)據(jù)基礎(chǔ)設(shè)施的全貌。
(一)數(shù)據(jù)分析方法
數(shù)據(jù)分析方法在技術(shù)層面體現(xiàn)為AI和大數(shù)據(jù)分析。AI分為解釋型AI和生成型AI。生成型AI近期因為ChatGPT而備受關(guān)注。2023年7月,國家網(wǎng)信辦等七部門聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》。但實際上,解釋型AI在金融領(lǐng)域應(yīng)用更為廣泛,體現(xiàn)為人臉識別、用戶畫像、信用評估和保險精算等。AI應(yīng)用于金融領(lǐng)域,面臨著模型可解釋性、信貸公平性和金融倫理等方面的問題。
(二)算力
算力在技術(shù)層面體現(xiàn)為云計算、專用芯片和邊緣計算等。目前,算力已經(jīng)大宗商品化,出現(xiàn)了高效的算力交易市場。2022年2月,全國一體化大數(shù)據(jù)中心體系完成8大國家算力樞紐節(jié)點,10個國家數(shù)據(jù)中心集群的總體布局設(shè)計,“東數(shù)西算”工程正式全面啟動。
(本文系作者2023年7月19日在皖港科技聯(lián)合創(chuàng)新合作交易活動上的發(fā)言。)
[1]鄒傳偉,《數(shù)據(jù)要素市場的組織形式和估值框架》,《大數(shù)據(jù)》2021年第4期。
http://m.qinyier.com/yanjiu/detail/9531.html
