2023-07-04 09:50:42 來源:21世紀(jì)經(jīng)濟(jì)報(bào)道
21世紀(jì)經(jīng)濟(jì)報(bào)道記者鄭雪北京報(bào)道
生成式人工智能快速發(fā)展,涌現(xiàn)能力加持之下,人工智能展現(xiàn)出超高的理解力,可以回答提問人的所有提問,甚至未來還將作為技術(shù)基礎(chǔ)設(shè)施而存在。人工智能的“善解人意”離不開海量數(shù)據(jù)的助力。在人工智能大模型尋求與行業(yè)結(jié)合的過程中,高質(zhì)量的行業(yè)數(shù)據(jù)存在缺乏和分散,對(duì)人工智能的落地及進(jìn)一步發(fā)展提出挑戰(zhàn);與此同時(shí)重要的是,作為和人互動(dòng)的“伙伴”,也就是人工智能,如何通過安全可信給人以安全感?
(相關(guān)資料圖)
近日,“2023全球數(shù)字經(jīng)濟(jì)大會(huì)人工智能高峰論壇”在京舉辦。人工智能和產(chǎn)業(yè)相結(jié)合的過程中,離不開高質(zhì)量行業(yè)數(shù)據(jù)的支持。針對(duì)數(shù)據(jù)帶來的知識(shí)產(chǎn)權(quán)糾紛,有專家表示,需要尊重大模型訓(xùn)練所使用數(shù)據(jù)內(nèi)容層和載體層的權(quán)益。與此同時(shí),未來的人工智能,將會(huì)是安全可信的人工智能。
行業(yè)數(shù)據(jù)成垂直場(chǎng)景落地關(guān)鍵一步
技術(shù)最終需要落地到產(chǎn)業(yè)和場(chǎng)景以產(chǎn)生真正價(jià)值。大模型蓬勃發(fā)展的今天,未來向何處?又會(huì)如何創(chuàng)造價(jià)值?
曠視聯(lián)合創(chuàng)始人兼CTO唐文斌表示,關(guān)于AI研究,五年前就有提出兩個(gè)關(guān)鍵詞:大和統(tǒng)一。今天“大”說得比較多,模型變得更大就會(huì)有更多能力涌現(xiàn);關(guān)于統(tǒng)一,未來或許形成統(tǒng)一的算法,一個(gè)大模型可以貫穿感知、決策、執(zhí)行整個(gè)過程。“AI公司并沒有創(chuàng)造新的需求,只是當(dāng)下有了更好的技術(shù)、工具,能夠給出更低成本、更高效率、更強(qiáng)體驗(yàn)的解決方案。”
在大模型和場(chǎng)景、產(chǎn)業(yè)結(jié)合的過程中,首先需要回答的是如何獲取有價(jià)值的數(shù)據(jù),或者說大模型如何獲取更專業(yè)的知識(shí)。
360集團(tuán)創(chuàng)始人周鴻祎指出,大模型是通才,但缺乏行業(yè)深度。企業(yè)內(nèi)部真正有價(jià)值的知識(shí),公開渠道無法獲得。大模型沒有辦法滿足行業(yè)和企業(yè)的場(chǎng)景垂直性、專業(yè)性的要求。在他看來,每個(gè)企業(yè)內(nèi)部的Know How作為核心資產(chǎn),很難用于訓(xùn)練公域大模型。
而在AI大模型商業(yè)化落地方面,數(shù)據(jù)的獲取方式或許還會(huì)影響大模型落地策略。
昆侖萬維科技股份有限公司CEO方漢介紹,不同于國(guó)外發(fā)展戰(zhàn)略主要瞄準(zhǔn)To C市場(chǎng),國(guó)內(nèi)AI大模型的發(fā)展前景將會(huì)是To B和To C戰(zhàn)略并重,B端降本,C端增效。在他看來,預(yù)訓(xùn)練大模型對(duì)于行業(yè)數(shù)據(jù)質(zhì)量要求極高。針對(duì)B端客戶落地,如何深入各個(gè)行業(yè)整理與生成序列化的生產(chǎn)數(shù)據(jù),并訓(xùn)練行業(yè)專屬模型,再同現(xiàn)有生產(chǎn)流程相結(jié)合,提升效率、降低成本,是落地的關(guān)鍵。
在他看來,B端必然碎片化。考慮行業(yè)數(shù)據(jù)被分割在B端的不同碎片,某一家企業(yè)很難拿到全行業(yè)的數(shù)據(jù),B端必然會(huì)出現(xiàn)一個(gè)大模型企業(yè)能夠在一兩個(gè)行業(yè)中取得先發(fā)成功,但無法在所有行業(yè)取得成功。To C方面,考慮用戶免費(fèi)習(xí)慣,將以免費(fèi)模式為主,VIP模式為輔;同時(shí)C端需要搶占大模型的服務(wù)入口,如辦公軟件、即時(shí)通訊、瀏覽器等。
尊重?cái)?shù)據(jù)載體層和內(nèi)容層相關(guān)權(quán)益
對(duì)于大模型發(fā)展起重要作用的數(shù)據(jù),不僅要解決高質(zhì)量數(shù)據(jù)、行業(yè)數(shù)據(jù)缺乏的問題,還需對(duì)數(shù)據(jù)采集過程中可能引發(fā)的知產(chǎn)糾紛、隱私保護(hù)、數(shù)據(jù)泄露等做出回應(yīng)。
值得關(guān)注的是,不久之前,一批匿名人士對(duì)OpenAI、及其投資方之一的微軟公司發(fā)起集體訴訟。這份將近160頁的起訴書聲稱, OpenAI從互聯(lián)網(wǎng)上竊取了3000億個(gè)單詞,它們來自“書籍、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個(gè)人信息”。 起訴書指出,這一數(shù)據(jù)竊取行為的受害人預(yù)計(jì)有數(shù)百萬,潛在損失達(dá) 30 億美元。原告要求法院暫時(shí)凍結(jié) OpenAI 產(chǎn)品的商業(yè)訪問和進(jìn)一步開發(fā)。
對(duì)于大模型發(fā)展而言,因訓(xùn)練數(shù)據(jù)知情同意引發(fā)的知產(chǎn)糾紛、數(shù)據(jù)隱私等已經(jīng)成為大模型發(fā)展過程中必須回應(yīng)的重要問題之一。
回到最初的原點(diǎn),如何理解數(shù)據(jù)?中國(guó)政法大學(xué)互聯(lián)網(wǎng)金融法律研究院院長(zhǎng)、中國(guó)政法大學(xué)教授李愛君援引《數(shù)據(jù)安全法》第三條之解釋,數(shù)據(jù)是指任何以電子或者其他方式對(duì)信息的記錄,其中需要注意數(shù)據(jù)客體問題。數(shù)據(jù)區(qū)別于傳統(tǒng)物權(quán)、區(qū)別于知識(shí)產(chǎn)權(quán)的客體而存在。
李愛君進(jìn)一步分析指出,數(shù)據(jù)擁有內(nèi)容層和載體層,在數(shù)據(jù)使用過程中,要尊重?cái)?shù)據(jù)客體內(nèi)容層和載體層的相關(guān)權(quán)益。
載體層權(quán)益主要包括三個(gè)部分,實(shí)現(xiàn)數(shù)據(jù)使用價(jià)值的權(quán)利,對(duì)應(yīng)數(shù)據(jù)控制權(quán)和數(shù)據(jù)處理權(quán);實(shí)現(xiàn)數(shù)據(jù)交換價(jià)值的權(quán)利,對(duì)應(yīng)數(shù)據(jù)處分權(quán);以及取得財(cái)產(chǎn)性利益的權(quán)利,對(duì)應(yīng)數(shù)據(jù)收益權(quán)。內(nèi)容層權(quán)益,包括包括個(gè)人信息、知識(shí)產(chǎn)權(quán)、商業(yè)秘密、國(guó)家安全信息等。
李愛君提示,搜集和使用數(shù)據(jù)的時(shí)候一定要遵守相關(guān)法律、法規(guī)。但同時(shí)她也表示,訓(xùn)練數(shù)據(jù)使用的法理關(guān)系其實(shí)事關(guān)數(shù)據(jù)處理,主體包括數(shù)據(jù)處理主體和數(shù)據(jù)被處理的主體。當(dāng)前,在人工智能發(fā)展鏈條中,數(shù)據(jù)處理主體和數(shù)據(jù)被處理的主體呈現(xiàn)多元化,責(zé)任鏈條難以界定,如何解決上述問題?相關(guān)主體的權(quán)利和義務(wù)如何劃分?值得未來進(jìn)一步探討。
以安全可信為AI行業(yè)應(yīng)用系好安全帶
人工智能的進(jìn)一步發(fā)展,不僅要回應(yīng)數(shù)據(jù)問題,更要關(guān)注各類安全隱患,如技術(shù)方面的數(shù)據(jù)風(fēng)險(xiǎn)、模型訓(xùn)練風(fēng)險(xiǎn),應(yīng)用層面的隱私安全風(fēng)險(xiǎn)、倫理安全風(fēng)險(xiǎn)等都是需要回應(yīng)的問題。
清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授、人工智能研究院副院長(zhǎng)朱軍表示,AIGC形成了新安全挑戰(zhàn)。技術(shù)風(fēng)險(xiǎn)方面,大模型本身存在Prompt Injection攻擊風(fēng)險(xiǎn),給出ChatGPT能夠接受的假設(shè),引導(dǎo)違反自身的編程限制可以生成不合適或有害的內(nèi)容,或者泄露模型內(nèi)部的信息。此外還面臨模型竊取、數(shù)據(jù)偷渡等模型攻擊風(fēng)險(xiǎn)。
此外,考慮ChatGPT的問答文檔無法刪除特定用戶數(shù)據(jù),也可能導(dǎo)致用戶聊天歷史泄漏。利用AIGC也可能誘發(fā)犯罪,如升級(jí)詐騙手段和網(wǎng)絡(luò)攻擊手段;甚至還可被用于偽造虛假信息和有害內(nèi)容。
“潘多拉魔盒”打開后,如何回應(yīng)安全可信風(fēng)險(xiǎn)挑戰(zhàn)?
清華大學(xué)計(jì)算機(jī)系長(zhǎng)聘教授、清華大學(xué)人工智能研究院副院長(zhǎng)朱軍表示,一是關(guān)注從基礎(chǔ)理論研究突破、提高內(nèi)在安全性能的第三代人工智能。從人工智能基礎(chǔ)嘗試,探索將數(shù)據(jù)和知識(shí)有機(jī)融合在一起的第三代人工智能新范式,發(fā)展更加安全可靠的人工智能框架。二是提升安全評(píng)測(cè)能力。主要關(guān)注對(duì)抗攻擊評(píng)測(cè)、角色扮演與誘導(dǎo)欺騙評(píng)測(cè)、混淆指令欺騙評(píng)測(cè)、標(biāo)識(shí)性能評(píng)測(cè)、數(shù)據(jù)安全評(píng)測(cè)、倫理安全評(píng)測(cè)方面。三是構(gòu)建人工智能安全治理有效工具。如人工智能本身的安全平臺(tái)、深度偽造檢測(cè)平臺(tái)以及人工智能安全靶場(chǎng)等。
如何判斷大模型是否真的安全可信?
中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所副所長(zhǎng)魏凱介紹了大模型標(biāo)準(zhǔn)體系建設(shè)及進(jìn)展情況。在他看來,從大模型各研發(fā)環(huán)節(jié)的合規(guī)、可信、穩(wěn)定、可靠程度建立指標(biāo),保障大模型可信可控。指標(biāo)分為5個(gè)能力域和近30個(gè)能力項(xiàng)。通過基礎(chǔ)軟硬件自主可控、數(shù)據(jù)可追溯性、核心代碼自主率、流程合規(guī)性、系統(tǒng)可靠性等指標(biāo),為大模型行業(yè)應(yīng)用裝上安全帶和剎車。據(jù)介紹,未來還將構(gòu)建行業(yè)大模型標(biāo)準(zhǔn)體系,評(píng)估大模型在不同行業(yè)的應(yīng)用能力。
“當(dāng)前業(yè)界對(duì)安全可信的基本維度已經(jīng)達(dá)成共識(shí),包括數(shù)據(jù)安全、隱私保護(hù)、公平性、非歧視等等基本原則。其中難題在于如何將安全可信如何落實(shí)到大模型的軟件、產(chǎn)品、服務(wù)和管理流程制度之中?!?/strong>魏凱進(jìn)一步說道。
(文章來源:21世紀(jì)經(jīng)濟(jì)報(bào)道)
標(biāo)簽: