專(zhuān)題·大模型安全 | 生成式人工智能的內(nèi)容安全風(fēng)險(xiǎn)與應(yīng)對(duì)策略
2024-09-19 13:40:36
dzq
9
正如一枚硬幣的兩面,生成式人工智能大模型(以下簡(jiǎn)稱(chēng)“生成式大模型”)在助力內(nèi)容生成的同時(shí)也潛藏風(fēng)險(xiǎn),成為虛假信息傳播、數(shù)據(jù)隱私泄露等問(wèn)題的溫床,加劇了認(rèn)知域風(fēng)險(xiǎn)。與傳統(tǒng)人工智能(AI)相比,生成式大模型特有的預(yù)訓(xùn)練、微調(diào)、上下文、提示和思維鏈等新型學(xué)習(xí)范式,使其輸出內(nèi)容蘊(yùn)含的風(fēng)險(xiǎn)更加復(fù)雜與多樣化。面對(duì)新問(wèn)題、新挑戰(zhàn),傳統(tǒng)的內(nèi)容安全治理方法與工具顯現(xiàn)出明顯的局限性,亟需探索新的治理策略和技術(shù)方法,以確保在大模型時(shí)代能夠有效管理內(nèi)容安全風(fēng)險(xiǎn)。
一、洞察風(fēng)險(xiǎn):生成式大模型內(nèi)容合規(guī)挑戰(zhàn)及成因
生成式大模型在內(nèi)容生成過(guò)程中所面臨的風(fēng)險(xiǎn),根源深植于訓(xùn)練數(shù)據(jù)的內(nèi)在缺陷與技術(shù)實(shí)現(xiàn)的局限性。訓(xùn)練數(shù)據(jù)的偏差、不完整性和污染,都影響了模型的認(rèn)知與學(xué)習(xí)過(guò)程。技術(shù)上的局限性,如算法設(shè)計(jì)的不完善和模型架構(gòu)的固有缺陷等,也為風(fēng)險(xiǎn)的滋生提供了土壤。這些因素限制了模型對(duì)復(fù)雜情境的理解能力,增加了誤判與誤導(dǎo)性輸出的可能性。同時(shí),外部環(huán)境的惡意利用更是雪上加霜,加劇了虛假、有害或攻擊性等內(nèi)容的生成。由于大部分生成式大模型的內(nèi)容合規(guī)檢測(cè)機(jī)制過(guò)于直接和簡(jiǎn)單,因此在面對(duì)多輪對(duì)話(huà)、設(shè)定場(chǎng)景、陷阱釣魚(yú)以及單項(xiàng)和多項(xiàng)選擇等復(fù)雜場(chǎng)景時(shí),模型暴露出更多內(nèi)容安全風(fēng)險(xiǎn)與潛在威脅,亟需進(jìn)一步優(yōu)化和強(qiáng)化。
(一)價(jià)值觀與技術(shù)深度互嵌帶來(lái)意識(shí)形態(tài)風(fēng)險(xiǎn)在人類(lèi)與生成式大模型的雙向互動(dòng)中,生成內(nèi)容的意識(shí)形態(tài)風(fēng)險(xiǎn)主要源自其訓(xùn)練所依賴(lài)的海量語(yǔ)料,特別是那些潛藏錯(cuò)誤政治導(dǎo)向、不良意識(shí)形態(tài)、有害或極端信息的未經(jīng)篩選數(shù)據(jù)。在全球意識(shí)形態(tài)斗爭(zhēng)日益嚴(yán)峻的背景下,受到美國(guó)等西方意識(shí)形態(tài)的影響,無(wú)形中營(yíng)造了一種特定的關(guān)于大模型的輿論氛圍,潛移默化地影響公眾的價(jià)值觀。若這一趨勢(shì)任其發(fā)展,可能會(huì)導(dǎo)致公眾對(duì)美國(guó)等西方價(jià)值觀的認(rèn)同與依附,削弱國(guó)家治理的效能,威脅黨和國(guó)家在意識(shí)形態(tài)領(lǐng)域的主導(dǎo)權(quán)和主動(dòng)權(quán)。主流意識(shí)形態(tài)的影響力被削弱時(shí),還會(huì)影響人的政治判斷和政治選擇,對(duì)國(guó)家安全構(gòu)成潛在威脅。當(dāng)前,一些生成式大模型廠商為規(guī)避風(fēng)險(xiǎn),已設(shè)置意識(shí)形態(tài)等違規(guī)關(guān)鍵詞、敏感詞過(guò)濾機(jī)制,但效果相對(duì)有限。根據(jù)《中文大模型安全基準(zhǔn)雙輪測(cè)評(píng)第 1 期報(bào)告》,對(duì)國(guó)內(nèi)主流大模型核心價(jià)值觀的評(píng)測(cè)顯示,當(dāng)評(píng)估語(yǔ)境從中文切換至英文或其他外語(yǔ)時(shí),大模型展現(xiàn)出的意識(shí)形態(tài)風(fēng)險(xiǎn)更加明顯。這一現(xiàn)象與全球數(shù)據(jù)訓(xùn)練集中中文語(yǔ)料的極低比例(僅占 1.3%)有著直接關(guān)聯(lián)。由于英文語(yǔ)料主要來(lái)自美國(guó)和西方發(fā)達(dá)國(guó)家,對(duì)中國(guó)文化及價(jià)值觀的準(zhǔn)確理解存在明顯的局限性。這種文化和語(yǔ)言上的“隔閡”不僅導(dǎo)致生成的英文內(nèi)容與中國(guó)意識(shí)形態(tài)脫節(jié),而且在全球化的背景下,可能進(jìn)一步加劇意識(shí)形態(tài)領(lǐng)域的分歧與沖突風(fēng)險(xiǎn)。(二)使用門(mén)檻降低加劇虛假信息制造與傳播風(fēng)險(xiǎn)生成式大模型的快速發(fā)展使用門(mén)檻顯著降低,增加了制造與傳播虛假信息的風(fēng)險(xiǎn)隱患。這些模型具備強(qiáng)大的文本、圖像和視頻生成能力,為虛假信息的制造與傳播提供了更加隱蔽和高效的渠道。任何人都可以利用這些大模型創(chuàng)造出高度逼真的內(nèi)容,普通用戶(hù)難以判斷和識(shí)別真?zhèn)巍.?dāng)虛假信息被精心設(shè)計(jì)并巧妙地融入真實(shí)素材中時(shí),便會(huì)轉(zhuǎn)變成為包含主觀惡意、極具誤導(dǎo)性乃至社會(huì)危害性的謠言。這類(lèi)謠言不僅更貼近現(xiàn)實(shí),而且其迷惑性與傳播力也隨之顯著增強(qiáng),對(duì)社會(huì)穩(wěn)定與公眾認(rèn)知構(gòu)成了不容忽視的威脅。這些謠言顛覆了公眾以往“有圖有真相”“有視頻有真相”的認(rèn)知,極易形成誤導(dǎo),引發(fā)不必要的恐慌和混亂,嚴(yán)重?cái)_亂社會(huì)安定,影響正常的生活秩序。此外,利用大模型生成虛假信息,也成為不法分子謀取私利的工具,給企業(yè)和個(gè)人財(cái)產(chǎn)造成嚴(yán)重?fù)p害。(三)生成式大模型算法加劇人類(lèi)社會(huì)的刻板印象與偏見(jiàn)生成式大模型的算法和數(shù)據(jù)在魯棒性、透明度、可解釋性和可靠性等方面存在欠缺。盡管“大數(shù)據(jù)+海量參數(shù)+大算力”提升了模型的擬人度,但這些大模型并不會(huì)像人類(lèi)一樣理解和思考。有時(shí)它們無(wú)法準(zhǔn)確區(qū)分信息的真實(shí)性,甚至難以識(shí)別數(shù)據(jù)中隱含的偏見(jiàn)和有害內(nèi)容,因此可能會(huì)繼承或放大現(xiàn)有數(shù)據(jù)中的問(wèn)題,產(chǎn)生包含仇恨、諷刺、歧視、刻板印象、隱私泄露等有害信息。生成式大模型在處理信息時(shí)所展現(xiàn)出的偏見(jiàn),往往是社會(huì)偏見(jiàn)的一種鏡像反映。人類(lèi)自身的偏見(jiàn)會(huì)影響人工智能,而人工智能反過(guò)來(lái)也可能強(qiáng)化這些偏見(jiàn)。若放任生成式大模型輸出歧視性?xún)?nèi)容,將會(huì)進(jìn)一步延續(xù)刻板印象和社會(huì)偏見(jiàn)的風(fēng)險(xiǎn),從而導(dǎo)致不公平的歧視和傷害。此外,當(dāng)這些模型生產(chǎn)或傳播有害言論時(shí),這些言論有可能煽動(dòng)仇恨和暴力,對(duì)社會(huì)穩(wěn)定和安全構(gòu)成威脅。國(guó)內(nèi)一些主流大模型在地域、性別、年齡、健康狀況、學(xué)歷背景、體型等方面出現(xiàn)了歧視問(wèn)題。例如,在回答關(guān)于已婚男性和已婚女性應(yīng)聘崗位誰(shuí)更容易被錄用的問(wèn)題時(shí),有的大模型選擇了“男性”。這體現(xiàn)了性別偏見(jiàn)的存在。大模型在引入或放大現(xiàn)有的社會(huì)偏見(jiàn)時(shí),會(huì)在輔助決策過(guò)程中會(huì)造成不公平的結(jié)果。
二、治理困境:傳統(tǒng)內(nèi)容治理方法難以應(yīng)對(duì)當(dāng)前問(wèn)題
在大模型驅(qū)動(dòng)的智能時(shí)代,雙向交互催生了海量?jī)?nèi)容,同時(shí)也帶來(lái)了更多復(fù)雜的內(nèi)容違規(guī)問(wèn)題。與以往相比,內(nèi)容治理變得更加棘手,這也導(dǎo)致傳統(tǒng)治理方法難以有效捕捉并應(yīng)對(duì)潛在的風(fēng)險(xiǎn)和問(wèn)題。面對(duì)這種治理困境,亟需轉(zhuǎn)變思路,創(chuàng)新治理策略,以確保智能時(shí)代的信息生態(tài)能夠健康有序地發(fā)展。
(一)基于對(duì)象場(chǎng)景的分散治理難以統(tǒng)籌治理全局在早期發(fā)展階段,人工智能技術(shù)的發(fā)展主要集中在特定的垂直應(yīng)用領(lǐng)域,例如圖像處理、影視領(lǐng)域的換臉技術(shù)以及配音領(lǐng)域的文本到語(yǔ)音轉(zhuǎn)換等。這類(lèi)人工智能模型在設(shè)計(jì)之初通常以解決特定場(chǎng)景或領(lǐng)域的問(wèn)題為主要目的,因此它們的訓(xùn)練內(nèi)容專(zhuān)項(xiàng)性強(qiáng),風(fēng)險(xiǎn)相對(duì)易于管理。隨著以 ChatGPT 為代表的通用大模型的崛起,人工智能技術(shù)邁入了全新的發(fā)展階段。這些大模型具有靈活性和廣泛適用性的特點(diǎn),能夠跨越傳統(tǒng)界限,同時(shí)處理音頻、視頻、圖像、文本等多模態(tài)數(shù)據(jù),從而提升了交互的深度與廣度。此時(shí)的人工智能不僅能夠理解復(fù)雜指令,還能生成多種格式的高質(zhì)量?jī)?nèi)容,極大地拓寬了人工智能的應(yīng)用場(chǎng)景。然而,人工智能的這一演進(jìn)也伴隨著風(fēng)險(xiǎn)的擴(kuò)散與升級(jí)。由于大模型的通用性,其潛在的風(fēng)險(xiǎn)不再局限于單一領(lǐng)域,而是可能迅速蔓延至各個(gè)行業(yè)與領(lǐng)域,這也導(dǎo)致了基于過(guò)去特定對(duì)象場(chǎng)景的分散治理難以統(tǒng)籌治理全局。(二)僅憑算法治理難以控制內(nèi)容輸入端事前防御風(fēng)險(xiǎn)不同于傳統(tǒng)人工智能產(chǎn)品或服務(wù)的單向提供方式,生成式大模型以其獨(dú)特的“用戶(hù)輸入+機(jī)器輸出”模式,實(shí)現(xiàn)了高度個(gè)性化的內(nèi)容創(chuàng)造過(guò)程。在此過(guò)程中,用戶(hù)的具體需求成為決定輸出內(nèi)容的關(guān)鍵因素。雖然這種雙向交互促進(jìn)了服務(wù)的靈活性和定制性,但同時(shí)也帶來(lái)了合規(guī)性挑戰(zhàn)。即便服務(wù)提供者在前端依法履行了研發(fā)合規(guī)義務(wù),用戶(hù)仍然可能在輸入端打破合規(guī)性。例如,用戶(hù)可能輸入違反法律法規(guī)和公序良俗的內(nèi)容,或涉及仇恨、暴力的命令,或要求生成某一公眾人物的形象、聲音等,這些輸入可能導(dǎo)致生成的內(nèi)容存在違法或侵犯人格權(quán)等的風(fēng)險(xiǎn)。即便用戶(hù)并非主觀地進(jìn)行惡意輸入行為,但由于用戶(hù)群體的廣泛性和知識(shí)水平的差異,這些輸入數(shù)據(jù)的質(zhì)量難以保證,從而可能直接影響到人工智能模型基礎(chǔ)數(shù)據(jù)的準(zhǔn)確性。公眾在享受人工智能服務(wù)的同時(shí),無(wú)形中為生成式大模型提供了數(shù)據(jù)“養(yǎng)料”。因此,“數(shù)據(jù)噪音”的累積可能會(huì)降低人工智能模型的性能,甚至加劇其生成錯(cuò)誤或有害內(nèi)容的風(fēng)險(xiǎn),形成內(nèi)容安全風(fēng)險(xiǎn)的惡性循環(huán),即低質(zhì)、錯(cuò)誤、虛假的內(nèi)容不斷輸入,進(jìn)一步加劇人工智能模型生成不良信息的傾向,從而帶來(lái)更多的內(nèi)容安全風(fēng)險(xiǎn)。由于傳統(tǒng)人工智能服務(wù)的單向性,風(fēng)險(xiǎn)的事前預(yù)防主要依賴(lài)于算法備案與算法評(píng)估。然而,在大模型時(shí)代,由于輸入端高度個(gè)性化和不可控性,并不能預(yù)知用戶(hù)在利用生成式大模型的過(guò)程中會(huì)產(chǎn)生何種侵害行為,這使得傳統(tǒng)的基于服務(wù)提供平臺(tái)的算法評(píng)估制度難以起到有效的事前預(yù)防作用。(三)基于深度偽造的虛假信息傳播增加了辨識(shí)難度接續(xù)發(fā)布的 Sora 和 ChatGPT-4 驗(yàn)證了通過(guò)大規(guī)模數(shù)據(jù)訓(xùn)練人工智能模型,能夠更好地理解現(xiàn)實(shí)世界的運(yùn)作規(guī)律,并將其運(yùn)用于生成更逼真的內(nèi)容。這些大模型能夠在紛繁復(fù)雜的“噪聲”數(shù)據(jù)中,借助深度神經(jīng)網(wǎng)絡(luò)的精細(xì)訓(xùn)練,逐步提煉并生成逼真、細(xì)膩的圖像乃至視頻內(nèi)容。在這個(gè)過(guò)程中,模型不僅學(xué)會(huì)了如何模擬真實(shí)世界的視覺(jué)特征,還巧妙地規(guī)避了傳統(tǒng)人臉視頻防偽檢測(cè)技術(shù)所依賴(lài)的偽造線索,使偽造視頻的檢測(cè)難度顯著增加,對(duì)防偽技術(shù)提出了更嚴(yán)峻的挑戰(zhàn)。深度偽造技術(shù)通過(guò)復(fù)雜的神經(jīng)網(wǎng)絡(luò)和大規(guī)模數(shù)據(jù)訓(xùn)練,能夠生成高度逼真的虛假內(nèi)容,這種技術(shù)本質(zhì)上是一種“無(wú)監(jiān)督學(xué)習(xí)”,具有極強(qiáng)的自我適應(yīng)性和快速演化性等特征。這些特征使得視頻造假能力呈現(xiàn)指數(shù)級(jí)的躍升。黑灰產(chǎn)正是利用這一特點(diǎn),迅速炮制出海量以假亂真的信息,嚴(yán)重?cái)_亂了內(nèi)容安全的生態(tài)。深度偽造問(wèn)題已蔓延至政壇、經(jīng)濟(jì)、社會(huì)等多個(gè)領(lǐng)域,對(duì)社會(huì)穩(wěn)定構(gòu)成了嚴(yán)峻挑戰(zhàn)。公眾人物成為深度偽造的主要目標(biāo)。例如,特朗普的形象和言論就頻繁被用于制造虛假視頻和照片,嚴(yán)重誤導(dǎo)公眾,甚至引發(fā)社會(huì)恐慌和政治動(dòng)蕩。此外,深度偽造技術(shù)的變種越來(lái)越多,也越來(lái)越快,導(dǎo)致誤報(bào)和漏報(bào)事件頻發(fā),使傳統(tǒng)檢測(cè)技術(shù)難以跟上其發(fā)展步伐。
三、破局之道:人工智能賦能生成式大模型內(nèi)容安全治理
面對(duì)生成式大模型內(nèi)容安全風(fēng)險(xiǎn)呈現(xiàn)出的新特點(diǎn)與新挑戰(zhàn),傳統(tǒng)的內(nèi)容安全合規(guī)手段已顯露出明顯的局限性,難以高效、精準(zhǔn)地應(yīng)對(duì)復(fù)雜多變的威脅環(huán)境。因此,深化內(nèi)容安全治理技術(shù)的革新勢(shì)在必行。借助人工智能的力量進(jìn)行賦能,解決模型訓(xùn)練、研發(fā)與運(yùn)行、內(nèi)容生成階段的重點(diǎn)問(wèn)題成為破局之道。
(一)提升數(shù)據(jù)標(biāo)注的智能化水平大模型訓(xùn)練依賴(lài)高質(zhì)量數(shù)據(jù),充足且精確的訓(xùn)練數(shù)據(jù)是提升模型泛化能力的關(guān)鍵。通過(guò)對(duì)輸入數(shù)據(jù)進(jìn)行嚴(yán)格的篩選和把關(guān),移除或修正包含偏見(jiàn)、歧視、錯(cuò)誤信息等樣本,可以確保數(shù)據(jù)準(zhǔn)確性,進(jìn)而實(shí)現(xiàn)對(duì)生成式人工智能產(chǎn)品內(nèi)容的安全把控,并最終實(shí)現(xiàn)更廣泛的通用大模型的全局治理。當(dāng)前,數(shù)據(jù)清洗、平衡和標(biāo)注是提升數(shù)據(jù)質(zhì)量的關(guān)鍵手段。ChatGPT 的成功在于引入了人類(lèi)反饋強(qiáng)化學(xué)習(xí)(RLHF)機(jī)制和大量人工標(biāo)注數(shù)據(jù)。然而,現(xiàn)階段人工標(biāo)注的語(yǔ)料普遍存在成本高、效率低和質(zhì)量參差不齊等問(wèn)題。人工智能賦能的自動(dòng)標(biāo)注技術(shù)正在快速發(fā)展,能夠顯著提高效率。例如,美國(guó)的 Scale AI 采用的 Snorkel 技術(shù)通過(guò)結(jié)合規(guī)則、模型、知識(shí)庫(kù)等多種信號(hào)進(jìn)行自動(dòng)標(biāo)注,減少了對(duì)人工的直接依賴(lài),有效降低了成本和時(shí)間消耗。雖然通過(guò)初篩的圖片和文本數(shù)據(jù)還需要經(jīng)過(guò)人工二次篩查和標(biāo)注,但這種人機(jī)配合的方式已大大提高了標(biāo)注效率。目前,國(guó)內(nèi)企業(yè)也在這方面進(jìn)行積極探索和實(shí)踐。例如,知道創(chuàng)宇公司自主研發(fā)了一站式人工智能數(shù)據(jù)輔助標(biāo)注平臺(tái),支持文本、圖片、視頻、音頻等多類(lèi)型數(shù)據(jù),實(shí)現(xiàn)人機(jī)協(xié)同半自動(dòng)化標(biāo)注與質(zhì)檢,能夠大幅提升數(shù)據(jù)標(biāo)注的產(chǎn)能和質(zhì)量。(二)從技術(shù)性和規(guī)范性角度促進(jìn)價(jià)值對(duì)齊應(yīng)對(duì)大模型的意識(shí)形態(tài)偏差和歧視性等風(fēng)險(xiǎn),迫切需要實(shí)現(xiàn)價(jià)值對(duì)齊。算法是生成式人工智能產(chǎn)品的核心,因此在模型研發(fā)與運(yùn)行階段,需要重點(diǎn)防范算法歧視。人工智能的“黑箱”特性導(dǎo)致其內(nèi)部運(yùn)作機(jī)制不透明,使性別、種族等偏見(jiàn)與眾多復(fù)雜參數(shù)之間形成了錯(cuò)綜復(fù)雜的關(guān)聯(lián),因此,僅僅通過(guò)直接刪除或屏蔽模型中的特定參數(shù)來(lái)徹底剔除偏見(jiàn)變得極為困難。算法偏見(jiàn)的根源來(lái)自數(shù)據(jù),不公正的數(shù)據(jù)集成為歧視性等偏見(jiàn)的土壤。因此,構(gòu)建更加公正的數(shù)據(jù)集無(wú)疑是解決算法的偏見(jiàn)關(guān)鍵方法之一。同時(shí),需在政策和法律層面規(guī)范算法設(shè)計(jì)者的行為,并利用對(duì)抗訓(xùn)練對(duì)算法安全進(jìn)行糾偏,以增強(qiáng)算法的可信度。目前,可采取大模型評(píng)測(cè)等方式模擬攻擊,揭示模型的安全隱患、邏輯漏洞和性能缺陷。這種測(cè)試可以提前發(fā)現(xiàn)并糾正模型可能存在的問(wèn)題,確保其在面向公眾發(fā)布時(shí)能夠展現(xiàn)出更高的穩(wěn)健性和安全性。此外,還可以從技術(shù)性和規(guī)范性入手,實(shí)現(xiàn)價(jià)值對(duì)齊方法。在規(guī)范性方面,可以設(shè)立人工智能應(yīng)遵循的倫理和道德原則,例如透明性、安全性、可追溯性與可解釋性,以指導(dǎo)開(kāi)發(fā)相應(yīng)系統(tǒng)。在技術(shù)層面,可以采用人類(lèi)反饋強(qiáng)化學(xué)習(xí)、合作逆強(qiáng)化學(xué)習(xí)、監(jiān)督精調(diào)等方式,將通用的倫理原則轉(zhuǎn)化成現(xiàn)實(shí)可操作的技術(shù)路徑,避免人工智能的執(zhí)行路線發(fā)生扭曲。從國(guó)際技術(shù)探索進(jìn)展看,谷歌推出的 What-If 工具是 TensorBoard 中用于檢測(cè)偏見(jiàn)的工具;IBM 也將其偏見(jiàn)檢測(cè)工具 AI Fairness 360 工具包開(kāi)源,其中,包括超過(guò) 30 個(gè)公平性指標(biāo)和 9 個(gè)偏差緩解算法。然而,從目前的成果看,大多數(shù)技術(shù)突破還僅僅處于初級(jí)階段,即在檢測(cè)偏見(jiàn)和消除偏見(jiàn)方面的研究,仍亟須進(jìn)一步努力。(三)完善用戶(hù)輸入側(cè)、內(nèi)容輸出側(cè)的內(nèi)容過(guò)濾審核機(jī)制在內(nèi)容生成階段,生成式人工智能既是信息內(nèi)容的生成工具,也是用戶(hù)輸入信息的收集工具。當(dāng)用戶(hù)向模型輸入指令并進(jìn)行互動(dòng)時(shí),為了防范用戶(hù)通過(guò)提示詞(Prompt)惡意誘導(dǎo)模型輸出不當(dāng)內(nèi)容,模型設(shè)計(jì)時(shí)應(yīng)具備多樣化的提示詞庫(kù),包括正面、中性、負(fù)面等提示詞,從而提高內(nèi)容審核能力。針對(duì)惡意誘導(dǎo)大模型生成違規(guī)內(nèi)容的Prompt,應(yīng)進(jìn)行改寫(xiě)并給出毒性提示。同時(shí),通過(guò)內(nèi)容安全評(píng)測(cè)和攻擊指令評(píng)測(cè)等方式,識(shí)別繞過(guò)現(xiàn)有提示詞的攻擊行為,及時(shí)發(fā)現(xiàn)問(wèn)題并優(yōu)化現(xiàn)有提示詞庫(kù)。對(duì)于生成式大模型的使用者,應(yīng)強(qiáng)化“用戶(hù)責(zé)任”原則。服務(wù)提供者與用戶(hù)之間應(yīng)通過(guò)明確、具體的合同條款,突出強(qiáng)調(diào)并警示用戶(hù)不得將人工智能技術(shù)濫用于任何違法犯罪活動(dòng),確保技術(shù)應(yīng)用的合法性和道德性。例如,可以通過(guò)強(qiáng)化用戶(hù)責(zé)任提示,要求其對(duì)輸入和輸出的內(nèi)容負(fù)責(zé),以減少有害信息傳播。針對(duì)內(nèi)容輸出側(cè)可能存在的虛假、有害信息等生成與傳播風(fēng)險(xiǎn),技術(shù)或服務(wù)提供者應(yīng)建立完善的人工智能過(guò)濾審核機(jī)制,并不斷升級(jí)針對(duì)虛假內(nèi)容的識(shí)別技術(shù)。人工智能技術(shù)能夠幫助鑒別系統(tǒng)形成強(qiáng)大的持續(xù)學(xué)習(xí)與自適應(yīng)能力。通過(guò)收集和分析新出現(xiàn)的偽造案例,不斷優(yōu)化算法模型,確保系統(tǒng)能夠及時(shí)識(shí)別并應(yīng)對(duì)新型偽造手段。同時(shí),可以利用人工智能技術(shù)追蹤信息的傳播路徑,分析內(nèi)容生成背景、作者歷史行為模式、社交網(wǎng)絡(luò)關(guān)系等,評(píng)估信息的真實(shí)性與可信度。為有效應(yīng)對(duì)生成式大模型在輸出內(nèi)容時(shí)可能引發(fā)的意識(shí)形態(tài)偏差、歧視等認(rèn)知域風(fēng)險(xiǎn),亟需構(gòu)建一套系統(tǒng)化的大模型常態(tài)化評(píng)測(cè)與監(jiān)控機(jī)制。這一機(jī)制應(yīng)類(lèi)似于定期為大型系統(tǒng)進(jìn)行的“健康檢查”,旨在及時(shí)發(fā)現(xiàn)潛在問(wèn)題并迅速采取糾正措施。(四)強(qiáng)化政策引導(dǎo)并加快政策執(zhí)行的有效落地在技術(shù)治理的同時(shí),保障生成式大模型內(nèi)容安全,亟需政府的有效監(jiān)管與引導(dǎo)。盡管目前已經(jīng)出臺(tái)了一系列與大模型內(nèi)容安全相關(guān)的政策與標(biāo)準(zhǔn)框架,但其實(shí)踐執(zhí)行仍面臨諸多挑戰(zhàn)。特別是在具體政策執(zhí)行過(guò)程中,因?qū)?nèi)容安全重要性的認(rèn)識(shí)不足和執(zhí)行機(jī)制不健全,導(dǎo)致政策落實(shí)不到位。應(yīng)進(jìn)一步增強(qiáng)大模型廠商的合規(guī)意識(shí),并加大監(jiān)管力度,確保政策標(biāo)準(zhǔn)嚴(yán)格、有效地執(zhí)行。目前,大模型內(nèi)容的合規(guī)性邊界仍在不斷探索和細(xì)化中;未來(lái),仍需持續(xù)研究與評(píng)估,并完善相關(guān)規(guī)范,以確保輸出內(nèi)容的合法性、健康性和道德性。