文/北京市集佳律師事務(wù)所 周丹丹 崔夢(mèng)嘉 曹陽(yáng)
隨著(zhù)人工智能時(shí)代的到來(lái),高質(zhì)量訓練數據已成為大模型發(fā)展的基礎,如何合法合規獲取并構建高質(zhì)量數據集成為業(yè)界越來(lái)越關(guān)注的問(wèn)題。訓練數據一般來(lái)源于網(wǎng)絡(luò )爬取、企業(yè)直接收集、開(kāi)源數據集、商業(yè)途徑購買(mǎi)等渠道,網(wǎng)絡(luò )爬取數據系其中最重要的組成部分。數據爬取行為的正當性及其邊界問(wèn)題,在近年來(lái)數據作為重要生產(chǎn)要素的背景下,一直廣為討論。但由于目前數據保護專(zhuān)門(mén)立法仍在探索中,在民事法律層面,我國主要通過(guò)《反不正當競爭法》對數據爬取行為予以規制。本文將結合現有數據爬取司法案例,從數據爬取的內容、行為手段、爬取后果等角度,結合利益平衡原則,分析當前司法實(shí)務(wù)所劃定的數據爬取行為正當性邊界,梳理總結企業(yè)數據爬取行為的合規要點(diǎn)。
一、網(wǎng)絡(luò )爬蟲(chóng)技術(shù)的廣泛應用
在涉數據爬取案件中,均會(huì )提到一個(gè)名詞即“爬蟲(chóng)”。此“爬蟲(chóng)”是一種程序腳本,是互聯(lián)網(wǎng)上爬取各網(wǎng)站、平臺數據信息內容的程序腳本的統稱(chēng),因其英文名稱(chēng)“Crawler”“Spider”等而獲中文名稱(chēng)“爬蟲(chóng)”。
行為模式上,爬蟲(chóng)按照其使用者編寫(xiě)好的規則,自動(dòng)為使用者爬取互聯(lián)網(wǎng)上的數據信息內容。它們通常使用自動(dòng)化數據抓取技術(shù)來(lái)自動(dòng)訪(fǎng)問(wèn)網(wǎng)站,并收集、解析和存儲網(wǎng)站上的信息。這些信息可以是結構化或非結構化數據。在過(guò)去20多年,爬蟲(chóng)技術(shù)已廣泛應用于多個(gè)領(lǐng)域,如搜索引擎、內容聚合、電子商務(wù)比價(jià)或市場(chǎng)研究、社交媒體輿情監測、競爭情報分析等等。
二、數據爬取行為的正當性邊界判斷
在涉數據爬取類(lèi)不正當競爭糾紛案件中,法院通常從以下四個(gè)方面對數據爬取行為的正當性進(jìn)行判斷:一是判斷數據持有者和數據獲取者之間是否具有競爭關(guān)系;二是判斷數據持有者是否享有受法律保護的競爭性數據權益;三是判斷數據獲取或使用行為是否具有不正當性;四是判斷數據獲取或使用行為是否損害經(jīng)營(yíng)者權益、消費者權益和市場(chǎng)競爭秩序。本文主要從數據獲取及使用行為的行為要件和結果要件上,總結目前司法實(shí)踐中行為正當性判斷考量因素及裁判要旨。
(一)數據爬取行為不得破壞或繞開(kāi)技術(shù)措施
常見(jiàn)的破壞、繞開(kāi)技術(shù)措施行為包括:破壞數據持有者加密系統;破壞數據持有者設置的身份認證系統、用戶(hù)登錄系統;偽裝成用戶(hù)登錄或模擬用戶(hù)行為,欺騙數據持有者的身份認證系統;破壞、繞開(kāi)反爬蟲(chóng)技術(shù)措施,如破壞、繞開(kāi)封禁措施、IP訪(fǎng)問(wèn)限制等。
在谷米公司訴元光公司“車(chē)來(lái)了”案【1】中,就元光公司使用爬蟲(chóng)通過(guò)更換IP地址、破解加密算法等技術(shù)方式爬取谷米公司的公交實(shí)時(shí)數據,日均300萬(wàn)至400萬(wàn)條的行為,法院認定元光公司未經(jīng)谷米公司許可,利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)進(jìn)入谷米公司服務(wù)器后臺的方式非法獲取數據的行為,具有非法占用他人無(wú)形財產(chǎn)權益,破壞他人市場(chǎng)競爭優(yōu)勢,并為自己謀取競爭優(yōu)勢的主觀(guān)故意,違反了誠實(shí)信用原則,擾亂了競爭秩序,構成不正當競爭。
在新浪微博訴超級星飯團案【2】中,法院認定云智聯(lián)公司抓取新浪微博非公開(kāi)數據的行為涉及利用技術(shù)手段破壞或繞開(kāi)微夢(mèng)公司設定的訪(fǎng)問(wèn)權限,具有不正當性。
(二)數據爬取行為應遵守Robots協(xié)議
Robots協(xié)議系通過(guò)在網(wǎng)站域名根目錄下以文本文檔robots.txt之形式,向爬蟲(chóng)指引網(wǎng)站所有者對于其網(wǎng)站內的內容允許抑或禁止爬取的意思表示。該規范于90年代由網(wǎng)絡(luò )工程師們發(fā)起,迅速形成了搜索引擎領(lǐng)域內普遍認可、普遍遵守的技術(shù)規范。中國互聯(lián)網(wǎng)協(xié)會(huì )于2012年11月發(fā)布的《互聯(lián)網(wǎng)搜索引擎自律公約》第七條中即明確約定了“遵循國際通行的行業(yè)慣例與商業(yè)規則,遵守機器人協(xié)議(Robots協(xié)議)”,第八條規定“互聯(lián)網(wǎng)站所有者設置機器人協(xié)議應遵循公平、開(kāi)放和促進(jìn)信息自由流動(dòng)的原則,限制搜索引擎抓取應有行業(yè)公認合理的正當理由,不利用機器人協(xié)議進(jìn)行不正當競爭行為,積極營(yíng)造鼓勵創(chuàng )新、公平公正的良性競爭環(huán)境?!?/p>
在我國現有的多個(gè)涉數據爬取案件中,對于爬蟲(chóng)使用者違反Robots協(xié)議的行為是否構成不正當競爭,法院總體上都需要結合利益平衡原則進(jìn)行綜合判斷。主要的司法觀(guān)點(diǎn)如下:
1.Robots協(xié)議是搜索引擎行業(yè)普遍遵守的技術(shù)規范,可以作為公認商業(yè)道德的參考
2.違反Robots協(xié)議的爬取行為,通常會(huì )認為具有不正當性
在百度訴奇虎“360搜索引擎”案【3】中,北京市第一中級人民法院認定360搜索引擎推出時(shí)違反Robots協(xié)議爬取百度平臺數據內容的行為構成不正當競爭。
在新浪微博訴超級星飯團案中,法院認定“根據微夢(mèng)公司提交的新浪微博Robots協(xié)議,以及雙方均認可Robots協(xié)議可以約束包括網(wǎng)絡(luò )爬蟲(chóng)在內的機器人之事實(shí),云智聯(lián)公司在明知微夢(mèng)公司限制除白名單以外的機器人抓取涉案數據的情況下仍然實(shí)施抓取涉案數據中的公開(kāi)數據,顯然亦具有明顯的主觀(guān)惡意”,并結合其他因素,最終認定云智聯(lián)公司抓取新浪微博公開(kāi)數據的行為具有不正當性。
3.設置Robots協(xié)議本身具有不正當性,也可能影響違反Robots協(xié)議爬取數據行為的正當性判斷
從Robots協(xié)議設置的原理而言,Robots協(xié)議設置是否具有正當、合理理由,不宜作為數據爬取者是否遵循該Robots協(xié)議的前提條件,也不應成為數據爬取者違反Robots協(xié)議爬取數據行為正當性判斷需要考量的因素。但在司法實(shí)踐中,法院通常也會(huì )對網(wǎng)站經(jīng)營(yíng)者所設置之Robots協(xié)議是否正當、合理進(jìn)行判斷。
百度訴奇虎“360搜索引擎”案中,法院認為,百度在奇虎發(fā)出修改百度Robots協(xié)議的要求后應在合理期限內書(shū)面告知拒絕修改的合理理由,在百度未明確提出合理理由的情況下,奇虎在《自律公約》簽訂后實(shí)施的爬取行為不構成不正當競爭。
雖然在奇虎訴百度設置Robots協(xié)議禁止360搜索引擎爬取案【4】中,法院認為百度于《自律公約》簽訂后仍在Robots協(xié)議中專(zhuān)門(mén)針對360爬蟲(chóng)進(jìn)行限制的行為屬于歧視性措施,不具有合理、正當的理由,最終認定百度在Robots協(xié)議中針對360爬蟲(chóng)進(jìn)行歧視性設置的行為構成不正當競爭,但Robots協(xié)議中的針對性設置并非當然具有不正當性。在字節跳動(dòng)訴新浪微博案【5】中,法院認定“Robots協(xié)議在某種意義上已經(jīng)成為維系企業(yè)核心競爭力,維系市場(chǎng)有序競爭的一種手段。盡管Robots協(xié)議客觀(guān)上可能造成對某個(gè)或某些經(jīng)營(yíng)者的‘歧視’,但在不損害消費者利益、不損害公共利益、不損害競爭秩序的情況下,應當允許網(wǎng)站經(jīng)營(yíng)者通過(guò)Robots協(xié)議對其他網(wǎng)絡(luò )機器人的抓取進(jìn)行限制,這是網(wǎng)站經(jīng)營(yíng)者經(jīng)營(yíng)自主權的一種體現?!?/p>
(三)從數據爬取的后果上,不得妨礙、破壞系統的正常運行,不得產(chǎn)生實(shí)質(zhì)性替代
即使數據爬取行為不具有任何不正當性,也并不意味著(zhù)數據爬取者可以對所爬取的數據任意使用。若從爬取后果的角度,存在妨礙、破壞被爬取的系統的正常運行,或后續的數據使用行為對于數據持有者的產(chǎn)品產(chǎn)生實(shí)質(zhì)性替代,或損害公共利益、市場(chǎng)競爭秩序,也可能被法院認定為具有不正當性。
關(guān)于數據使用行為的正當性,有兩個(gè)層次:若數據來(lái)源本身不正當,則后續的數據使用行為也難謂正當;若數據來(lái)源本身不存在不正當性,也不意味著(zhù)可以任意使用所爬取的數據,而仍應合理控制數據使用范圍和方式,不得對數據持有者產(chǎn)品產(chǎn)生實(shí)質(zhì)性替代效果。
在大眾點(diǎn)評訴百度案【6】中,法院認定百度公司通過(guò)搜索技術(shù)抓取并大量全文展示來(lái)自大眾點(diǎn)評網(wǎng)的信息已經(jīng)超過(guò)必要的限度,構成對大眾點(diǎn)評網(wǎng)的實(shí)質(zhì)性替代,具有不正當性。
從現有司法案例可以看出,數據使用應當遵循“最少、必要”的原則,即采取對數據持有者損害最小的措施,如超出必要限度使用數據,造成對數據持有者的實(shí)質(zhì)性替代,則構成不正當競爭。而在對是否超出必要限度進(jìn)行考量時(shí),可能被法院考慮的因素包括:
1.使用方式:對數據是否直接搬運使用、基本沒(méi)有創(chuàng )新性使用;
2.替代程度:是否導致消費者無(wú)需使用數據持有者產(chǎn)品,而產(chǎn)生了“替代”;
3.最小損害:是否存在明顯損害方式更小的數據使用方式而未采??;
4.市場(chǎng)效果:是否具有提升消費者福利、促進(jìn)市場(chǎng)競爭的正向作用。
(四)利益平衡原則在行為正當性司法判斷上的運用
就數據爬取行為的規制,法院主要適用《反不正當競爭法》互聯(lián)網(wǎng)專(zhuān)條兜底條款或第二條一般性條款予以規制。而無(wú)論適用哪一條,均會(huì )涉及到利益平衡原則的運用。根據《反不正當競爭法司法解釋》第三條第二款,“人民法院應當結合案件具體情況,綜合考慮行業(yè)規則或者商業(yè)慣例、經(jīng)營(yíng)者的主觀(guān)狀態(tài)、交易相對人的選擇意愿、對消費者權益、市場(chǎng)競爭秩序、社會(huì )公共利益的影響等因素,依法判斷經(jīng)營(yíng)者是否違反商業(yè)道德?!?/p>
有論者提供了數據爬取中權益權衡的分析框架,【7】對于精細化衡量數據爬取各方權益具有參考作用。目前雖尚未發(fā)現法院采用如此精細量化之方式,但法院利益平衡原則一直以來(lái)都是數據爬取行為正當性評述的重點(diǎn)。
在筆者所代理的某搜索引擎違反Robots協(xié)議爬取數據案中,法院即綜合考慮了被訴搜索引擎違反Robots協(xié)議爬取數據作為搜索引擎服務(wù)內容予以提供,對搜索結果設置聚合產(chǎn)品予以主動(dòng)推薦,同時(shí)考慮了被訴行為對其他經(jīng)營(yíng)者合法權益的損害,對消費者利益的損害,及對市場(chǎng)競爭秩序的影響進(jìn)行判斷。
在新浪微博訴超級星飯團案中,法院認定,網(wǎng)絡(luò )平臺對他人抓取其公開(kāi)數據應負有一定程度上的容忍義務(wù),即對于平臺中的公開(kāi)數據,基于網(wǎng)絡(luò )環(huán)境中數據的可集成、可交互之特點(diǎn),平臺經(jīng)營(yíng)者應當在一定程度上容忍他人合法收集或利用其平臺中已公開(kāi)的數據,否則將可能阻礙以公益研究或其他有益用途為目的的數據運用,有違互聯(lián)網(wǎng)互聯(lián)互通之精神。
三.企業(yè)數據爬取的合規要點(diǎn)
根據如上對現有司法案例的分析,本文總結提煉企業(yè)數據爬取行為的如下合規要點(diǎn):
1.不可突破、繞開(kāi)技術(shù)措施爬取數據,包括模擬用戶(hù)身份或行為進(jìn)行系統登錄;
2.遵守Robots協(xié)議;
3.避免爬取個(gè)人信息、他人享有著(zhù)作權的作品、商業(yè)秘密等;
4.避免大量、高頻地爬取數據,防止破壞網(wǎng)站正常經(jīng)營(yíng);
5.使用數據遵循“最小必要原則”,避免產(chǎn)生對數據持有者的實(shí)質(zhì)性替代;
6.爬取并使用開(kāi)源數據集,需要遵守開(kāi)源許可證。
注釋?zhuān)?/strong>
【1】(2017)粵03民初822號民事判決書(shū)。
【2】(2017)京0108民初24512號民事判決書(shū)。
【3】(2013)一中民初字第2668號民事判決書(shū)。
【4】(2017)京民終487號民事判決書(shū)。
【5】(2021)京民終281號民事判決書(shū)。
【6】(2016)滬73民終242號民事判決書(shū)。
【7】許可,《數據爬取的正當性及其邊界》,載《中國法學(xué)》2021年第2期。