原创刘炯胡岚岚上海市法学会东方法学收录于话题#上海法学研究个#原创首发个#法学个#核心期刊个
刘炯
锦天城律师事务所律师,高级合伙人
胡岚岚
锦天城律师事务所资深律师
要目
一、个人信息与匿名信息
二、GDPR视角下的“匿名化”
三、美国法视角下的“去标识化”
四、匿名化技术的困境
五、关于个人信息边界的考量
个人信息是网络信息安全、隐权保护的权利基础之一。各国立法对于个人信息均加以严格保护,如欧盟出台了统一数据规则通用数据保护条例(GDPR),强调个人数据处理的绝对匿名化,美国出台的健康保险携带和责任法案(HIPPA)、加利福尼亚州消费者隐私保护法案(CCPA)等对个人信息要求实现去标识化,并对重识别进行限制。两种模式均对中国未来的个人信息保护、数据安全立法有借鉴意义。同时,对中国而言,未来的立法宗旨应当是为了实现数据自由流动和个人权利保护之间的平衡。
个人信息是相关网络信息安全、隐权保护的权利基础之一。各国立法对于个人信息均加以严格保护,并以知情-同意原则为核心,构建起数据主体层层授权控制者、使用者等处理其信息的机制;而非个人信息则因排除在个人信息之外,因此其使用、处理均无须取得数据主体同意,进而可以自由流动,非个人信息的控制者也无须为个人信息主体的权利(如访问、更正、删除、撤回同意、注销账户等)履行相应义务,这为控制者、使用者加以数据挖掘,创造更大价值。
然而,在大数据时代,个人信息与“非个人信息”边界已变得模糊。如何确立个人信息的合理边界仍然是一个难题。边界过窄,无法对数字时代的个人提供有效的保护,但边界过宽,乃至在实务中无法区分,也会对法律体系自身能否有效运转带来疑问。
一、个人信息与匿名信息
根据网络安全法第76条的规定,个人信息是指以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息,包括但不限于自然人的姓名、出生日期、身份证件号码、个人生物识别信息、住址、电话号码等。
因此,对于个人信息定义的理解,不在于信息类型本身,而在于能够“特定化”自然人的身份,个人信息受“识别性”的限制,即当某特定的人可被识别时,与该人有关的信息才属于个人信息。举例而言,单独的“出生日期”信息,并不直接构成个人信息,而是一项可能成为个人信息的信息类型。“出生日期”信息和“联系地址”信息结合则可能构成一项个人信息,因为可以识别出个人身份,但是仅出生日期信息不直接构成个人信息。
从这个意义而言,立法保护的法益实则是“个人”而非“信息”本身,是作为数据主体的个人对数据所享有的隐私权和财产权,而不能关联到个人的信息则不应在个人信息安全保护的范围之内。
这在网络安全法第42条第1款中有所体现:“网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。”
不过,其中的“经过处理无法识别特定个人且不能复原”的表述却十分宽泛,如无法识别的程度,是否结合其他信息识别,以及不能复原的主体是数据的使用者还是包括数据控制者等问题均不明确。
参考正在立法中的个人信息保护法将个人信息定义为:“个人信息是以电子或其他方式记录的与已识别或者可识别的自然人有关的各种信息,不包括匿名化处理后的信息。”立法的思路也是参考GDPR,采用可识别性+关联性的立法模式,仅将匿名化信息排除在个人信息之外,而匿名信息在目前中国法语境下并无完整的定义。
二、GDPR视角下的“匿名化”
欧盟的GDPR是数据保护中的一部最为重要的立法,其第4条对个人数据定义如下:个人数据是指与已识别的或可识别的自然人(“数据主体”)有关的所有信息。可识别的自然人是指其能够被直接或间接通过识别要素得以识别的自然人,尤其是通过姓名、身份证号码、定位数据、在线身份等识别数据,或者通过该自然人的物理、生理、遗传、心理、经济、文化或社会身份的一项或多项要素予以识别。
对比GDPR的定义,笔者注意到,GDPR的个人数据的含义中不仅强调了可识别性(identifiedoridentifiable),还强调了关联性(relatingto)。同时,GDPR中还存在“假名化”(pseudonymization)数据和“匿名化”(Anonymization)数据两个概念:
Definition.(5)‘pseudonymization’meanstheprocessingofpersonaldatainsuchamannerthatthepersonaldatacannolongerbeattributedtoaspecificdatasubjectwithouttheuseofadditionalinformation,providedthatsuchadditionalinformationiskeptseparatelyandissubjecttotechnicalandorganizationalmeasurestoensurethatthepersonaldataarenotattributedtoanidentifiedoridentifiablenaturalperson.
定义第五条“假名化”是指在不使用附加信息的情况下,个人数据不能再归属于特定数据主体的方式处理个人数据,前提是此类附加信息单独保存,并受到技术和组织措施的约束,以确保个人数据不属于已识别或可识别的自然人。
而“匿名化”(Anonymisation)信息则不适用GDPR数据保护原则:
Theprinciplesofdataprotectionshouldthereforenotapplytoanonymousinformation,namelyinformationwhichdoesnotrelatetoanidentifiedoridentifiablenaturalpersonortopersonaldatarenderedanonymousinsuchamannerthatthedatasubjectisnotornolongeridentifiable.ThisRegulationdoesnotthereforeconcerntheprocessingofsuchanonymousinformation,includingforstatisticalorresearchpurposes.
数据保护原则不应适用于匿名信息,即与已识别或可识别的自然人无关的信息,或与以数据主体无法识别或不再可识别的方式匿名提供的个人数据无关的信息。因此,本法规与处理此类匿名信息无关,包括出于统计或研究目的。
“假名化”的数据如结合其他信息仍能关联到自然人的,则仍属GDPR下的个人信息:Theprinciplesofdataprotectionshouldapplytoanyinformationconcerninganidentifiedoridentifiablenaturalperson.Personaldatawhichhaveundergonepseudonymization,whichcouldbeattributedtoanaturalpersonbytheuseofadditionalinformationshouldbeconsideredtobeinformationonanidentifiablenaturalperson.
综上,笔者认为,在GDPR的定义下,个人数据包含了可识别性和关联性两层特征,“假名化”数据仅实现了不可识别性,因此仍属于“个人数据”,而只有“匿名化”数据才实现了不可识别性及不可关联性,可以排除于“个人数据”之外。
同时,GDPR对“重识别”明确了考量因素:
Todeterminewhetheranaturalpersonisidentifiable,accountshouldbetakenofallthemeansrea-sonablylikelytobeused,suchassinglingout,eitherbythecontrollerorbyanotherpersontoidentifythenaturalpersondirectlyorindirectly.Toascertainwhethermeansarereasonablylikelytobeusedtoidentifythenaturalperson,accountshouldbetakenofallobjectivefactors,suchasthecostsofandtheamountoftimerequiredforidentification,takingintoconsiderationtheavailabletechnologyatthetimeoftheprocessingandtechnologicaldevelopments.
为了确定自然人是否可识别,应考虑合理地可能使用的所有手段,例如由控制者或另一人单独挑选,以直接或间接地识别自然人。为了确定是否合理地有可能使用手段来识别自然人,应考虑所有客观因素,例如识别的成本和所需的时间,同时考虑到当时的可用技术、加工和技术发展。
如何理解GDPR中所称的合理地可能使用的所有手段?在WP29的《关于匿名化技术的意见》中提出了匿名处理结果的3个判断标准:(i)是否仍有可能挑出一个人?(ii)是否仍有可能将一个人记录关联起来?(iii)是否可以推断有关个人的其他信息?WP29在该文件上提道:当一项提案不符合其中任意一项标准时,应对剩余的重识别风险进行彻底的评估。如果国家法律要求管理局对匿名处理程序进行评估或授权,则应向当局提供这一评估。
因此,笔者可以看出,欧盟对于匿名数据的认定采取了一种最为严格的定义。
三、美国法视角下的“去标识化”
去标识化(De-identification)的概念主要出现在美国、加拿大等地的隐私法律中。其中美国的数据立法并没有一部统一的数据法典,相关规定散见于各行业或各州法案中,较具典型意义的如加州消费者隐私保护法案(CCPA),健康保险流通和责任法(HealthInsurancePortabilityandAccountabilityAct,HIPAA)。
首先,笔者来审视一下CCPA下个人信息的定义:informationthatidentifies,relatesto,describes,isreasonablycapableofbeingassociatedwith,orcouldreasonablybelinked,directlyorindirectly,withaparticularconsumerorhousehold.“直接或间接地识别、关系到、描述、能够相关联或可合理地联结到特定消费者或家庭的信息”。CCPA列举了个人信息包括但不限于诸如真实姓名、别名、邮政地址、唯一的个人标识符、在线标识符、互联网协议地址、电子邮件地址、商业信息、生物信息、地理位置数据、因特网或其他电子网络活动信息以及从个人信息中获取推论以创建能够反映消费者偏好和态度画像的信息等。
从定义上看,CCPA下的个人信息与GDPR下的个人数据含义相似,都强调了个人信息的可识别和可关联性。但是CCPA下并无匿名化数据的定义,其采用了“去标识”信息来实现GDPR下“匿名”信息的法律效果。
其次,笔者再来看一下美国法下“去标识化”的含义。
HIPPA.(a)(b)
(a)Standard
e-identificationofprotectedhealthinformation.Healthinformationthatdoesnotidentifyindividualandwithrespecttowhichthereisnoreasonablebasistobelievethattheinformationcanbeusedtoidentifyanindividualisnotidentifiablehealthinformation.
(b)Implementationspecifications:requirementsforde-identificationofprotectedhealthinformation.Acoveredentitymaydeterminethathealthinformationisnoindividuallyidentifiablehealthinformationonlyif
1)theriskisverysmallthattheinformationcouldbeused,aloneorin