《個人信息去標識化指南》

一、 “告知-同意”以外

我國個人信息保護規則圍繞著“告知-同意”原則構建,無論是收集、使用幾乎都需要向個人信息主體告知並獲得同意。《信息安全規范 個人信息去標識化指南》(GB/T 37964-2019)(“《個人信息去標識化指南》”)是個人信息領域最為重要的國傢標準之一,是“告知-同意”以外,個人信息收集、處理的另一條進路。

二、 匿名化、去標識化

《信息安全規范 個人信息安全規范 》(GB/T 35273-2017)(“《個人信息安全規范》”)中,有匿名化與去標識化兩個概念:

區別:

  1. 去標識化的個人信息控制者可以存儲額外的信息用於還原原始個人信息,要求個人信息控制者對“額外信息”分開存儲和特殊保護;
  2. 去標識化後的個人數據仍屬於個人信息,仍需保證去標識化數據的安全,匿名化的安全程度更高,可以明確匿名化處理後所得的信息不屬於個人信息;而去標識化則更強調對標識內容的處理。

三、 個人信息去標識化指南

“本標準描述瞭個人信息去標識化的目標和原則,提出瞭去標識化過程和管理措施。”

1. 重要概念

舉例子:

直接標識符就是姓名、QQ號這樣的信息,準標識符就是性別、年齡、工作單位這樣的信息。

2. 去標識化的目標

(1) 對直接標識符和準標識符進行刪除或變換,避免攻擊者根據這些屬性直接識別或結合其他信息識別出原始個人信息主體;

(2) 控制重標識的風險,根據可獲得的數據情況和應用場景選擇合適的模型和技術,將重標識的風險控制在可接受范圍內,確保重表示風險不會隨之新數據發佈而增加,確保數據接收方之間的潛在串通不會增加重標識風險;

(3) 在控制重標識風險的前提下,結合業務目標和數據特性,選擇合適的去標識化模型和技術,確保去標識化後的數據集盡量滿足其預期目的

而去標識化工作的最大挑戰,來自於重標識的風險:

  • 分離:將屬於同一個個人信息主體的所有記錄提取出來。
  • 關聯:將不同數據集中關於相同個人信息主體的信息聯系起來。
  • 推斷:通過其它屬性的值以一定概率判斷出一個屬性的值。

3. 去標識化過程

在去標識化工作中:

(1)首先需要確定目標,包括確定去標識化對象、建立去標識化目標和制定工作計劃等內容,要結合法律法規、數據類型、業務背景等元素來確定目標在,對於重標識風險不可接受程度以及數據有用性最低要求進行確定後,建立個人信息去標識化的實施計劃;

(2)對於識別標識符進行確定,方法包括查表識別法、規則判定法和人工分析法等。

(3)不同的數據與目標需要對應不同的技術與模型,原始數據需要按需經歷預處理、選擇模型技術、實施去標識化三個階段工作;

(4)處理完成後需要對去標識化後重標識風險進行評估,計算出實際風險,與預期可接受風險閾值進行比較,以確保生成的數據集在重標識風險和數據有用性方面都符合預設的目標,整體工作需要定期展開驗證評估。

4. 去標識化技術

需要理解去標識化的武器庫裡有哪些工具可以用,以及這些技術的能力與邊界:

5. 去標識化模型

(1)K-匿名模型

K-匿名模型要求發佈的數據中,指定標識符(直接標識符或準標識符)屬性值相同的每一等價類至少包含K個記錄,各記錄之間的關聯性是有限的(1/K),使攻擊者不能判別出個人信息所屬的具體個體,從而保護瞭個人信息安全。各種去標識化技術可獨立或綜合使用以符合K-匿名模型的要求。

· L-多樣性要求在K-匿名的基礎上,實現每一等價類在每一敏感屬性上存在至少L個不同值。

· T-接近性為防止概率性推導,要求任何等價類中敏感屬性的分佈與整個數據集中相應屬性的分佈之間的距離小於閥值T。

(2)差分隱私模型

差分隱私核心思想:對於差別隻有一條記錄的兩個數據集,查詢它們獲得相同值的概率非常非常的接近。

差分隱私提供:

a)隱私數學定義,在該定義下,數據集的處理結果對單一記錄的變化不敏感,單一記錄添加到數據集或從數據集中刪除,對計算結果的統計特性影響極小,所產生的隱私泄露風險被控制在可接受范圍內。

設有隨機算法,為所有可能輸出構成的集合的概率,對於任意兩個鄰近數據集與以及的任意子集,若算法滿足:

則稱算法提供ε差分隱私保護。

b)隱私度量方法,可以監控累積的隱私損失並設置損失限制的“預算”

差分隱私算法對其應答的每次查詢會產生隱私成本或隱私損失。在精心設計的差分隱私算法中,單次查詢損失可以足夠小,不使隱私受到侵犯,但這些損失的累積效應最終會導致對隱私的侵犯。

史宇航:逃離“告知-同意”:《個人信息去標識化指南》筆記

赞(0)