역추적이 가능한 익명화된 데이터의 개인정보

2019년 7월 24일 | By: jisukim | IT | No Comment

현대 의학 연구부터 맞춤형 추천, 현대 인공지능 기술 등 모든 것의 중심에는 익명화된 데이터가 있습니다. 불행하게도 최근 발표된 연구에 의하면 데이터를 성공적으로 완전히 익명화하는 것은 어떤 데이터에서도 현실적으로 가능하지 않습니다.

익명화된 데이터에는 개인을 찾아낼 수 있는 모든 정보가 삭제되어 있어야 합니다. 이는 연구자에게 프라이버시를 침해한다는 두려움 없이 데이터를 분석해 유용한 정보를 이용할 수 있게 만들어줍니다. 예를 들면 환자의 이름, 주소, 생년월일이 제거된 건강 기록 데이터를 분석해 연구자들은 변인 간 감추어진 관계를 찾아내죠.

하지만 현실에서 데이터는 다양한 방법으로 역추적 될 수 있습니다. 사용자들이 어떻게 영화를 평가했는지를 수집한 넷플릭스 데이터는 IMDb 영화 사이트의 평점과 비교되며 2014년에 비(非)식별화되었습니다; 도시 이동에 대한 익명화된 데이터에서 뉴욕 택시 운전사의 주소가 드러난 적도 있었습니다; 호주 보건부는 익명화된 의료비 데이터가 나이가 많은 엄마와 아이들, 많은 아이를 가지고 있는 엄마들의 생년월일과 같은 “일상적인 사실 정보”과의 비교를 통해 비익명화될 수 있다는 점을 알아냈습니다.

벨기에 루뱅 가톨릭 대학교와 영국 임페리얼 칼리지 런던의 연구자들은 얼마나 쉽게 임의로 선택된 데이터가 비익명화되는지에 대한 모델을 세웠습니다. 15개의 인구통계학적 변인이 포함된 데이터는 “매사추세츠에 거주하는 사람의 99.98%를 찾아냅니다.” 좀 더 작은 모집단에서는 더 쉽죠: 소도시의 경우를 예로 들면 “2,000명 이하의 거주민이 사는 매사추세츠 해리지항에 사는 사람을 찾아내는 데는 많은 시간이 걸리지 않습니다.”

이런 사실에도 불구하고 엑스페리안 같은 데이터 브로커 회사는 많은 개인정보가 포함된 “식별되지 않은” 데이터를 팝니다. 연구자들은 컴퓨터 소프트웨어 회사 알터릭스가 판 데이터가 1억 2천만의 미국인의 정보, 가구당 248개의 변인을 가지고 있다는 점을 강조했습니다.

루뱅 가톨릭 대학교의 뤽 로쉐와 동료 연구자들은 단순히 데이터를 익명화하는 것이 회사가 개인정보보호 규정과 같은 법을 지키는데 충분하지 않다고 주장합니다. “본 결과는 역추적이 위험이 아니라는 주장과 샘플링과 부분적인 데이터 배포는 괜찮다는 주장을 반박합니다.”

“연구자들은 현재의 데이터 익명화 절차가 개인정보보호 규정이나 캘리포니아 소비자법과 같은 데이터 보호법의 익명화 기준을 충족시키는지에 의문을 제기합니다. 또한, 단순히 식별 가능하지 않은 데이터를 만드는데 집중하는 법이나 규제의 관점에서 벗어나기를 촉구합니다.”

현재 사회에서 요구되는 데이터 보호에 더 적합한 다른 방식의 접근들이 있습니다. 애플이나 우버와 같은 회사에서는 여러 개별 데이터 지점을 의도적으로 애매하게 만들며 대신 평균을 분석해 데이터의 비익명화를 막습니다.

동형암호는 읽을 수는 없지만, 연산 및 분석을 할 수 있게끔 데이터를 암호화합니다; 결과는 여전히 암호화되어 있지만, 데이터 제어기에 들어갈 경우 판독이 가능하죠. 합성 데이터는 식별 가능한 정보가 포함된 실제 데이터로 인공지능을 훈련해 통계적으로는 일치하지만, 실제 개인과는 연관되어 있지 않은 새로운 가짜 데이터를 만들어냅니다.

해당 연구는 네이처 커뮤니케이션에 발간되었습니다.

(가디언, Alex Hern)

원문링크