Categories: IT

역추적이 가능한 익명화된 데이터의 개인정보

현대 의학 연구부터 맞춤형 추천, 현대 인공지능 기술 등 모든 것의 중심에는 익명화된 데이터가 있습니다. 불행하게도 최근 발표된 연구에 의하면 데이터를 성공적으로 완전히 익명화하는 것은 어떤 데이터에서도 현실적으로 가능하지 않습니다.

익명화된 데이터에는 개인을 찾아낼 수 있는 모든 정보가 삭제되어 있어야 합니다. 이는 연구자에게 프라이버시를 침해한다는 두려움 없이 데이터를 분석해 유용한 정보를 이용할 수 있게 만들어줍니다. 예를 들면 환자의 이름, 주소, 생년월일이 제거된 건강 기록 데이터를 분석해 연구자들은 변인 간 감추어진 관계를 찾아내죠.

하지만 현실에서 데이터는 다양한 방법으로 역추적 될 수 있습니다. 사용자들이 어떻게 영화를 평가했는지를 수집한 넷플릭스 데이터는 IMDb 영화 사이트의 평점과 비교되며 2014년에 비(非)식별화되었습니다; 도시 이동에 대한 익명화된 데이터에서 뉴욕 택시 운전사의 주소가 드러난 적도 있었습니다; 호주 보건부는 익명화된 의료비 데이터가 나이가 많은 엄마와 아이들, 많은 아이를 가지고 있는 엄마들의 생년월일과 같은 “일상적인 사실 정보”과의 비교를 통해 비익명화될 수 있다는 점을 알아냈습니다.

벨기에 루뱅 가톨릭 대학교와 영국 임페리얼 칼리지 런던의 연구자들은 얼마나 쉽게 임의로 선택된 데이터가 비익명화되는지에 대한 모델을 세웠습니다. 15개의 인구통계학적 변인이 포함된 데이터는 “매사추세츠에 거주하는 사람의 99.98%를 찾아냅니다.” 좀 더 작은 모집단에서는 더 쉽죠: 소도시의 경우를 예로 들면 “2,000명 이하의 거주민이 사는 매사추세츠 해리지항에 사는 사람을 찾아내는 데는 많은 시간이 걸리지 않습니다.”

이런 사실에도 불구하고 엑스페리안 같은 데이터 브로커 회사는 많은 개인정보가 포함된 “식별되지 않은” 데이터를 팝니다. 연구자들은 컴퓨터 소프트웨어 회사 알터릭스가 판 데이터가 1억 2천만의 미국인의 정보, 가구당 248개의 변인을 가지고 있다는 점을 강조했습니다.

루뱅 가톨릭 대학교의 뤽 로쉐와 동료 연구자들은 단순히 데이터를 익명화하는 것이 회사가 개인정보보호 규정과 같은 법을 지키는데 충분하지 않다고 주장합니다. “본 결과는 역추적이 위험이 아니라는 주장과 샘플링과 부분적인 데이터 배포는 괜찮다는 주장을 반박합니다.”

“연구자들은 현재의 데이터 익명화 절차가 개인정보보호 규정이나 캘리포니아 소비자법과 같은 데이터 보호법의 익명화 기준을 충족시키는지에 의문을 제기합니다. 또한, 단순히 식별 가능하지 않은 데이터를 만드는데 집중하는 법이나 규제의 관점에서 벗어나기를 촉구합니다.”

현재 사회에서 요구되는 데이터 보호에 더 적합한 다른 방식의 접근들이 있습니다. 애플이나 우버와 같은 회사에서는 여러 개별 데이터 지점을 의도적으로 애매하게 만들며 대신 평균을 분석해 데이터의 비익명화를 막습니다.

동형암호는 읽을 수는 없지만, 연산 및 분석을 할 수 있게끔 데이터를 암호화합니다; 결과는 여전히 암호화되어 있지만, 데이터 제어기에 들어갈 경우 판독이 가능하죠. 합성 데이터는 식별 가능한 정보가 포함된 실제 데이터로 인공지능을 훈련해 통계적으로는 일치하지만, 실제 개인과는 연관되어 있지 않은 새로운 가짜 데이터를 만들어냅니다.

해당 연구는 네이처 커뮤니케이션에 발간되었습니다.

(가디언, Alex Hern)

원문링크

 

jisukim

Recent Posts

[뉴페@스프] “응원하는 야구팀보다 강한” 지지정당 대물림… 근데 ‘대전환’ 올 수 있다고?

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

2 일 ago

[뉴페@스프] ‘이건 내 목소리?’ 나도 모를 정도로 감쪽같이 속였는데… 역설적으로 따라온 부작용

* 비상 계엄령 선포와 내란에 이은 탄핵 정국으로 인해 한동안 쉬었던 스브스프리미엄에 쓴 해설 시차발행을…

4 일 ago

살해범 옹호가 “정의 구현”? ‘피 묻은 돈’을 진정 해결하려면…

우리나라 뉴스가 반헌법적인 계엄령을 선포해 내란죄 피의자가 된 윤석열 대통령을 탄핵하는 뉴스로 도배되는 사이 미국에서…

5 일 ago

미국도 네 번뿐이었는데 우리는? 잦은 탄핵이 좋은 건 아니지만…

윤석열 대통령에 대한 탄핵 소추안 투표가 오늘 진행됩니다. 첫 번째 투표는 국민의힘 의원들이 집단으로 투표에…

1 주 ago

“부정 선거” 우기던 트럼프가 계엄령이라는 카드는 내쳤던 이유

윤석열 대통령의 계엄령 선포와 해제 이후 미국 언론도 한국에서 일어나는 정치적 사태에 큰 관심을 보이고…

2 주 ago

트럼프, 대놓고 겨냥하는데… “오히려 기회, 중국은 계획대로 움직이는 중”

트럼프 2기 행정부가 출범하면 미국과 중국의 관계가 어떻게 될지에 전 세계가 촉각을 곤두세우고 있습니다. 안보…

3 주 ago