(네이처) 정보과학: 의료정보의 합리적 활용
어떤 화학물질이 과연 결장암에 영향을 미치는지가 궁금할 때 우리는 동물 실험의 결과를 찾아보면 됩니다. 물론 역학 조사의 결과는 전혀 다른 이야기를 하고 있을 수도 있지요.
우리는 그 어느 때보다도 더 많은 의료 데이터의 시대에 살고 있습니다. 한 개인의 유전자뿐 아니라 체내의 미생물과 바이러스, 암 세포의 유전자까지도 해독할 수 있습니다. 이론상으로는 모든 병원 방문 기록 역시 전자의료기록(EMR)을 통해 추적 가능합니다. 생리학, 행동, 섭식, 운동, 타인과의 상호작용 등이 웨어러블 기기, 스마트폰, SNS를 통해 저장됩니다. 이 자료를 연구 목적으로 개방해야 한다는 움직임이 있으며, 또한 자료의 표준화 역시 이루어지고 있습니다.
그러나 아직도 이런 정보를 바탕으로 적합한 의학적 질문에 답하는 것은 전문가들에게조차도 매우 어려운 일입니다. 데이터들은 서로 다른 영역에서 각기 다른 방법으로 만들어졌으며, 개인 병원의 서버에서부터 유전자형 정보와 의학 정보를 누구나 찾아볼 수 있는 dbGaP 사이트처럼 서로 다른 장소에 저장되고 있습니다.
정보를 한 곳으로 모으기
정책 결정자들이 더 나은 판단을 내리기 위해서는 이 데이터를 보다 일관성 있는 형태로 정리해야 하며, 이를 위해서는 각 분야의 연구자들이 데이터를 만드는 방식을 개선할 필요가 있습니다.
물론 같은 종류의 임상 데이터를 종합해 더 신뢰할 만한 결과를 얻는 일은 과학자들이 이미 해오고 있는 일입니다. 그러나 만약 서로 다른 종류의 정보를 종합할 수 있다면 우리는 현실을 더 풍부하게 이해할 수 있게 될 것입니다.
예를 들어 1993년, 10년간의 임상 시험 끝에 속쓰림 약으로 허가되었던 시사프리드는 대규모 장기 코호트 연구의 결과가 정리되고 나서야 치명적인 심박이상을 일으킬 수 있다는 사실이 드러났습니다. 이때는 이미 수천 명이 이로 인한 피해를 입은 뒤였습니다.
지금의 독감 감시체제 역시 1차 진료기관의 자료를 수집해야 하는 어려움 때문에 실제 독감의 발생을 뒤늦게 발견하게 되는 문제를 가지고 있습니다. 한편 구글은 검색어의 추이를 바탕으로 실시간으로 이를 예측하려 하지만 그 정확성은 아직 충분히 높지 않은 상태입니다. 만약 이같은 전혀 성질이 다른 데이터를 융합할 수 있다면 우리는 더 신뢰할 만한 결론을 내릴 수 있을 것입니다.
그렇다면 어떻게 이런 극단적으로 다른 데이터들을 종합할 수 있을까요?
서로 다른 출처를 가진 자료들을 모으는 학문적 방법인 ‘근거 종합(evidence synthesis)’법은 1970년대 사회과학 분야에서 먼저 시작되었습니다. 그 뒤 이 방법은 다양한 과학 분야로 퍼져나갔고, 오늘날 약품 허가와 같은 중요한 의사결정의 토대가 되었습니다. 이 방법은 모든 가능한 데이터를 식별하고 대조하며, 각 출처의 신뢰도와 편향에 대한 위험성을 측정하고, 질문이 적절했는지와 조사자들이 가진 엄밀성에 따라 이들을 어떻게 분류할지를 결정합니다. 그 다음 이들 정보를 바탕으로 메타-분석 혹은 질적 평가를 내립니다.
예를 들어 영국의 한 연구팀은 anti-D라는, 임신한 여성이 태아에 대한 항체를 만드는 것을 막는 약의 효과에 대한 코호트 연구의 메타분석 결과와 임상 테스트 결과를 조합했습니다.
그러나 아직도 의학계의 많은 연구자들이 이런 근거종합 기술을 알지 못합니다. 반면, 근거종합 전문가들은 의학 분야에서 자신들의 방법이 활용될 수 있다는 사실에 익숙치 못합니다.
오늘날의 다양한 데이터를 통합하기 위해서는 기존의 근거종합 기술과 데이터 과학이 결합될 필요가 있습니다.
편향 관리하기
과학자들은 언제, 어떻게, 그리고 왜 이러한 데이터의 통합이 필요한지를 파악할 필요가 있습니다. 예를 들어, 임상 기록과 온라인 설문조사 결과, 그리고 웨어러블 장치의 물리적 활동 데이터는 조합될 필요가 있을까요? 또한 언제 어떻게 다양한 개인 자료를 모을지와 함께 각 데이터가 가진 편향을 이해하고 이를 관리할 수 있어야 합니다. 임상 시험 및 치료 효과 관찰연구에 대해서는 코크란 편향위험방지 접근법을 사용할 수 있습니다. SNS 데이터 및 휴대폰을 이용해 수집한 데이터에 대해서도 유사한 편향 방지 기술을 적용할 수 있습니다.
이러한 편향을 관리하는 방법에 대한 합의 또한 필요합니다. 헬스레벨7 과 같은 의료정보 표준화에 투자한 기관은 메타 데이터, 곧 데이터들에 대한 데이터를 자신들의 정보 시스템에 포함해야 합니다.
또한 이들 데이터를 분석하는 시스템이 의료분야의 의사결정에 도움이 되기 위해서는 자연언어 처리 및 머신러닝 기술을 포함한 편향 관리기술이 필요합니다. 이 시스템은 투명하면서 독립적인 판단을 할 수 있어야 합니다.
단기적으로는 이를 위해 계산 생물학자, 계산과학자, 임상 및 보건 연구자, 그리고 근거종합 전문가가 협력할 수 있는 컨퍼런스, 정부의 과제, 대학 및 연구소의 학과 및 부서 설치 등이 필요합니다. 장기적으로는 다양한 종류의 데이터를 판단하고 종합할 수 있는 새로운 분석가 직업군이 등장할 것입니다.
점을 연결하기
이러한 변화가 현실에서는 무엇을 의미할까요? 미국 정밀의학계획(US Precision Medicine Initiative)이 가진 한 가지 목적은 사람들을 암으로부터 해방시키는 것입니다. 이를 위해서는 수없이 많은 유전적, 행동적, 환경적 요인들과 그 상호작용을 파악해야 합니다. 만약 우리가 이런 다양한 데이터들을 더욱 적절하고 용이하게 조합할 수 있다면 이들의 목표는 한결 더 가까이 다가올 것입니다.
이 계획의 또 다른 목표는 새로운 암 치료법을 개발하는 것입니다. 이 역시 유전학, 단백질 유전정보학, 대사체학 등의 다양한 의학 분야와 동물연구, 임상 연구 등의 데이터를 조합할 수 있을 때 더 나은 결과를 얻을 수 있을 것입니다. 또한 임상결과와 코호트 연구, 모바일을 통해 수집되는 환자의 경험, 약물 감시 시스템 등을 통한 데이터를 조합할 수 있을 때 정부는 더 나은 건강보험제도를 제공할 수 있을 것입니다.
물론 한 가지 모델이 모든 문제를 해결할 수는 없을 것입니다. 그러나 지금 이 사회에는 너무나 많은 데이터들이 따로 분리되어 있으며 때로 상반된 결론을 만들고 있습니다. 그 어느 때보다도 더 풍부한 데이터가 쌓이는 시대에 맞춰 보다 엄밀하고 신뢰할 만한 데이터 분석방법이 고안돼야 할 것입니다.
(네이처)