머신 러닝으로 냄새의 비밀을 풀다
2016년 11월 22일  |  By:   |  과학  |  1 comment

우리는 빛과 소리에 대해서는 잘 알고 있지만 냄새에 대해서는 그렇지 못합니다.

만약 특정 빛의 파장을 알고 있다면, 우리는 사람들이 그 빛을 어떻게 인식할지 알 수 있습니다. 480나노미터의 빛은 푸르게 보이고 650 나노미터의 빛은 붉은 색으로 보입니다. 소리도 주파수로부터 이를 예측할 수 있습니다. 261 헤르쯔는 가운데 도 음입니다.

그러나 분자의 화학 구조를 보고 어떤 냄새가 날지를 맞추는 것은 쉬운 일이 아닙니다. 사실 그 분자가 냄새가 날지 안 날지도 우리는 알지 못합니다. 벤즈알데히드(benzaldehyde)에 코를 대 보기 전에는 아몬드 냄새가 나리라는 생각을 하기 힘듭니다. 디메틸 설파이드(dimethyl sulfide)의 구조만 보고는 바다 냄새가 날 것이라 예측할 수 없습니다.

이는 오랫동안 해결되지 않던 문제였습니다. 그러나 한 과학자 팀과 수백 명의 자원자, 그리고 시민 과학자들이 이 문제의 해결에 한 발 더 다가서는 결과를 내놓았습니다. 록펠러 대학의 안드레아스 켈러와 레슬리 보숄, 그리고 IBM의 파들로 메이어는 일반인들을 대상으로 한 데이터 경진대회를 통해 분자 구조로부터 냄새를 예측하는 알고리즘을 개발했습니다.

아직 이 결과는 완벽하지는 않지만, 지금까지의 어떤 알고리즘보다도 우수합니다. 만약 이 기술이 성공하게 된다면, 우리는 특정한 냄새가 나는 분자를 만들 수 있게 되며 이는 향수 및 음식 분야에 커다란 변화를 가져올 것입니다.

“수많은 사람들이 이 문제는 해결이 불가능하다고 말했습니다. 우리가 조금이라도 이를 개선시켰다는 것이 놀라운 일입니다.” 보숄의 말입니다.

그녀는 이 문제가 어려운 이유가 두 가지라고 말합니다. 첫째, 우리는 분자의 어떤 요소가 냄새에 기여하는지 알지 못합니다. 빛은 파장으로 구분되며 이는 매우 단순한 문제입니다. 그러나 분자의 냄새는 그 분자에 몇 개의 탄소 원자가 있는지, 분자아 얼마나 안정적인지, 어떤 가지를 가지고 있는지 등에 영향을 받을지 모릅니다. 둘째, 지금까지 냄새를 연구해온 과학자들은 음식이나 향수 산업과 관련있는 냄새만을 연구해왔습니다. 이는 빛을 연구한다면서 붉은 색만을 연구하는 것과 비슷합니다. “사람들은 일부 영역에만 관심을 가져왔습니다. 우리는 이를 깨뜨리려 하는 것이죠.”

그녀와 그녀의 동료 안드레아스 켈러는 생소하거나 불쾌한 냄새가 나는, 그리고 아무 냄새가 나지 않는 분자 까지를 포함한 480종의 분자를 준비했습니다. 그리고 크레이그 리스트를 통해 모은 55명의 자원자들이 실험실을 방문해 선반에 올려진 유리병을 일일이 열어 냄새를 맡았고, 이를 기록했습니다. 이들은 얼마나 강하거나 좋은 냄새인지, 마늘향이 나는지, 물고기 향이나 과일향이 나는지 등의 다양한 질문으로 이를 분류했습니다.

그 결과, 지금까지 인간이 모은 냄새 데이터중 가장 대규모의 데이터가 모였습니다. 켈러와 보숄은 이 결과를 IBM의 메이어에게 보냈습니다. 그는 자원자들이 대규모 데이터 셋에 대해 자신의 머신 러닝 알고리듬으로 예측결과를 경쟁하는 드림 챌린지(DREAM Challenges)를 운영하고 있습니다. “나는 이걸 과학 피나타(piñata)라고 부릅니다. 모든 사람들이 서로 다른 알고리듬으로 경쟁하지요.” 메이어을 말입니다. 참가자들은 유방암 분석 성공률을 높이는 문제에서부터 사람들이 감기에 얼마나 걸릴지 예측하는 다양한 문제에 참가합니다. 2015년 1월에서 5월까지, 이 냄새 데이터에 22 팀이 참가했습니다.

이 대회에서 338개의 분자는 알고리듬을 학습하는데, 69개의 분자는 그 결과를 다듬는데 사용되었으며, 나머지 69개 분자로 우승팀을 겨루었습니다. 우승은 아리조나 대학의 리차드 거킨과 미시간 대학의 유안팡 관이 이끄는 팀에게 돌아갔습니다.

성능 결과가 0 에서1 사이일때, 이들의 알고리즘은 기분 좋은 냄새를 0.71, 냄새의 밀도를 0.78로, 그리고 마늘, 물고기, 과일, 신 맛, 머스크, 썩은, 땀 냄새, 단 맛, 풀 냄새, 잔디 냄새, 탄 냄새 등의 19개 냄새에 대해 0.1 에서 0.7 정도로 맞추었습니다. 그들은 “어떤 분자라도 그 분자와 비슷한 냄새를 낼 수 있는 분자를 만들 수 있을 정도로 충분한 정확도로 그 분자의 냄새를 예측할 수 있습니다.”

그들의 성적이 그리 높아 보이지는 않지만, 이는 지금까지 연구중 가장 뛰어난 성적입니다. 베이츠 대학의 제이슨 카스트로는 “그들의 성적이 얼핏 높아보이지는 않지만, 이 분야에서 일해온 내게는 충분히 놀라울 정도입니다”라고 말합니다.

그는 인간의 코도 그리 정확하지 않다고 말합니다. “같은 분자라도 사람들은 언제 맡느냐에 따라 다르게 표현합니다. 사람마다 그 정도가 얼마나 다른지는 다릅니다.” 사람마다 같은 분자에 대해 맡는 냄새도 다릅니다. 즉, 이번 우승한 알고리즘은 특정 분자가 평균적으로 어떤 냄새가 날지는 예측하지만 특정한 한 사람이 그 분자에서 어떤 냄새를 맡을지는 그렇게 잘 예측하지 못하며, 이것이 성적이 그렇게 뛰어나지 않은 이유닙니다.

보숄 역시, “우리가 문제를 해결한 것은 아니”라고 말합니다. 아직 어떤 분자가 어떤 냄새를 낸다는 분명한 이론은 존재하지 않습니다. 분자에 포함된 탄소 원자의 갯수가 영향을 줄 수도 있으며, 분자의 안정성이나 분자가 가진 가지의 영향을 받을 수도 있습니다. 우승한 알고리즘은 특정한 분자의 특성이 냄새에도 어떤 영향을 준다는 것을 보여줍니다. 황 원자는 탄 냄새나 마늘 냄새와 관련 있습니다. 크기가 큰 분자는 기분 좋은 냄새가 납니다. 바닐라와 비슷한 분자들은 구운 쿠키 냄새가 납니다.

“아직 특징과 냄새 사이의 분명한 관계를 얻지는 못했습니다. 분자들을 구별하는 수많은 특성들이 있습니다.” 카스트로의 말입니다.

머신 러닝은 어떤 인간 보다도 빨리 중요한 특징을 파악할 수 있기 때문에 이런 복잡성을 해결할 수 있습니다. 하지만 이를 위해서는 좋은 데이터 셋이 필요합니다. 보숄과 켈러가 모은 데이터도 이제 시작에 불과합니다. 그들은 더 많은 분자들로 실험을 시작할 계획입니다. 또한, 사람들에게 여러 분자들이 얼마나 비슷하게 느껴지는지 역시 물어볼 계획입니다.

이를 위해서는 수많은 사람들이 몇 일 동안 유리 병에 코를 대고 있어야 합니다. 무의미한 일로 들리지만, 사람들은 또 이상하게도 이를 좋아한다고 합니다. 첫 연구에서 “일반인들이 너무 열심히 참여해서, 때로 20시간씩 실험실에 와 있기도 했습니다. 우리는 그들을 돌려 보냈어야만 했지요.” 보숄은 말을 잇습니다. “냄새 연구에는 사람들을 매혹시키는 무언가가 있어요. 냄새는 우리에게 섹스와 향수, 음식을 생각나게 만듭니다. 냄새는 그 자체로 섹시해요.”

(아틀란틱)

원문 보기