Categories: IT경영

넷플릭스는 어떻게 할리우드 영화를 분해하는가

넷플릭스의 굉장히 구체적인 영화장르 구분이 우스갯소리처럼 거론된 적은 많습니다. “시스템에 맞서싸우는 가슴뭉클한 다큐멘터리” “실화에 기반한 충성심에 대한 시대물” “사탄에 관한 1980년대 외국 영화” 식으로 굉장히 구체적이죠. 도대체 넷플릭스에는 몇 개의 영화장르가 있는 걸까요?

처음에는 저도 가볍게 분석을 시작했습니다. 트위터를 통해 장르 이름을 모으다가, 넷플릭스의 ID 시스템을 알게 되어 스크립트를 써서 모든 URL 밑에 있는 장르이름을 스크랩해 왔죠. 분석해볼수록 끝도 없이 많은 겁니다. 무려 76,897 개의 장르를 찾았고 읽고 복사에 붙여넣으며 정리하는 데만 20시간을 보냈습니다. 몇 주 동안 작업을 하면서 파악한 넷플릭스의 장르 로직입니다. “어느 지역영화(Region)+ 부사(Adjectives) + 명사 장르(Noun Genre) + ~에 기반한(Based On…) + 배경은 어디이며(Set In… )+ 누가 만들었고(From the…) + ~에 관한 것이며(About…) + 타겟연령대는 X에서 Y임(For Age X to Y)” 이런 식이죠. 그러다보면 아래처럼 고양이에 관한 폭력적인 스릴러, 타겟 연령대는 8~10살. 이란 장르가 나옵니다. 이 추천 장르는 소비자가 보는 첫 화면의 제일 위에 뜨는데, 소비자가 다음 영화를 찾는 데 큰 역할을 하고 잇습니다.

궁금증을 못견딘 저는 결국 넷플릭스를 찾아가 인터뷰를 요청했고, 넷플릭스식 세부 장르를 개발한 상품혁신총괄(VP of Product Innovation) 토드 옐린(Todd Yellin)을 만나 개발 과정 뒷이야기를 들을 수 있었습니다. 넷플릭스는 메타데이터를 작성하기 위해 36페이지짜리 문서를 따라 꼼꼼하게 각 컨텐츠의 정보를 채워넣습니다. 내부적으로 넷플릭스 양자이론 (Netflix Quantum Theory)이라 불리는 프로젝트는 영화를 구성하는 “양자”가 무엇인지 모두 기록합니다. 성적인 컨텐츠는 얼마나 나오는지, 얼마나 잔인한지, 로맨틱한 정도는, 주인공은 얼마나 도덕적인지, 해피엔딩인지 아닌지까지 모든 정보를 1~5점 점수로 입력합니다. 플롯에는 어떤 이야기가 나오는지 정리하고, 주인공의 직업, 장소 정보를 입력합니다. 그리고 기계가 이에 기반해 ‘맞춤화 장르’ 를 만듭니다. 이런 정보는 어떤 장르의 TV쇼가 인기를 끌지도 알려주는데, 넷플릭스가 폭발적인 인기를 끈 하우스 오브 카드 (House of Cards)를 제작하게 된 것도 우연이 아니죠. (관련 뉴스페퍼민트 기사)

제 흥미를 끈 점은 맞춤화 장르를 만드는 과정에 컴퓨터의 알고리즘과 인간의 지성이 같이 활용된다는 겁니다. 컴퓨터는 같은 태그가 계속 반복되면 새로운 장르를 생성하는데, “해피엔딩 점수 5점짜리 모음” 의 경우는 인간 지성이 개입하여 “행복해지는 영화” 라는 그럴듯한 이름을 같이 달아줍니다. 다른 컨텐츠 회사들이 영화 별점을 분석하는 동안 넷플릭스는 훨씬 “인간답게” 느껴지는 추천방식을 도입하려 했지요. 넷플릭스도 소비자가 특정영화에 별점 얼마를 줄지 예측하는 알고리즘에 많은 투자를 하고 있으나 소비자에게 새로운 영화를 추천하는 단계에서는 “당신이 3.5점을 줄 영화” 라고 표현하기보다 아주 구체적인 장르를 마음에 와닿게 표현합니다. 1) 이름이 50자를 넘으면 안되고 2) 넷플릭스가 해당 장르 영화를 충분히 보유하고 있어야하며 3) 그 장르 이름이 문법적으로 말이 되어야 일반 고객에게 노출합니다. 기계가 가진 정보를 모두 노출하지 않고 스토리텔링을 하는 게 인상적입니다.

일반적인 개인화 추천 시스템은 당신이 좋아하는 영화를 본 사람들이 어떤 다른 영화를 좋아했는지 분석하는 식입니다. 그러나 넷플릭스는 행태 분석 대신에 컨텐츠 분해에 나섰죠. 판도라의 뮤직 게놈프로젝트와도 비슷한 형태입니다. 이를 보면서 페이스북의 뉴스피드도 모든 웹컨텐츠를 분석해 해체할 수 있을까, 라는 생각이 들었습니다. 너무 방대한 정보라 말도 안된다고 생각할 수도 있지만, 넷플릭스가 처음 이 프로젝트를 시작했을 때도 모두들 그렇게 생각했을 겁니다. (The Atlantic)

원문보기

heesangju

샌프란시스코에서 프로덕트 매니저로 일하고 있습니다. 기술의 발전과 열린 인터넷이 인류의 진보를 도우리라 믿는 전형적인 실리콘밸리 테크 낙천주의자 너드입니다. 주로 테크/미디어/경영/경제 글을 올립니다만 제3세계, 문화생활, 식음료 관련 글을 쓸 때 더 신나하곤 합니다. 트위터 @heesangju에서 쓸데없는 잡담을 하고 있습니다.

View Comments

Recent Posts

[뉴페@스프] “응원하는 야구팀보다 강한” 지지정당 대물림… 근데 ‘대전환’ 올 수 있다고?

뉴스페퍼민트는 SBS의 콘텐츠 플랫폼 스브스프리미엄(스프)에 뉴욕타임스 칼럼을 한 편씩 선정해 번역하고, 글에 관한 해설을 쓰고…

2 일 ago

[뉴페@스프] ‘이건 내 목소리?’ 나도 모를 정도로 감쪽같이 속였는데… 역설적으로 따라온 부작용

* 비상 계엄령 선포와 내란에 이은 탄핵 정국으로 인해 한동안 쉬었던 스브스프리미엄에 쓴 해설 시차발행을…

4 일 ago

살해범 옹호가 “정의 구현”? ‘피 묻은 돈’을 진정 해결하려면…

우리나라 뉴스가 반헌법적인 계엄령을 선포해 내란죄 피의자가 된 윤석열 대통령을 탄핵하는 뉴스로 도배되는 사이 미국에서…

5 일 ago

미국도 네 번뿐이었는데 우리는? 잦은 탄핵이 좋은 건 아니지만…

윤석열 대통령에 대한 탄핵 소추안 투표가 오늘 진행됩니다. 첫 번째 투표는 국민의힘 의원들이 집단으로 투표에…

1 주 ago

“부정 선거” 우기던 트럼프가 계엄령이라는 카드는 내쳤던 이유

윤석열 대통령의 계엄령 선포와 해제 이후 미국 언론도 한국에서 일어나는 정치적 사태에 큰 관심을 보이고…

2 주 ago

트럼프, 대놓고 겨냥하는데… “오히려 기회, 중국은 계획대로 움직이는 중”

트럼프 2기 행정부가 출범하면 미국과 중국의 관계가 어떻게 될지에 전 세계가 촉각을 곤두세우고 있습니다. 안보…

3 주 ago