📊

숫자의 유전학 (feat. CGV 영화 관람객 통계)

태그
단상
최종 편집
Oct 28, 2023 12:50 AM
발행일
October 28, 2023
🆕
블로그를 stdy.blog로 이전했습니다. 새 블로그에 어떤 글들이 올라올지 궁금하시면 Upcoming Posts를 참고해주세요. 🙂

충격! 아동용 애니메이션의 주 소비자는 40대 여성이었다?

개천절, 긴 연휴의 마지막 날. 여은이와 함께 뭘 할까 하다가 영화관에 갔다. 연극이나 마술공연은 같이 가봤어도 영화관은 처음이었다. 마침 CGV에서 1+1 이벤트를 하길래 ‘엉덩이 탐정’ 극장판을 선택했다. 여은이가 한창 똥꼬 얘기를 좋아하는 나이이긴 하나, ‘엉덩이 탐정’은 한번도 안 봤기 때문에 좀 걱정하면서 갔는데 아쉽게도 실패였다. 입에서 방구를 내뱉는 주인공이라는 설정 자체도 (전혀 몰랐던 건 아니지만, 실제로 보니 더욱더) 내 취향이 아니었을뿐더러, 분위기가 다크해서 여은이가 무섭다고 나오고 싶다고 하더라. 결국 일찍 빠져나왔다.

이 영화를 예매할 당시 눈에 띄었던 그래프가 있었다. 관람객 통계 그래프였다.

image

통계에서는 30-40대가 압도적으로 많고, 여성 비율이 훨씬 높다. 이걸 보고 놀라면서 ‘아동용 애니메이션인 엉덩이 탐정의 주 소비자는 사실 40대 여성이었다’는 해석을 할 수 있을까?

당연히 아니다. 이런 아동용 애니메이션은 주로 부모님과 미성년 자녀가 함께 볼 것이고, 부모 중 어느 한 쪽이 온 가족의 표를 다 예매할 것이다. 동행자의 연령/성별은 정확히 알기 어려우니, 관람객의 연령과 성별 통계는 결국 예매 당사자의 CGV 계정 기준 통계일 것이다.

엉덩이 탐정을 볼 만한 아이의 연령대가 대략 만 5-12세 정도라고 가정한다면, 위 그래프에서는 ‘만 5-12세 자녀를 둔 30-40대 부모가 20대보다 많다’라는, 딱히 충격적이지 않은 해석을 도출할 수 있게 된다. 50대 이상 관람자는 아마도 손주와 함께 온 할머니, 할아버지겠지.

숫자에게도 조상이 있다

위 그래프를 보고 얼마 뒤 <Storytelling with Data>라는 책을 읽다가 새로운 깨달음이 생겼다. 새삼스럽지만, 숫자에게도 조상이 있다는 것이었다.

image

출처: <Storytelling with Data>, Figure 5.13: Distribution by customer segment

위 그림에서 좌측은 미국의 (가상의) 인구 분포를 7개 세그먼트로 구분한 것이고, 우측은 가상의 미국 소매점의 고객 분포를 동일 기준으로 나타낸 것이다. 세그먼트 6은 회사 고객군에서 단일 세그먼트로는 가장 큰 비중(20%)이라서 중요해 보이지만, 이는 알고 보니 미국 전체 인구에서 세그먼트 6이 32%로 가장 많았기 때문이었다. 오히려 세그먼트 3~5는 미국 전체에서는 총 30%일 뿐이지만 회사 고객군에서는 50%다. 즉 이 회사는 세그먼트 6보다는 세그먼트 3~5에게 훨씬 소구되는 제품을 판매한다고 해석할 수 있다.

메시지를 드러내기 위해 극단적으로 단순화한 해석이지만, 어쨌든 중요한 건 ‘통계에 등장하는 숫자는 언제나 그 숫자 하나만으로 해석하면 안 되고 그 베이스가 되는 숫자를 함께 고려해야 한다’는 깨달음이었다. 이 깨달음을 바탕으로 ‘엉덩이 탐정’ 관람객 연령별 인구 통계를 해석하기 위한 시각화를 해봤다.

image

…숫자 하나 해석하기가 이렇게 어렵다. 물론 데이터를 해석한 걸 토대로 의사결정까지 하려면 고려해야 할 게 훨씬 많아질 것이다(고객 세그먼트의 구매력, 지역 등). 내가 이쪽 전공자도 아니고 본격적으로 통계 분석을 할 일이 앞으로 얼마나 있을지도 모르겠지만, 통계 또는 통계 해석을 볼 때 좀 더 현명하게 대처할 수 있겠다는 생각이 들었다.

사족

실제로 CGV 영화 정보 페이지에서는 관람객 정보가 이런 식으로 내려오고 있었다.

image

0세-10세 사이의 명의로 계정을 못 만드는 건 아니겠지만 아무튼 Ticket10AgeCount 는 만 0~19세, Ticket50AgeCount 는 만 50세 이상을 합산했을 것 같다. 연령별 숫자를 모두 더하면 (성별별 숫자를 더한 값과 같은) 15,745명인데 전체 관람객 수는 109,661명으로 터무니없이 차이가 난다.

대략 7배인데, 한 계정이 평균 7개씩 표를 예매했다는 건 말이 안 되니까 전체 관람객 수는 다른 데서 가져왔다고 봐야 한다.

image

109,661 이라는 숫자가 어디서 오는지 찾다 보니 MovieScoreList 안에 accrued_SCORE라는 걸로 내려오고 있었다. 이름과 데이터의 형태로 미루어보면 ‘2023년 10월 4일 기준, 영화관을 통틀어 모든 누적 관람객 수’를 뜻하는 것 같다. 흔히 말하는 박스오피스 순위가 총 관람객 수에 좌우되니까 score라는 이름이 붙었지 싶다.

그리고 아래 그림은 kosis.kr에서 가져온 2023년 연령대별 인구구조다. 한국인을 대상으로 하는 서비스라면 연령별 통계를 해석할 때 ‘조상’ 격으로 고려해야 할 통계라고 볼 수 있겠다.

image