24-2 | Supercent

성과 및 인사이트

UA 데이터 기반 모델링 - EDA

• 해당 캠페인에 들인 비용과 해당 캠페인을 통해 유입된 유저의 수가 증가할수록, D30 ROAS(유입 이후 30일간 발생한 매출 / 캠페인에 들인 비용)이 증가한다는 것을 확인했습니다.

• CPA 및 캠페인 진행 초반의 ROAS 변화율이 장기적인 ROAS 변화율에 유의미한 영향을 미친다는 것을 확인했습니다.

• 국가 별로 D30 ROAS 값과 ROAS 곡선의 개형이 유의미하게 다르다는 것을 확인했습니다.

UA 데이터 기반 모델링 - 모델링

• EDA 결과를 바탕으로 Feature Engineering을 진행했습니다.

• 예측 Target을 변경했습니다.

D30 ROAS를 예측하는 것이 최종 목표였지만, 모델은 D30 ROAS - D3 ROAS를 예측하도록 하고, 예측 값에 D3 ROAS를 더해서 최종적으로 D30 ROAS를 얻는 구조를 선택했을 때 성능이 향상되었습니다.

• 학습용 데이터의 품질을 개선했습니다.

Train set에 이상치가 포함되어 있는 경우 모델 학습을 전반적으로 방해하는 것을 발견하여 Train, Test split 후 Train set에서 이상치를 제거하고 학습을 진행했습니다.

⇒ 결과적으로 사측이 사용하는 baseline 모델에 비해 오차 분포가 크게 개선되었으며, 중앙값을 기준으로 40% 수준으로 감소한 것을 확인했습니다.

유저 데이터 기반 인앱 구매 ROAS 예측 모델 고도화 - EDA

• 초반에 구매하는 유저와 나중에 구매하는 유저의 구매 경향 차이를 확인했습니다.

• 국가별 유저의 구매 경향 차이를 확인했습니다.

• 고래 유저를 정의하고, 고래 유저와 비고래 유저가 여러 지표에 대해 유의미한 차이를 보임을 확인했습니다.

유저 데이터 기반 pROAS 예측 모델 고도화 - 모델링

• EDA 결과를 바탕으로 Feature Engineering을 진행했습니다.

• 학습・예측 범위를 변경했습니다.

유입 유저의 시간에 따른 구매 경향을 고려해, 학습 및 예측에 포함할 유저의 범위를 조정했습니다.

⇒ 결과적으로 모델이 과대 추정하는 경향이 크게 줄어들었습니다.

PM 소회

슈퍼센트와 프로젝트를 진행하며 좋았던 점은 무엇인가요?

• 게임 산업의 수익 구조와 매출 창출 방식을 깊게 이해할 수 있었습니다. 또, LTV・ROAS 예측 모델링의 다양한 선행 연구와 기존 방법론을 폭넓게 학습하고, 사측의 데이터를 활용해 실제로 적용해볼 수 있었습니다.

• 기존 프로젝트가 무산되고 급하게 수주된 프로젝트임에도, 사측에서 프로젝트를 긍정적으로 바라보시고 적극적으로 지원해주셨습니다. 최종 발표 때, 프로젝트 결과물을 실제 현업에 도입하려면 어떤 과정이 필요할지, 추가로 어떤 데이터를 확보해야 하는지에 대해 질문하신 것으로 보아, 이번 프로젝트 결과물이 회사에 실질적으로 반영될 가능성이 있어 보였습니다.

프로젝트 진행 중 겪었던 가장 큰 어려움은 무엇이었나요? 이를 어떻게 해결했나요?

• 인앱 구매 매출 예측

: 인앱 광고 매출은 플레이 타임에 비례하게 모든 유저가 만들어내기 때문에 캠페인/코호트 단위로 집계된 데이터(이하 'UA 데이터')만으로도 충분히 잘 예측할 수 있었습니다. 그러나 인앱 구매 매출은 애초에 인앱 구매를 하는 유저가 매우 드물고, 잘 발생하지 않는 이벤트이기 때문에 집계 데이터만으로 예측하는 데에는 큰 한계가 있었습니다. 이에, 유저 데이터를 추가로 활용해 유저 단위의 인앱 구매 매출 예측 모델링을 진행하고, 이를 코호트 단위로 합산하는 방식을 시도하였습니다. 그 결과, 인앱 구매 매출을 꽤 높은 정확도로 예측할 수 있었습니다.

이번 경험을 통해 어떤 인사이트나 역량을 얻으셨나요?

• Feature Engineering의 중요성

: 의미있는 feature를 개발하는 것만큼 성능을 크게 올릴 수 있는 방법이 없다고 느꼈습니다. 1차적으로는 ‘어떤 지표가 target 값의 차이를 만드는가’에 집중하면서, 도출한 feature에 비선형 변환을 가하거나 여러 feature를 조합해보는 등의 시도도 거듭한 결과 모델의 성능을 향상시킬 수 있었습니다. 덧붙여, 도메인에 대한 충분한 이해가 유의미한 feature를 추려내는 것에 큰 도움이 되었습니다.

• 성능 향상 방법 다양하게 시도

: DS 프로젝트의 진행 과정은 [EDA 바탕 feature 개발, 모델 구축, 하이퍼 파라미터 튜닝]과 같이 어느정도 전형적일 것이라고 생각했는데, 이번 프로젝트를 통해서 꼭 그렇지만은 않다는 것을 깨달았습니다. 예측 오차의 규칙성을 발견하고 보정 방법을 고안해볼 수도 있고, 어떤 경우에서 패턴 학습이 가장 잘 될지 고민하며 예측 target을 변경해볼 수도 있습니다. 예측 대상을 특성에 따라 분류하고, 그에 따라 모델 역시 따로 적합해보기도 했습니다. DS 프로젝트가 DA 프로젝트에 비해 자유도가 떨어진다고 생각했는데, 특히 이번 프로젝트에서는 다양한 아이디어 덕에 유의미한 변화를 만들어냈던 것 같습니다.

향후 유사한 프로젝트를 진행할 학회원들에게 전하고 싶은 조언이 있나요?

• 모델링 프로젝트의 경우, 사측과 충분히 논의하여 가능한 한 빠르게 구체적인 목표를 설정해야 합니다. 저희는 중간 발표 이후에 사측과 피드백을 주고 받는 과정에서 해결해야 할 문제의 범위가 보다 명확해졌는데, 모델 고도화에만 전념할 수 있었고 작업 속도도 크게 향상되었습니다.

• 프로젝트 초기에 사측에서 공유받을 수 있는 데이터의 범위를 명확히 파악할 것을 권장드립니다. 데이터로 어떤 시도를 할 수 있을지를 대략적으로 구상해보는 것이 프로젝트 방향을 설정하는 데 큰 도움이 될 것입니다.

• 모델링 프로젝트를 하면서 같은 과정이 반복되는데 결과가 개선되지 않는 답답함을 느낀다면, 주저하지 말고 인맥을 최대한 활용해 해당 분야에서 실무 경험이 있는 전문가에게 자문을 구해보는 것을 추천합니다.

• 사측이 모델을 실무에서 활용할 것을 고려해 적합한 성능 평가 방식을 결정해야 합니다. 예컨대 게임을 이제 막 출시하는 상황이라서 모델을 학습시킬 충분한 데이터가 적재되어 있지 않은 경우 등 다양한 Cold Start 문제에 대해서 고민해보고, 각 상황에서의 성능을 따로 정리해야 더 정확한 성능 평가가 가능합니다.