일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 봇탐지
- 자기유사도
- 게임
- AutoEncoder
- AE
- 딥러닝
- anomaly
- 게임분석
- 유저이탈
- 자료의요약
- 데이터분석
- google.cloud
- 이상탐지
- LTV
- Detection
- Kaggle
- google.oauth2
- 통계학
- 대회
- LTV예측
- PYTHON
- 기초통계학
- anomaly detection
- 데이터 분석
- 게임 이탈 분석
- 오토인코더
- 게임 데이터분석
- dacon
- self-similarity
- 사례
- Today
- Total
목록게임 데이터 분석 (8)
사쿠의 데이터 블로그
논문 링크: https://koreascience.kr/article/JAKO201609562997970.pdf 제목: 자기 유사도를 이용한 MMORPG 게임봇 탐지 시스템 예전에 알게된 논문인데, 실제로 적용해본건 이번이 처음이다. 단위 시간동안(=위 사진은 1분) 발생한 로그를 수집한다. 수집된 로그가 몇회나 발생했는지 체크하여, 가장 오른쪽 그림과 같이 만든다. 특정 유저 A의 시점마다 코사인 유사도를 구하면 된다. --> t-1 시점과 t 시점의 코사인 유사도 구하기 그럼, 유저마다 데이터가 N개씩 있었다면 유사도는 N-1 개씩 생성되는데 유사도들의 표준편차(delta)를 구하고 다음과 같이 H를 구한다 사실 H는 별거 없다. 유사도들의 표준편차가 작을수록 즉, 비슷한 행동을 반복적으로 하는 유저..
22년 7월 20일 겪은 이야기 A상품에 관한 분석을 하던 중, 위 아래 그림이 대충 비슷하기(눈 대중으로)에 유저 비율대로 잘 구매하고 있구나 하고 넘어갔지만... 너무 안일했다. ㅜ 동료분의 추가 확인은 나를 부끄럽게 만들었다. 로그인 유저들 중, 구매 유저의 비율을 보니, 80 레벨대 유저에서는 쥐 파먹은 모습이 보였다. 눈 대중으로 보지않고 "sample 추출시, 비율을 봐야하는 이유"를 배웠다.
제가 있는 곳에서는 데이터 분석팀이 있고 각자 담당하고 있는 프로젝트가 있습니다. 그리고 각 프로젝트에는 사업, 마케팅, 개발사가 있어서 그들과 함께 일을 합니다.그런데 각기 다른 프로젝트이지만, 공통적으로 요청하는 내용 중 하나는 유저 이탈 분석입니다. 그리고 보통 문의 내용들을 나열하면 다음과 같습니다."이탈 유저 대상 이벤트를 진행하려 하는데 10월 이후 미 접속 유저 리스트를 부탁합니다""초반 동선 구간별 이탈 유저 확인이 필요합니다""업데이트 후 스테이지 별 이탈 유저 분석 요청드립니다"1번 요청의 경우 추출 대상과 기간이 정확히 명시되어 있어 간단해 보이지만 왜 기준이 10월인지? 생각을 해보게 됩니다. 2번 요청은 보통 stage 클리어 비율이 급격히 낮아지는 구간이 어디인지 찾아내서 개선을..
LTV(Life Time Value) 예측에 관한 글을 작성하려 합니다. 주 내용은 다른 게임 회사에서 적용중인 프로세스들을 참고해정리한 내용으로 그들보다 배경과 이론 설명이 부족할 수 있습니다. 혹시 궁금하신 점이 있다면 댓글 혹은 제가 참고한 링크들을 참조 부탁드립니다. (Devsisters), (NCSOFT) 글의 순서 입니다 LTV 예측이 필요한 이유 LTV 계산하기 Summary LTV 예측이 필요한 이유 "항상 궁금한 예상 매출액을 집계할 수 있고, CPI 관리를 할 수 있어 마케팅에 더 집중할 수 있다." 최종 목적은 예상 위와 같습니다. 예상 매출액을 집계할 수 있다면 회계 작성 시에도 도움이 되고 앞으로 펼칠 사업의 방향을 정할 때도 매우 도움이 됩니다. 결과과 정확한 편이라면 장점은 나..
1. stacking에 관하여 1.1 stacking이란? Kaggle 상위권 랭커들이 사용하는 알고리즘으로 여러 모델들의 장점을 하나로 합해 새로운 모델을 만드는 방법이다. 1.2 왜? 다음과 같은 가정과 장단점이 존재한다. 1.2.1. 가정 1. 모든 모델은 `mistake`를 가지고 있다. --> 완벽한 모델은 존재하지 않는다. 아무리 Xgboost, lightGBM 등 앙상블 계열 알고리즘이 뛰어나도 알고리즘 구조상 놓치는 부분이 존재한다는 것을 인정한다. 2. 잘 맞추는 부분을 통합 한다면 더 잘 맞추게 될 것이다. 1.2.2. 장점 1. 각 알고리즘의 좋은 부분을 습득 가능 1.2.3. 단점 1. 연산량이 증가한다 원본링크 위 사진은 1.2.1 가정 1번의 예시가 잘 담겨있다. 완벽한 알고리즘..
제목은 플레이 타임 군집화라고 적었지만, 시계열 데이터에 군집화를 적용할 수 있는 방법론을 소개해드립니다. 먼저, 내용의 출처는 아래 논문이고 코드 부분은 제가 작성했습니다. 본문 내용 중 궁금한 내용이 있다면 언제든지 질문 부탁드립니다. Discovering Playing Patterns: Time Series Clustering of Free-To-Play Game Data The classification of time series data is a challenge common to all data-driven fields. However, there is no agreement about which are the most efficient techniques to group unlabeled t..
게임 회사들이 매일 살펴보는 지표는 매출 관련 지표일 것이다. 그중 겪었던 몇가지 사례에 대해 작성하려고 한다. 구분 신규 아이템 출시 후 매출액 ARPPU Case 1 감소 증가 Case 2 증가 증가 Case 3 감소 감소 (ARPPU - Average Revenue Per Paying User : 결제 유저들의 평균 매출액) 첫 번째는 전체 매출이 감소 했지만, 결제 유저(PU)들의 씀씀이는 증가한 경우 : 유저의 매출 규모를 [상, 중, 하]로 나누었을 때 보통 중하위권 감소 & 상위권 유지인 경우가 많다. --> 예를들어, 신규 출시 상품이 고과금 유저들은 구입을 했지만, 중하위권 유저들은 반응하지 않는 경우이다. 두번째는 전체 매출과, 결제 유저(PU)들의 씀씀이가 동시에 증가한 경우 : 보통..
간단하게 자주 사용하는 게임속 지표들을 정리해 보았습니다. 기본 유저 지표 용어 용어 (전체) 내용 NRU New Registered Users 신규 가입 유저 수 RU Registered Users 가입 유저 수 DAU Daily Active Users 일별 유니크 접속 유저 수 WAU Weekly Active Users 주별 유니크 접속 유저 수 MAU Monthly Active Users 월별 유니크 접속 유저 수 PU Purchased Users 일별 인앱 상품 구매 유저 수 RU Registered Users 전체 등록 유저(총 사용자) WU Withdraw User 탈퇴 고객 RAU Returned Activity User 7일 이상 미접속 유저 중 해당일에 접속한 유저 유니크 접속 유저란?-..