일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 오토인코더
- 기초통계학
- 자기유사도
- 게임 이탈 분석
- dacon
- 봇탐지
- 통계학
- 유저이탈
- AE
- Kaggle
- 사례
- 대회
- AutoEncoder
- 이상탐지
- 데이터분석
- LTV예측
- LTV
- 데이터 분석
- 게임
- 자료의요약
- 딥러닝
- google.cloud
- PYTHON
- Detection
- anomaly detection
- google.oauth2
- self-similarity
- anomaly
- 게임분석
- 게임 데이터분석
- Today
- Total
목록전체 글 (22)
사쿠의 데이터 블로그
논문 링크: https://koreascience.kr/article/JAKO201609562997970.pdf 제목: 자기 유사도를 이용한 MMORPG 게임봇 탐지 시스템 예전에 알게된 논문인데, 실제로 적용해본건 이번이 처음이다. 단위 시간동안(=위 사진은 1분) 발생한 로그를 수집한다. 수집된 로그가 몇회나 발생했는지 체크하여, 가장 오른쪽 그림과 같이 만든다. 특정 유저 A의 시점마다 코사인 유사도를 구하면 된다. --> t-1 시점과 t 시점의 코사인 유사도 구하기 그럼, 유저마다 데이터가 N개씩 있었다면 유사도는 N-1 개씩 생성되는데 유사도들의 표준편차(delta)를 구하고 다음과 같이 H를 구한다 사실 H는 별거 없다. 유사도들의 표준편차가 작을수록 즉, 비슷한 행동을 반복적으로 하는 유저..
22년 7월 20일 겪은 이야기 A상품에 관한 분석을 하던 중, 위 아래 그림이 대충 비슷하기(눈 대중으로)에 유저 비율대로 잘 구매하고 있구나 하고 넘어갔지만... 너무 안일했다. ㅜ 동료분의 추가 확인은 나를 부끄럽게 만들었다. 로그인 유저들 중, 구매 유저의 비율을 보니, 80 레벨대 유저에서는 쥐 파먹은 모습이 보였다. 눈 대중으로 보지않고 "sample 추출시, 비율을 봐야하는 이유"를 배웠다.
목차 Credential 파일 준비 python 연동 연동 및 테이블 불러오기 테이블 입력하기 및 수정 Credential 파일을 하나로 관리하는 이유 현재, 재직중인 회사에서는 Bigquery를 분석용 DB로 이용하고 있다. 나는 엔지니어링 팀은 아니지만 옆에서 귀동냥으로 배운 내용들이 있어서 정리해두려고 한다. (실제로 DB 담당자와 함께 고민을 했다!) 먼저 회사는 프로젝트(=Bigquery Project)마다 독립된 내용을 담아둔다. 예를 들어, 게임 회사라면 A 게임, B 게임을 각각의 프로젝트라고 보는 것이다. 그리고 접근할 수 있는 인증키(=Credential Key)가 부여되어서 Python에서 데이터를 불러올 수 있다. 그런데 전에는 프로젝트마다 인증키를 만들고 관리했던적이 있었는데, 분..
# 공식 홈페이지 unity.com/ Unity - Unity Unity is the ultimate game development platform. Use Unity to build high-quality 3D and 2D games, deploy them across mobile, desktop, VR/AR, consoles or the Web, and connect with loyal and enthusiastic players and customers. unity.com 회원가입 # 다운로드 페이지로 이동 store.unity.com/ 내 계정에서 Download Unity 클릭 # Hub 다운로드 # 허브 로그인 뒤, # 개인 라인선스 획득 # 유니티 설치 # 프로젝트 추가 클릭 시 유니티가 실..
제가 있는 곳에서는 데이터 분석팀이 있고 각자 담당하고 있는 프로젝트가 있습니다. 그리고 각 프로젝트에는 사업, 마케팅, 개발사가 있어서 그들과 함께 일을 합니다.그런데 각기 다른 프로젝트이지만, 공통적으로 요청하는 내용 중 하나는 유저 이탈 분석입니다. 그리고 보통 문의 내용들을 나열하면 다음과 같습니다."이탈 유저 대상 이벤트를 진행하려 하는데 10월 이후 미 접속 유저 리스트를 부탁합니다""초반 동선 구간별 이탈 유저 확인이 필요합니다""업데이트 후 스테이지 별 이탈 유저 분석 요청드립니다"1번 요청의 경우 추출 대상과 기간이 정확히 명시되어 있어 간단해 보이지만 왜 기준이 10월인지? 생각을 해보게 됩니다. 2번 요청은 보통 stage 클리어 비율이 급격히 낮아지는 구간이 어디인지 찾아내서 개선을..
이전 포스팅 LTV 예측하기 에서는 간략하게 LTV에 대한 개념과 예측이 필요한 이유에 대해 다뤄보았습니다. 참고한 사례 NCSOFT & DEVSISTERS는 데이터 분석을 잘 활용하는 기업으로, 서비스 중인 게임의 특성에 맞게 활용하는 모습을 볼 수 있었습니다. 이 방법은 단기간 LTV 예측에서 좋은 성과를 보이고, 실험을 진행해본 결과 만족할 만한 수준이었습니다. 이번 포스팅에서는 제가 두 사례를 참고하여 장기간 예측에 어떻게 활용을 하였는지 이야기 해보려 합니다. 글의 순서 입니다 LTV 예측하기 - 유리함수 fitting ARPU - Feature Engineering Summary LTV 예측하기 - 유리함수 fitting LTV는 Life Time Value의 약자로 쉽게 말해, 고객이 일생동..
LTV(Life Time Value) 예측에 관한 글을 작성하려 합니다. 주 내용은 다른 게임 회사에서 적용중인 프로세스들을 참고해정리한 내용으로 그들보다 배경과 이론 설명이 부족할 수 있습니다. 혹시 궁금하신 점이 있다면 댓글 혹은 제가 참고한 링크들을 참조 부탁드립니다. (Devsisters), (NCSOFT) 글의 순서 입니다 LTV 예측이 필요한 이유 LTV 계산하기 Summary LTV 예측이 필요한 이유 "항상 궁금한 예상 매출액을 집계할 수 있고, CPI 관리를 할 수 있어 마케팅에 더 집중할 수 있다." 최종 목적은 예상 위와 같습니다. 예상 매출액을 집계할 수 있다면 회계 작성 시에도 도움이 되고 앞으로 펼칠 사업의 방향을 정할 때도 매우 도움이 됩니다. 결과과 정확한 편이라면 장점은 나..
1. stacking에 관하여 1.1 stacking이란? Kaggle 상위권 랭커들이 사용하는 알고리즘으로 여러 모델들의 장점을 하나로 합해 새로운 모델을 만드는 방법이다. 1.2 왜? 다음과 같은 가정과 장단점이 존재한다. 1.2.1. 가정 1. 모든 모델은 `mistake`를 가지고 있다. --> 완벽한 모델은 존재하지 않는다. 아무리 Xgboost, lightGBM 등 앙상블 계열 알고리즘이 뛰어나도 알고리즘 구조상 놓치는 부분이 존재한다는 것을 인정한다. 2. 잘 맞추는 부분을 통합 한다면 더 잘 맞추게 될 것이다. 1.2.2. 장점 1. 각 알고리즘의 좋은 부분을 습득 가능 1.2.3. 단점 1. 연산량이 증가한다 원본링크 위 사진은 1.2.1 가정 1번의 예시가 잘 담겨있다. 완벽한 알고리즘..