일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- dacon
- 데이터 분석
- 자기유사도
- 게임 이탈 분석
- 통계학
- 봇탐지
- 딥러닝
- 기초통계학
- 데이터분석
- anomaly
- google.oauth2
- AE
- LTV
- 게임 데이터분석
- 오토인코더
- Detection
- Kaggle
- google.cloud
- 게임분석
- self-similarity
- anomaly detection
- 게임
- PYTHON
- 이상탐지
- 사례
- 대회
- LTV예측
- 유저이탈
- AutoEncoder
- 자료의요약
- Today
- Total
목록전체 글 (22)
사쿠의 데이터 블로그

https://dacon.io/competitions/official/235584/overview/ [기상] AI프렌즈 시즌1 온도 추정 경진대회 출처 : DACON - Data Science Competition dacon.io 오늘(2020-04-13) 대회 마감인 온도 추정 경진대회는 아쉬움이 많이 남는 대회인것 같다. 첫 대회 문제를 살펴봤을 때는 그렇게 어렵지 않을거라 예상했지만 당연히 나의 착각&^^& 데이터 설명 데이터는 다른 대회 대비 크기(size)도 작고 간단하게 생겼다. train의 X 는 기상청에서 제공하는 데이터다. (기온, 현지 기압, 풍속, 누적강수량, 해면기압, 누적일사량, 습도, 풍향) Y00 ~ Y17은 대전 지역 실내외에서 측정한 기온 데이터다. 대회 목적은 제공된 데이..

제목은 플레이 타임 군집화라고 적었지만, 시계열 데이터에 군집화를 적용할 수 있는 방법론을 소개해드립니다. 먼저, 내용의 출처는 아래 논문이고 코드 부분은 제가 작성했습니다. 본문 내용 중 궁금한 내용이 있다면 언제든지 질문 부탁드립니다. Discovering Playing Patterns: Time Series Clustering of Free-To-Play Game Data The classification of time series data is a challenge common to all data-driven fields. However, there is no agreement about which are the most efficient techniques to group unlabeled t..

이번 자료의 요약에서의 목적은 다음과 같다. 1. 자료의 형태를 구분 2. 범주형 자료의 요약방법 확인 3. 이산형 자료의 요약방법 확인 4. 연속형 자료의 요약 방법 확인 범주형 자료의 요약방법을 소개합니다. 도수분포표(Frequency Table) 도수: 관측값의 갯수 상대도수: 도수를 전체 자료의 개수로 나눈 수 신규 게임 출시에 대한 긍부정 반응 조사 예시 응답 도수 상대도수 긍정 68 0.356 그저 그렇다 43 0.225 부정 66 0.345 무응답 14 0.07 합 191 1 무응답은 전체의 7% 정도로 설문지 참여율은 높은 편인 것으로 보인다. 결과를 보면, 긍정과 부정이 약 35% 비율로 비교적 동일하게 나왔다. 유저별 취향이 극명하게 갈리는 부분이 있는 것으로 보인다. 원형그래프(Pie..

이번 자료의 요약에서의 목적은 다음과 같다. 1. 자료의 형태를 구분 2. 범주형 자료의 요약 방법 확인 3. 이산형 자료의 요약 방법 확인 4. 연속형 자료의 요약 방법 확인 자료(Data)의 형태는 크게 수치 자료(numerical data)와 범주형 자료(categorical data) 2가지로 구분이 된다. 타이타닉 데이터를 예시로 보면 아래와 같이 구분할 수 있다. 수치 자료: age, fare 범주형 자료: pclass, sex, sibsp, parch, survival 수치 자료란? 관측값이 수치로 측정되는 자료로, 키, 몸무게, 자동차 사고 건수 등이 있다 범주형 자료란? 관측값의 크기가 아니라 내용이 관심의 대상으로, 혈액형(A, B, O, AB), 지역(서울, 경기... ), 선호도 여..
통계학을 공부하는 이유? '통계학'하면 비 전공자들의 입장이라면 일단 어렵고 쉽게 도전하지 못하는 분야로 보인다. 하지만 "데이터 분석"업무를 하다 보면 통계학은 마케팅, 의사결정 등 다양한 분야에 자주 사용하고 있다. 전공자 입장에서 최근 다양한 활용처가 있어 기쁘지만, 내가 알고 있는 지식이 계속 성장하지 않고 있기 때문에 기초 통계학을 공부해야 겠다는 생각을 했다. 기초부터 다지다 보면 어려운 통계 기법들도 익숙해질 날이 올 것이라 생각한다. " 통계학은 자료의 수집 과정을 설계하고, 자료를 요약하고 해석하여 결론을 끌어내거나 일반화하는 전체적인 원리와 방법론을 제공하여 준다. " 통계학이란? 주어진 자료를 기초로 해서 보편 타당한 이론을 추론해 내는 학문 통계학의 주된 목표? 1. 관측값으로부터 ..
너무 오랜만에 블로그 글을 쓰는 것 같다. 나를위해 글을 남겨두자!!! 고 생각을 했지만 실천으로 옮기는건 역시 힘든 것 같다. 그래서 월요일 오전 회사에 일찍 출근해서 글을 작성한다. 여기 앉아있으면 키보드 두들기는게 수월한것 같다. 글또 OT를 진행하기전 간단히 작성하고 싶은 글 리스트를 추려 봤다. 1. Dacon 우승자 코드 리뷰 2. Kaggle Discussion 번역 & 공부 3. 기초 통계 4. ANOVA 1번과 2번은 데이터 분석공부를 하는 목적으로 나보다 실력자들의 생각과 구현 방법들을 공부하기 위해 필사 & 번역 및 느낌점을 정리 할 예정이다. 3번 기초통계는 아무래도 졸업한지 시간이 꽤 지나 기억나지 않는 부분이 있는 것 같다. (합동 분산, F분포 등.. ) 마지막 ANOVA는 학..

공부를 위해 Kaggle 커널을 필사했으며, 원본 출처를 남깁니다. (원본 주소 : https://www.kaggle.com/dansbecker/permutation-importance) Permutation Importance Using data from multiple data sources www.kaggle.com Introduction 모델에 대해 가장 기본적인 질문 중 하나는, 예측에 가장 큰 영향을 미치는 변수(feature)는 무엇일까? 이런 개념을 변수 중요도라고 한다. 필자는 적용 사례 리스트에서 모든 목적에 대해 변수 중요도가 효과적으로 사용되는 것을 보았습니다. 이번 페이지에서는 Permutation importance에 중점을 둘 것입니다. 대부분의 다른 접근 방식과 비교하여 Pe..
게임 회사들이 매일 살펴보는 지표는 매출 관련 지표일 것이다. 그중 겪었던 몇가지 사례에 대해 작성하려고 한다. 구분 신규 아이템 출시 후 매출액 ARPPU Case 1 감소 증가 Case 2 증가 증가 Case 3 감소 감소 (ARPPU - Average Revenue Per Paying User : 결제 유저들의 평균 매출액) 첫 번째는 전체 매출이 감소 했지만, 결제 유저(PU)들의 씀씀이는 증가한 경우 : 유저의 매출 규모를 [상, 중, 하]로 나누었을 때 보통 중하위권 감소 & 상위권 유지인 경우가 많다. --> 예를들어, 신규 출시 상품이 고과금 유저들은 구입을 했지만, 중하위권 유저들은 반응하지 않는 경우이다. 두번째는 전체 매출과, 결제 유저(PU)들의 씀씀이가 동시에 증가한 경우 : 보통..