일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 알고리즘
- GIS
- SQL
- DP
- GNN
- 시각화
- 멋사
- 멋재이사자처럼
- 멋쟁이사자처럼
- BFS
- 인턴10
- Join
- DFS
- intern10
- ux·ui디자인
- Plotly
- likelion
- 멋쟁이사자처럼멋쟁이사자처럼
- Python
- pyhton
- parklab
- likelionlikelion
- seaborn
- folium
- 프로젝트
- 마이온
- 파이썬
- 마이온컴퍼니
- TiL
- 그리디
- Today
- Total
지금은마라톤중
멋사 AI스쿨 TIL - (17) 본문
2023.03.06
비즈니스 데이터 분석
질문🙋🏻♂️: 리텐션이란? 한번 방문한 유저들이 서비스를 이탈하지 않고 계속 서비스를 이용하는 것을 의미 |
질문🙋🏻♂️: 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문이다 - 조회수 증가 -> 서비스 개선에 활용 |
질문🙋🏻♂️: MAU란? - "Monthly Active Users*"의 약자 - 한 달 동안 특정 앱이나 웹사이트를 사용한 총 사용자 수 ex ) 만약 어떤 앱이 한 달에 1000명의 MAU를 가지고 있다면, 그 앱은 한 달 동안 1000명의 사용자가 앱을 사용한다는 것을 의미 실습 Tip - 연-월별로 전체 고객에 대해 Unique 값 Count를 구한다. |
● 코호트와 리텐션
코호트 - 시간, 행동, 규모 단위로 구할 수 있으며, 여기에서는 시간 집단을 기준으로 봅니다. => 리텐션
리텐션 => 월별로 구해서 기존 구매했던 고객이 월별로 얼마나 남아있는지를 구해볼 예정입니다.
질문🙋🏻♂️: 리텐션율은 왜 비즈니스에 중요할까요? 리텐션율이 중요한 이유는 비즈니스의 성과를 나타내기 때문입니다. 견고한 리텐션율은 유저의 참여가 활발하다는 것을 나타내며, 이는 더 나은 수익화의 기회로 이어질 수 있습니다. 리텐션율을 통해 파악할 수 있는 사항:
|
질문🙋🏻♂️: 고객세분화를 하면 어떤 점이 좋을까요? (chat GPT 답변) 고객 세분화는 비즈니스 데이터 분석에서 매우 중요한 요소 중 하나입니다. 고객 세분화는 고객 그룹을 다양한 특성에 따라 분류하여 분석하는 것을 말합니다. 이를 통해 다양한 비즈니스 의사 결정에 도움을 줄 수 있습니다. 고객 세분화를 통해 할 수 있는 분석은 다음과 같습니다.
|
● RFM
RFM 분석은 고객 분석 방법 중 하나로, 고객의 거래 내역 데이터를 기반으로 고객을 분류하는 기법입니다.
RFM 분석은 기업이 고객을 더 잘 이해하고, 고객 경험을 개선하며, 고객 유지를 위한 마케팅 전략을 수립하는 데에 활용됩니다.RFM은 Recency, Frequency, Monetary의 약어로 각각 최근성, 빈도, 금액을 의미합니다.
- Recency(최근성) : 고객이 얼마나 최근에 구매를 했는지를 나타내며, 최근 구매일수록 점수가 높게 부여됩니다.
- Frequency(빈도) : 고객이 일정 기간 동안 구매한 빈도를 나타내며, 구매 횟수가 많을수록 점수가 높게 부여됩니다.
- Monetary(금액) : 고객이 일정 기간 동안 구매한 총 금액을 나타내며, 구매 금액이 많을수록 점수가 높게 부여됩니다.
각각의 요소를 기반으로 점수를 부여하고, 이를 종합하여 고객을 분류합니다. 이를 통해 고객의 구매력과 가치를 파악할 수 있으며, 고객 그룹별로 타겟 마케팅 전략을 수립할 수 있습니다. 예를 들어, 고객의 최근성 점수가 높으면 재구매를 유도하기 위해 할인 쿠폰을 제공하거나 새로운 상품을 추천할 수 있습니다.
이렇게 RFM 분석을 통해 고객을 세분화하면, 기업은 고객 그룹 별로 마케팅 전략을 수립하거나, 더 나은 고객 경험을 제공하거나, 고객 유지 및 유치에 기여할 수 있습니다.
RFM => 얼마나 최근에 자주 많은 금액을 구매했는지 분석
질문🙋🏻♂️: 보통 이상치를 제거할 때 기준은 어떻게 확인하나요? (chat GPT 답변) 이상치를 제거하는 기준은 분석하는 데이터의 특성에 따라 다르며, 전문가의 경험과 판단에 따라 결정될 수 있습니다. 일반적으로는 아래와 같은 방법들이 사용됩니다. 1. 시각화를 통한 확인 : boxplot, scatter plot 등 시각화를 통해 이상치를 확인하고, 분석 대상에서 제외하는 방법입니다. 2. 통계적 방법 : z-score나 IQR(Inter-Quartile Range) 등을 이용하여, 데이터 분포에서 벗어나는 값을 이상치로 판단하고 제거하는 방법입니다. 3. 도메인 지식 활용 : 데이터 분석 대상의 특성과 도메인 지식을 이용하여, 이상치를 판단하고 제거하는 방법입니다. 이상치를 판단하는 기준은 데이터 분석의 목적과 분석 대상의 특성, 데이터 크기 등에 따라 다르므로, 이에 맞게 적절한 기준을 선정해야 합니다. ** scatterplot을 시각화해서 이상치를 확인할 수 있지만 boxplot, histogram에 비해 시간이 오래걸린다. |
질문🙋🏻♂️: 이상치와 오류데이터는 어떻게 다를까요? 이상치(outliers)와 오류 데이터(errors)는 모두 데이터셋에서 문제가 있는 데이터를 의미하지만, 그 성격과 원인은 다릅니다. 이상치는 데이터의 분포에서 벗어난 극단적인 값을 가진 데이터를 말합니다. 이러한 이상치는 데이터 분석에서 실제 데이터 분포를 제대로 파악하지 못하게 하거나, 모델의 성능을 왜곡시키는 요인으로 작용할 수 있습니다. 따라서 이상치를 탐지하고 제거하는 것은 데이터 분석에서 중요한 전처리 과정입니다. 반면에 오류 데이터는 입력 과정에서 발생하는 실수, 노이즈, 손상된 데이터 등으로 인해 발생하는 잘못된 데이터를 의미합니다. 이러한 오류 데이터는 데이터의 수집 과정에서 발생할 수 있으며, 예를 들어 계측 장비의 오작동, 인터넷 연결의 불안정 등이 원인이 될 수 있습니다. 이러한 오류 데이터를 제거하는 것도 데이터 전처리의 중요한 과정 중 하나입니다. |
● cut과 qcut
-cut() : 히스토그램의 bins 와 같은 역할, 같은 길이로 구간을 나눈다, 절대평가, 예) 몇 점이상이면 A학점,
- qcut() : 같은 개수로 구간을 나눈다, 상대평가, 예) 상위 10명 A학점
pandas 에서 cut, qcut 을 통해 연속된 수치 데이터를 나눠서 구간화 할 예정입니다.
수치데이터 => 범주형 데이터로 만들 때 사용합니다.
'멋쟁이사자처럼 > Python' 카테고리의 다른 글
멋사 AI스쿨 TIL - (19) (0) | 2023.03.09 |
---|---|
멋사 AI스쿨 TIL - (18) (0) | 2023.03.07 |
멋사 AI스쿨 TIL - (16) (0) | 2023.02.28 |
멋사 AI스쿨 TIL - (15) (0) | 2023.02.09 |
멋사 AI스쿨 TIL - (14) (0) | 2023.02.07 |