일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- likelion
- 프로젝트
- DP
- GNN
- 멋재이사자처럼
- Join
- GIS
- SQL
- likelionlikelion
- 마이온컴퍼니
- ux·ui디자인
- 마이온
- 멋쟁이사자처럼
- parklab
- folium
- 알고리즘
- BFS
- 멋사
- 파이썬
- 멋쟁이사자처럼멋쟁이사자처럼
- Python
- DFS
- seaborn
- 인턴10
- pyhton
- intern10
- 시각화
- 그리디
- Plotly
- TiL
- Today
- Total
목록멋쟁이사자처럼/Python (33)
지금은마라톤중
2023.03.06 비즈니스 데이터 분석 질문🙋🏻♂️: 리텐션이란? 한번 방문한 유저들이 서비스를 이탈하지 않고 계속 서비스를 이용하는 것을 의미 질문🙋🏻♂️: 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문이다 - 조회수 증가 -> 서비스 개선에 활용 질문🙋🏻♂️: MAU란? - "Monthly Active Users*"의 약자 - 한 달 동안 특정 앱이나 웹사이트를 사용한 총 사용자 수 ex ) 만약 어떤 앱이 한 달에 1000명의 MAU를 가지고 있다면, 그 앱은 한 달 동안 1000명의 사용자가 앱을 사용한다는 것을 의미..
2023.02.09 오늘 포스팅은 수업이 아니고 과제이다. 주제는 "메모리 부담 줄이는 법" 이다. 사실 오늘은 2023.02.28일이다. 그간 조금 밀렸던 포스팅을 지금에서야 올린다.. + 미드프로젝트가 생각보다 너무 집중이 필요했다 + 과제였지만 빠르게 수업시간에 한번 더 설명해주셨다. -> 그래서 지금 올린다~ 1. 용량 줄이는 방법 : Parquet - 열의 값은 물리적으로 인접한 메모리 위치에 저장 - 열 단위 압축은 저장 공간에서 효율적 - 열 값이 동일한 데이터 타입이기 때문에 압축에 유리 - 각 열의 데이터 유형에 특정한 인코딩 및 압축 기술을 사용 - 특정 열 값을 가져오는 쿼리는 전체 행을 읽을 필요가 없으므로 성능이 향상 # 파일 사이즈 bytes 로 표기하기 def convert_b..
2023.02.08 오늘은 버거지수에 대한 분석을 진행해보았다. 버거지수란 ? : 한 도시의 발전 수준은 (버거킹의 개수+맥도날드의 개수+KFC의 개수)/롯데리아의 개수를 계산하여 높게 나올수록 더 발전된 도시라고 할 수 있다. - 버거지수가 클수록 발전된 도시로 판단 - 버거킹 관련 매장들을 살펴보았다. df.loc[df["상호명_대문자"].str.contains("버거킹|BKR"), "상호명_대문자"].unique() 🙋🏻♂️ 질문 : 현업에서 분석할 때 저런 (주) 버거킹티피 같은 예외적인 경우를 제거해주지 못한다면 어떤 문제가 생길 수 있나요? 크게 문제가 될 수 있나요?? 분석결과에 대한 신뢰를 어느정도 할 수 있느냐의 문제입니다. 지금 사용하는 데이터도 실시간 데이터는 아닙니다. 어느정도의 ..
20203.02.07 🙋🏻♂️질문 : sns.heatmap(), df.style.background_gradient() => 두 가지의 차이점? heatmap은 전체를 기준으로 확인할 때, background_gradient는 axis를 조절하여 행 또는 열 기준으로도 확인df.style.background_gradient() => 성질이 다른 각 변수를 각각 비교하고자 할 때 적합합니다. 예) 변수에 체중, 키, BMI지수, 콜레스테롤수치 처럼 스케일값이 다르고 성질이 다른 값의 스케일을 비교하고자 할 때 적합합니다. 🙋🏻♂️질문 : 왜 groupby 로 할 수 있는 것은 pivot_table로도 대부분 구현이 가능할까요? pivot_table이 groupby의 하이레벨 인터페이스 입니다 자유도가 ..
2023.02.06 ● Tidy-data => 깔끔한 데이터 🙋🏻♂️질문 : 왜 이 데이터는 깔끔한 데이터가 아닐까요? - 한 열에 하나의 변수가 있는게 아니라 다양한 열에 하나의 변수가 분포되어 있습니다 - 각 행이 개별 관측치가 아니라 집계가 되어 있는 데이터입니다. - 이전에 실습했던 서울코로나 데이터 => 각 행이 개별 관측치, 각 확진자에 대한 정보를 담고 있다. - 일별 시세 관측 데이터와 집계 데이터 중 어떤 것 일까요? => 집계데이터 ● pandas는 tidy data를 위해 melt라는 기능을 제공한다. ● melt() - 열에 있던 데이터를 행으로 녹인다. - wide-form => pandas plot()으로 막대의 색상을 다르게 지정하거나, 서브플롯을 그리거나, 시각화 하기에 좋..
2023.02.01 ● 왜도 - 왜도는 치우쳐진 정도를 통해 비대칭성을 확인하는 지표이다. - positive 왼쪽, negative 오른쪽 - 보통은 정규분포 형태가 가장 이상적인 형태입니다. - 그런데 현실세계에서는 정규분포 형태의 모양을 띄는 경우가 많지 않습니다. - 머신러닝, 딥러닝 등을 할 때는 정규분포 형태로 분포의 모양을 변경해 주기도 합니다. ● 첨도 - 관측치들이 어느 정도 집중적으로 중심에 몰려 있는가를 측정할 때 사용된다. - 납작한지 뾰족한지를 확인 - 첨도값(K)이 3에 가까우면 산포도가 정규분포에 가깝다. - 3보다 작을 경우에는(K3) 산포는 정규분포보다 더 뾰족한 분포로 생각할 수 있다. ● concat()을 이용한 병합 - concat(axis=0) => 컬럼명이 같은 여..
2023.01.31 ❗️꿀팁 아나콘다는 여러 도구를 한번에 설치해 주기도 하지만 가상환경을 제공해 줍니다. 설치했음에도 불구하고 No Module Not Found 오류가 발생할 때는 보통 여러 버전의 파이썬 혹은 아나콘다 등이 설치되어 있는데 현재 사용하고 있는 위치가 아닌 다른 위치에 설치되었을 때 이런 오류가 발생하게 됩니다. 보통 오류 메시지에 보면 어느 경로에 없다는 메시지가 나오게 됩니다. 해당 경로에 가서 보면 여러 라이브러리가 설치되어있는 폴더를 볼 수 있는데, 해당 위치에 사용하고자 하는 라이브러리를 다운로드 받아 옮겨주면 보통 잘 import 가 됩니다. ( base) 괄호 써주기 or 변수 할당하기 (연산자 우선순위) = 할당 == 같음 != 다름 ● str accessor - .st..
2023.01.30 EDA 수업이 시작되었다. - matplotlib는 정적인 시각화 - javascript이 좀 더 동적인 시각화 - 그리고 맷트폴립이 사용이 복잡하여 주변에 다른 도구들이 있음. ● 한글폰트 사용을 위해 설치 - matplotlib에서 한글폰트를 사용하기 위해서는 설치가 필요하다. ex) !pip install koreanize-matplotlib ● glob - 원하는 경로에 있는 파일을 보는 라이브러리 # glob를 임포트하고 /*을 통해 경로에 있는 파일들을 확인할 수 있다. # * 앞에 원하는 규칙을 넣을 수 있다. from glob import glob files = glob("data/seoul*.csv") file_paths = sorted(files) file_paths..