일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 그리디
- seaborn
- SQL
- parklab
- Join
- GIS
- GNN
- intern10
- 프로젝트
- folium
- TiL
- DFS
- 시각화
- 알고리즘
- 멋재이사자처럼
- 마이온컴퍼니
- likelion
- BFS
- pyhton
- 인턴10
- likelionlikelion
- Plotly
- 마이온
- Python
- 멋사
- DP
- ux·ui디자인
- 멋쟁이사자처럼멋쟁이사자처럼
- 파이썬
- 멋쟁이사자처럼
- Today
- Total
목록전체 글 (105)
지금은마라톤중
2023.03.07 ● 상관계수는 -1~1 사이의 값 피어슨 상관계수(r) r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계, r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계, r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계, r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계, r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계, r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계, r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계 질문🙋🏻♂️: 현실세계에서 양의 상관이 있는 것과 음의 상관이 있는것 무엇이 있을까요? - 양의 상관 교육 수준과 소득 수준. 기온과 아이스크림 판매량 회사규모와 평균연봉 - 음의 상관 체중과 운동량 강수량과 관광객 수 질..
2023.03.06 비즈니스 데이터 분석 질문🙋🏻♂️: 리텐션이란? 한번 방문한 유저들이 서비스를 이탈하지 않고 계속 서비스를 이용하는 것을 의미 질문🙋🏻♂️: 요일별 & 월별, 시간대별 구매 빈도수 지표가 중요한 이유 ? - 중요한 segment 이기 때문 - 특정 시간대나 요일에 서버 증설 또는 알림 , 프로모션, 광고 등 구매율을 높이기위한 어떤 액션을 시도할 수 있기 때문이다 - 조회수 증가 -> 서비스 개선에 활용 질문🙋🏻♂️: MAU란? - "Monthly Active Users*"의 약자 - 한 달 동안 특정 앱이나 웹사이트를 사용한 총 사용자 수 ex ) 만약 어떤 앱이 한 달에 1000명의 MAU를 가지고 있다면, 그 앱은 한 달 동안 1000명의 사용자가 앱을 사용한다는 것을 의미..
2023.03.02 첫 미드 프로젝트를 하였다. 주제가 중간에 엎어지면서 주제를 다시정해서 밤새가며 진행했다. 서울시에 거주하는 20~30대 1인 가구원들에게 지역을 제안해주는 서비스를 만들려고 했다. 이번 포스팅에서는 내가 진행한 전처리에 대해서만 작성하려고 한다. 인구 수는 줄어 들고 있지만, 가구수는 늘어나는 서울의 인구. 1인 가구의 연령분포는 주로 사회초년생 등 청년층이 구성하고 있으며 경제적인 자유도가 핵심 생산 연령층에 비해 떨어지기 때문에 서울에서 생활하기 위해 고려할 사항이 더 많다. 서울에서 살아가기 위해 이들이 중요하게 보는 지표 등은 무엇이 있는지 세부적으로 분석하여 우선순위별 입지를 알아보고자 한다. 거주지 선택 시 주요사항 - 치안 - 녹지 - 전월세 - 대중교통 - 편의시설 팀..
2023.02.04 이번 미니프로젝트는 KOFIC 영화진흥위원회 홈페이지의 데이터를 사용하여 진행하였다. KOFIC에서 제공하는 박스오피스 데이터와 영화제 수상정보 데이터를 활용하여 영화제 수상이 해당 제작사와 배급사 주가에 영향을 미치는지는 분석해보려고 했다. https://www.kofic.or.kr/kofic/business/main/main.do 영화진흥위원회 홈페이지입니다.(1) 웹매거진 한국영화 영화산업계 주요 이슈를 취재, 분석하여 영화업, 영화정책 연구 분야 종사자에게 제공하는 월간지입니다. 한국영화연감 영화진흥위원회가 매년 발간하는, 한국영화 산업 현 www.kofic.or.kr import pandas as pd import numpy as np from glob import glob ..
스타벅스 api와 같이 국민청원 페이지의 정보를 스크랩핑해오는 미니프로젝트를 진행하였다. import pandas as pd import numpy as np import requests from bs4 import BeautifulSoup as bs import json from pandas.io.json import json_normalize import datetime 스타벅스 api는 post 방식이었지만 국민청원은 get방식을 사용하여 쿼리스트링을 url 뒤에 붙여 불러왔다. page_no = 1 url = f'https://petitions.assembly.go.kr/api/petits?pageIndex={page_no}&recordCountPerPage=8&sort=AGRE_END_DE-&s..
첫 미니 프로젝트이다. 스타벅스 api를 활용하여 지도에 지역과 매장타입을 입력 받으면 매장의 위치를 마크업하는 함수를 구현하였다. 또한 매장간 거리 차이를 이용하여 상도덕이 없는 매장은 어디인가? 라는 주제로 분석을 해볼려고 했다. 수업에서 계속 csv 파일만 이용하다가 json 형식을 처음 사용해보았다. 불러오는 방식부터 데이터프레임으로 만드는 방법까지 차이가 있어 처음에 당황했다. 불러올 때는 json.load(변수), 데이터프레임으로 만들 때는 json_normalize()를 사용한다. import pandas as pd import requests import json from pandas.io.json import json_normalize # jsnon을 데이터프레임으로 만들 때 사용 fro..
2023.03.01 시본의 네임스페이스는 평평하다; 기능의 모든 것들이 최상위 수준으로 접근이 가능하다는 것이다. 그러나 코드 자체는 다른 방법을 통해 비슷한 시각화 기능을 가진 모듈과 계층적으로 구조화되어있다. 대부분의 문서들을 이런 모듈들로 구성되어있다: "관계형", "분포형", "분류"와 같은 이름을 접하게 될 것이다. 예를 들어, 분포 모듈은 데이터 포인트의 분포를 나타내는 것을 전문으로 하는 기능을 정읳ㄴ다. 여기에는 히스토그램과 같은 친숙한 방법이 있다. penguins = sns.load_dataset("penguins") sns.histplot(data=penguins, x="flipper_length_mm", hue="species", multiple="stack") 커널 밀도 추정과 같..
2023.02.09 오늘 포스팅은 수업이 아니고 과제이다. 주제는 "메모리 부담 줄이는 법" 이다. 사실 오늘은 2023.02.28일이다. 그간 조금 밀렸던 포스팅을 지금에서야 올린다.. + 미드프로젝트가 생각보다 너무 집중이 필요했다 + 과제였지만 빠르게 수업시간에 한번 더 설명해주셨다. -> 그래서 지금 올린다~ 1. 용량 줄이는 방법 : Parquet - 열의 값은 물리적으로 인접한 메모리 위치에 저장 - 열 단위 압축은 저장 공간에서 효율적 - 열 값이 동일한 데이터 타입이기 때문에 압축에 유리 - 각 열의 데이터 유형에 특정한 인코딩 및 압축 기술을 사용 - 특정 열 값을 가져오는 쿼리는 전체 행을 읽을 필요가 없으므로 성능이 향상 # 파일 사이즈 bytes 로 표기하기 def convert_b..