Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- 시각화
- 마이온컴퍼니
- GIS
- folium
- BFS
- 인턴10
- 멋쟁이사자처럼멋쟁이사자처럼
- Plotly
- GNN
- intern10
- likelion
- Python
- SQL
- parklab
- 멋재이사자처럼
- 파이썬
- DFS
- pyhton
- 마이온
- ux·ui디자인
- 멋사
- 프로젝트
- Join
- 그리디
- likelionlikelion
- seaborn
- 알고리즘
- DP
- TiL
- 멋쟁이사자처럼
Archives
- Today
- Total
지금은마라톤중
캐글 타이타닉 ( 3 ) 본문
캐글 타이타닉 Titainic 5. EDA - Age, Sex, Pclass(violinplot)
f, ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot('Pclass', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,20))
sns.violinplot('Sex', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()
해석 : scale = area로 하면 distribution을 보기가 편한다. 하지만 실제 값을 이용한 비교가 불가능하다.
그래서 count로 바꿔주면 수를 반영하여 나타내기 때문에 직관적으로 보기가 편하다.
캐글 타이타닉 Titainic 6. EDA - Embarked
f, ax = plt.subplots(1,1,figsize=(7,7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)
해석: Embarked 별 생존을 확인하였다. C > Q > S 순으로 생존이 많다.
f, ax = plt.subplots(2,2, figsize =(20,15))
sns.countplot('Embarked', data=df_train, ax=ax[0,0])
ax[0,0].set_title('(1)No. of Passengers Boared')
sns.countplot('Embarked', hue= 'Sex', data=df_train, ax=ax[0,1])
ax[0,1].set_title('(2) Male-Female split for Embarked')
sns.countplot('Embarked',hue= 'Survived', data=df_train, ax=ax[1,0])
ax[1,0].set_title('(3)Embarked vs Survived')
sns.countplot('Embarked',hue= 'Pclass', data=df_train, ax=ax[1,1])
ax[1,1].set_title('(4)Embarked vs Pclass')
plt.subplots_adjust(wspace=0.2, hspace=0.5)
해석: (1) 그래프에서 보면 S> C > Q 순으로 탑승객 수가 많다. (2) 그래프에서 각각 남성이 여성보다 많은 탑승을 한 것을 알 수 있고, 특히 S에서 남성이 많이 탔다. 성별별 생존 그래프에서 여성이 남성보다 생존이 많은 것을 확인 할 수 있었는데 남성의 수가 많은 S에서 생존율이 더 안 좋을 것이다. (3) 그래프에서 보면 S가 생존수가 많지만 생존율로 봤을 때는 가장 낮다. (4) 그래프는 Embarked별 클래스를 본 것이다. S가 탑승객 수가 가장 많았으니 가장 많은 비중을 차지하고 그 안에서도 3>2>1 순이다.
-plt.subplots_adjust(wspace= , hspace= ) : 상하좌우 간격을 맞춰주는 것
*plt.subplots_adjust
left : 그래프의 왼쪽 부분 조정
right : 그래프의 오른쪽 부분 조정
bottom : 그래프의 아랫부분 조정
top : 그래프의 윗부분 조정
wsapce : 그래프들 사이의 너비 간격 조정
hspace : 그래프들 사이의 높이 간격 조정
'Machine Learning > Kaggle' 카테고리의 다른 글
캐글 타이타닉 ( 6 ) (1) | 2022.11.23 |
---|---|
캐글 타이타닉 (5) (0) | 2022.10.27 |
캐글 타이타닉 ( 4 ) (2) | 2022.10.09 |
캐글 타이타닉 ( 2 ) (1) | 2022.10.03 |
캐글 타이타닉 ( 1 ) (1) | 2022.10.03 |
Comments