지금은마라톤중

캐글 타이타닉 ( 3 ) 본문

Machine Learning/Kaggle

캐글 타이타닉 ( 3 )

달리는중 2022. 10. 9. 15:17

캐글 타이타닉 Titainic 5. EDA  - Age, Sex, Pclass(violinplot)

 

https://youtu.be/aeaEISnjH2I

 

f, ax = plt.subplots(1,2,figsize=(18,8))
sns.violinplot('Pclass', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[0])
ax[0].set_title('Pclass and Age vs Survived')
ax[0].set_yticks(range(0,110,20))

sns.violinplot('Sex', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[1])
ax[1].set_title('Sex and Age vs Survived')
ax[1].set_yticks(range(0,110,10))
plt.show()

scale = area
scale = count

해석 : scale = area로 하면 distribution을 보기가 편한다. 하지만 실제 값을 이용한 비교가 불가능하다.
그래서 count로 바꿔주면 수를 반영하여 나타내기 때문에 직관적으로 보기가 편하다.

 


캐글 타이타닉 Titainic 6. EDA  - Embarked

 

https://youtu.be/zRH_ON9kZb0

 

f, ax = plt.subplots(1,1,figsize=(7,7))
df_train[['Embarked', 'Survived']].groupby(['Embarked'], as_index=True).mean().sort_values(by='Survived', ascending=False).plot.bar(ax=ax)

해석: Embarked 별 생존을 확인하였다. C > Q > S 순으로 생존이 많다.
f, ax = plt.subplots(2,2, figsize =(20,15))
sns.countplot('Embarked', data=df_train, ax=ax[0,0])
ax[0,0].set_title('(1)No. of Passengers Boared')

sns.countplot('Embarked', hue= 'Sex', data=df_train, ax=ax[0,1])
ax[0,1].set_title('(2) Male-Female split for Embarked')


sns.countplot('Embarked',hue= 'Survived', data=df_train, ax=ax[1,0])
ax[1,0].set_title('(3)Embarked vs Survived')

sns.countplot('Embarked',hue= 'Pclass', data=df_train, ax=ax[1,1])
ax[1,1].set_title('(4)Embarked vs Pclass')

plt.subplots_adjust(wspace=0.2, hspace=0.5)

해석: (1) 그래프에서 보면 S> C > Q 순으로 탑승객 수가 많다. (2) 그래프에서 각각 남성이 여성보다 많은 탑승을 한 것을 알 수 있고, 특히 S에서 남성이 많이 탔다. 성별별 생존 그래프에서 여성이 남성보다 생존이 많은 것을 확인 할 수 있었는데 남성의 수가 많은 S에서 생존율이 더 안 좋을 것이다. (3) 그래프에서 보면 S가 생존수가 많지만 생존율로 봤을 때는 가장 낮다. (4) 그래프는 Embarked별 클래스를 본 것이다. S가 탑승객 수가 가장 많았으니 가장 많은 비중을 차지하고 그 안에서도  3>2>1 순이다.

 

-plt.subplots_adjust(wspace= , hspace= ) : 상하좌우 간격을 맞춰주는 것

*plt.subplots_adjust
left : 그래프의 왼쪽 부분 조정
right : 그래프의 오른쪽 부분 조정
bottom : 그래프의 아랫부분 조정
top : 그래프의 윗부분 조정
wsapce : 그래프들 사이의 너비 간격 조정
hspace : 그래프들 사이의 높이 간격 조정 

'Machine Learning > Kaggle' 카테고리의 다른 글

캐글 타이타닉 ( 6 )  (1) 2022.11.23
캐글 타이타닉 (5)  (0) 2022.10.27
캐글 타이타닉 ( 4 )  (2) 2022.10.09
캐글 타이타닉 ( 2 )  (1) 2022.10.03
캐글 타이타닉 ( 1 )  (1) 2022.10.03
Comments