일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 멋사
- SQL
- GNN
- TiL
- 마이온
- 멋재이사자처럼
- paper review
- 파이썬
- 인턴10
- intern10
- Join
- likelion
- graphrag
- seaborn
- 마이온컴퍼니
- DFS
- 프로젝트
- Rag
- 멋쟁이사자처럼
- DP
- likelionlikelion
- BFS
- parklab
- folium
- ux·ui디자인
- Python
- tog
- 알고리즘
- 그리디
- 시각화
- Today
- Total
목록Machine Learning/Kaggle (6)
지금은마라톤중

Titanic - 11. Feature engineering - Change string to categorical and Pearson coefficient https://youtu.be/9GmeGAoBM7M 이번에는 문자열을 그래도 사용하면 인식의 오류가 있어서 숫자열로 바꿔주는게 좋다. map 과 딕셔너리를 이용하여 숫자의 값으로 표현하여 효율성을 높이는 작업을 했다. df_train['Initial'] = df_train['Initial'].map({'Master':0, 'Miss':1, 'Mr': 2, 'Mrs': 3, 'Other': 4}) df_test['Initial'] = df_test['Initial'].map({'Master':0, 'Miss':1, 'Mr': 2, 'Mrs': 3, ..

Titanic 9. Feature engineering - Fill Null in Age https://youtu.be/qVknmB5OElE * Feature Engineering : Feature Engineering은 머신러닝 알고리즘을 작동하기 위해 데이터에 대한 도메인 지식을 활용하여 특징(Feature)를 만들어내는 과정이다. 다른 정의를 살펴보면, 머신러닝 모델을 위한 데이터 테이블의 컬럼(특징)을 생성하거나 선택하는 작업을 의미한다. Feature Engineering은 모델 성능에 미치는 영향이 크기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계이며, 전문성과 시간과 비용이 많이 드는 작업이다. - Feature가 중요한 이유 머신러닝은 입력 데이터의 함수이며 선형 또는 비선형의 형태를..

캐글 타이타닉 Titainic 7. EDA - FamilySize https://youtu.be/TjcAtKuzVrg df_train['FamilySize']= df_train['SibSp']+df_train['Parch'] + 1 - pandas 시리즈끼리 사칙연산이 가능하다. - +1은 자신을 의미한다. print('Maximum size of Family:', df_train['FamilySize'].max()) print('Minimum size of Family:', df_train['FamilySize'].min()) f, ax = plt.subplots(1,3,figsize=(40,10)) sns.countplot('FamilySize', data= df_train, ax=ax[0]) ax[..

캐글 타이타닉 Titainic 5. EDA - Age, Sex, Pclass(violinplot) https://youtu.be/aeaEISnjH2I f, ax = plt.subplots(1,2,figsize=(18,8)) sns.violinplot('Pclass', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[0]) ax[0].set_title('Pclass and Age vs Survived') ax[0].set_yticks(range(0,110,20)) sns.violinplot('Sex', 'Age', hue="Survived", data=df_train, scale='area', split=True, ax=ax[1]..

캐글 타이타닉 Titainic 3. EDA - Sex https://youtu.be/-v42Y-r9VqE?list=PLC_wC_PMBL5MnqmgTLqDgu4tO8mrQakuF f, ax = plt.subplots(1,2,figsize=(18,8)) df_train[['Sex', "Survived"]].groupby(['Sex'], as_index=True).mean().plot.bar(ax=ax[0]) ax[0].set_title('Survived vs Sex') sns.countplot('Sex', hue='Survived', data=df_train, ax=ax[1]) ax[1].set_title('Sex: Survived vs Dead') plt.show() 해석: 두 그래프는 성별에 따른 생존을..

공부 기록 블로그 시작!! 어떻게 쓰는건지 잘 모르겠다... 일기도 안 쓰고 기록이란걸 너무 오랜만에 해봐서..어떻게든 되겠지!!! 일단 go on 시작은 캐글 타이타닉 데이터로 https://youtu.be/_iqz7tFhox0?list=PLC_wC_PMBL5MnqmgTLqDgu4tO8mrQakuF 캐글 타이타닉 Titanic -1. Dataset check import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns plt.style.use('seaborn') sns.set(font_scale=2.5) import missingno as msno # ignore warnings import war..