일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- likelionlikelion
- Python
- parklab
- 인턴10
- DFS
- Join
- TiL
- likelion
- SQL
- DP
- 알고리즘
- BFS
- 멋쟁이사자처럼
- 그리디
- 마이온
- 멋쟁이사자처럼멋쟁이사자처럼
- Plotly
- GIS
- 멋재이사자처럼
- pyhton
- 시각화
- 프로젝트
- folium
- intern10
- ux·ui디자인
- seaborn
- 멋사
- GNN
- 마이온컴퍼니
- 파이썬
- Today
- Total
목록전체 글 (105)
지금은마라톤중
2023.03.22 ● 각 하이퍼 파라미터 정의 objective [기본 = reg : squarederror ] : 지도학습의 손실 최소화 함수를 정의 n_estimators = 학습할 epoch 수 max_depth [기본 : 6] : 트리의 최대 깊이 n_jobs = 병렬 스레드를 몇 개 만들 것인지 ● Early stopping -> 몇번 돌려서 성능이 더 좋아지지 않으면 멈춰라! 천번을 돌려야할 때 , 전부 다 돌리면 비효율적이다 ! 성능이 더 이상 나아지지 않는 경우 자동으로 프로그램을 멈추는 기능! 질문🙋🏻♂️ : EarlyStopping이 오버피팅을 방지한다면 매번 쓰는 게 좋나요? Earlystopping을 사용하게 되면 모든 데이터를 사용하여 훈련하지 못하고 조기에 종료되는 문제가 있..
2023.03.21 질문🙋🏻♂️ : 수백 수천개의 피처를 다루는 방법은? 기술통계의 기술통계들을 구해보거나 , 왜도 첨도를 구해서 데이터의 특성을 파악합니다. ex) df.describe().T.describe() 질문🙋🏻♂️ :히트맵으로 표현했을 때, 검은색, 흰색이 많고 붉은색 계열이 없으니 모두 0, 1로 이루어졌다고 해석해도 되나요? 대략적으로 대부분 0,1로 되어있는 것으로 보여지기 때문에 유일값의 빈도가 많은 값이 있을 수도 있기 때문에 해당 값을 따로 찾아봐야겠다는 힌트를 해당 시각화를 통해 얻을 수 있습니다 질문🙋🏻♂️ :handle_unknown="ignore" 는 무엇을 의미할까요? train 셋에는 없었지만 test 셋에는 있을 때 당황하지 않고 무시하고 넘어가기 'train에는..
2023.03.20 ● train과 test의 day가 아예 다르기 때문에 빼주는 것이 낫다고 판단! 신호와 소음 구분하기 ● 하이퍼 파라미터 튜닝을 통해 모델의 성능을 개선시킬 수 있다! -> GridSearch, RandomSearch로 최적의 하이퍼 파라미터 찾기 질문🙋🏻♂️ : 왜 label='casual', label='registered'을 따로 해주나요 ? - 모델을 만들고 돌릴 때부터 각각 따로 학습을 시켜준 뒤 최적의 하이퍼파라미터를 찾습니다. - count = casual + registered 질문🙋🏻♂️ : train 에는 unique 값의 max 가 2545 인데, test는 49인 이유는? - 정답값(y) 컬럼이 빠져 있기 때문 질문🙋🏻♂️ : 간단하게 모델을 만들기 전에 ..
2023.03.15 ● 엑스트라 트리 모델 Extra Trees 이란? 더욱 랜덤한 포레스트로 아주 무작위화된 앙상블 러닝 모델이다. Extra Trees - 임의 분할 Random Forest - 최적 분할 from sklearn.ensemble import ExtraTreesRegressor # Building the model extra_reg = ExtraTreesRegressor() # Training the model extra_reg.fit(X, y) ● 회귀에서는 정답이 예측과 얼마나 가까운지를 측정! 분류에서 썼던 accuracy는 얼마나 정답을 맞혔는지(y_predict와 y_test의 값이 일치하는 개수)를 평가하기 때문에, accuracy로 회귀모델을 평가하는 것은 적절하지 않습니다..
2023.03.14 질문🙋🏻♂️: 만약 train에는 없는 데이터가 test에 생긴다면? OneHotEncoder(handle_unknown='ignore') -> 알 수 없는 카테고리가 발견되면 0으로 처리 ● 머신러닝/딥러닝 알고리즘은 문자 데이터를 처리할 수 없다! -> 알고리즘이 데이터를 처리할 수 있도록 feature engineering을 통해 데이터를 가공 feature engineering 중 하나인 Encoding Binary encoding vs one-hot-encoding Binary 값은 굳이 one-hot-encoding해줄 필요가 없다. 배타적인 값이 중복을 일으키기 때문! - pd.get_dummies() -> 문자 형태 데이터만 encoding 해서 데이터프레임을 변환해 ..
2023.03.13 ● underfitting과 overfitting 언더피팅(underfitting) 은 모델이 학습 오류를 줄이지 못하는 상황을 의미하고, 오버피팅(overfitting)은 모델 학습 오류가 테스트 데이터의 오류보다 훨씬 작은 경우를 의미 질문🙋🏻♂️ : 가끔 학습 모델을 만들었는데 99% 의 정확도가 나오는 경우가 있습니다. 실수 때문이라면 어떤 실수 때문에 이렇게 정확도가 높게 나올까요? 정답을 학습데이터에 포함시키면 제대로 학습하기 어렵습니다. 이럴 때 정확도가 100%가깝게 나오게 됩니다 ● Data Leakage(데이터 누수, 정보 누설)란? 미래에 대한 전혀 알 수 없는 대한 정보가 모델 학습에서 사용된 경우를 말합니다. 즉 test 데이터가 모델의 학습에 이용된 경우입니..
시본 함수는 축 중심과 도표 중심의 함수로 나눌 수 있다. 축 중심 그래프는 matplotlib.pyplot.Axes 를 통해 표현하고, 그림 중심 그래프는 FaceGrid 통해 matplotlib와 인터페이스한다. 예를들어 displot()은 분포 모듈의 그림 중심 함수이다. 그 중 histplot()이 있다. sns.displot(data=penguins, x="flipper_length_mm", hue="species", multiple="stack") # 커널 밀도 그래프로 그리릴면, 같은 코드에서 kind 파라미더를 "kde"로 지정하면 된다. sns.displot(data=penguins, x="flipper_length_mm", hue="species", multiple="stack", ki..
2023.03.08 [지도학습] 지도 학습(supervised learning)은 훈련 데이터(Training Data)로부터 하나의 함수를 유추해내기 위한 기계 학습(Machine Learning)의 한 방법이다. 훈련 데이터는 '문제'에 해당되는 데이터(X_train)와 레이블이라고 부르는 '정답'이 적혀있는 데이터(y_train)로 구성되어 있습니다 - 사이킷런을 제외한 다른 라이브러리(XGBoost, LightGBM, CatBoost, TensorFlow, Keras 등)에서도 사이킷런 스타일의 API 를 제공하기도 한다. ● 지도학습 흐름 기출문제를 한번 풀어본다 -> X_train으로 학습! 풀어본 기출문제의 정답을 보고 채점해보자 !! -> y_train 으로 정답을 채점한다 ! 실제 모의고..