일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 멋쟁이사자처럼
- Join
- seaborn
- Rag
- tog
- parklab
- graphrag
- 파이썬
- GNN
- 멋사
- SQL
- 프로젝트
- intern10
- DP
- TiL
- 시각화
- 멋재이사자처럼
- DFS
- 마이온컴퍼니
- Python
- folium
- likelionlikelion
- ux·ui디자인
- paper review
- 알고리즘
- likelion
- BFS
- 인턴10
- 마이온
- 그리디
- Today
- Total
목록분류 전체보기 (116)
지금은마라톤중

2023.03.29 질문🙋🏻♂️ : 넘파이가 빠른이유? 코드 내부가 파이썬이 아니고 low level 언어로 만들어졌습니다. 내부적으로 반복을 사용하지 않습니다. 벡터, 행렬 연산을 합니다. ● 파이썬이 느림에도 불구하고 데이터사이언스에서 큰 역할을 하고 있는 것은 내부가 다른 언어로 만들어져있고 API가 파이썬으로 되어있기 때문에 장점만을 모아 만든 도구입니다. 파이썬은 문법이 직관적이고 고수준(사람이 이해하기 쉬운언어)이기 때문에 API를 파이썬으로 작성하고 내부를 저수준(사람이 이해하기 어려운 언어)로 만들어서 빠르게 동작하도록 했기 때문에 빠른속도와 (비교적)쉬운 인터페이스로 사용할 수 있도록 만들어졌습니다 질문🙋🏻♂️ : umpy 의 zeros, ones, zeros_like, ones_li..

2023.03.28 자연어처리 학습 ● CountVectorizer와 BOW(bag of words)차이 -CountVectorizer : 단어를 횟수 기반으로 벡터화해줌 - BOW(bag of words) : 텍스트를 담는 가방, 순서를 고려하지 않고 출현 빈도만 고려하는 텍스트 데이터의 수치화 표현 방법 , 단어의 순서가 완전히 무시됨 질문🙋🏻♂️: [^가-힣ㄱ-ㅎㅏ-ㅣa-zA-Z0-9] 이 정규표현식을 어떻게 해석할 수 있을까요? 1) 가-힣 2) ㄱ-ㅎ 3) ㅏ-ㅣ 4) a-z 5) A-Z 6) 0-9 질문🙋🏻♂️:[^조건식] 구문을 형태소로 구문 분석합니다. nouns -> 명사 추출 pos -> 품사 태깅 norm=True 옵션 -> 토큰 정규화 (되나욬 -> 되나요) stem=True 옵..

2023.03.27 질문🙋🏻♂️ : 왜 Accuracy 만으로는 제대로 된 분류의 평가를 하기 어려울까요? 데이터가 불균형한 경우에는 높은 Accuracy여도 정확하지 않기 때문이다. 예를 들어 암 여부를 예측하는 모델이라고 할 때 현실세계에서 건강검진을 했을 때 1000명 중에 1명이 암환자라면 학습을 했을 때 암환자의 특징을 학습하기도 어려울 뿐더러, 정확도인 Accuracy로 측정하게 되면 모두 암환자가 아니라고 했을 때 99.9%가 정확도로 나오게 됩니다. 1명의 암환자를 제대로 찾지 못했기 때문에 해당 모델은 잘 만든 모델이라고 평가할 수 없습니다. ● np.argmax -> 값이 가장 큰 인덱스(분류된 클래스!)를 반환 ● 분류기 출력 품질을 평가하기 위한 precision-recall 메트..
2023.03.22 ● 각 하이퍼 파라미터 정의 objective [기본 = reg : squarederror ] : 지도학습의 손실 최소화 함수를 정의 n_estimators = 학습할 epoch 수 max_depth [기본 : 6] : 트리의 최대 깊이 n_jobs = 병렬 스레드를 몇 개 만들 것인지 ● Early stopping -> 몇번 돌려서 성능이 더 좋아지지 않으면 멈춰라! 천번을 돌려야할 때 , 전부 다 돌리면 비효율적이다 ! 성능이 더 이상 나아지지 않는 경우 자동으로 프로그램을 멈추는 기능! 질문🙋🏻♂️ : EarlyStopping이 오버피팅을 방지한다면 매번 쓰는 게 좋나요? Earlystopping을 사용하게 되면 모든 데이터를 사용하여 훈련하지 못하고 조기에 종료되는 문제가 있..

2023.03.21 질문🙋🏻♂️ : 수백 수천개의 피처를 다루는 방법은? 기술통계의 기술통계들을 구해보거나 , 왜도 첨도를 구해서 데이터의 특성을 파악합니다. ex) df.describe().T.describe() 질문🙋🏻♂️ :히트맵으로 표현했을 때, 검은색, 흰색이 많고 붉은색 계열이 없으니 모두 0, 1로 이루어졌다고 해석해도 되나요? 대략적으로 대부분 0,1로 되어있는 것으로 보여지기 때문에 유일값의 빈도가 많은 값이 있을 수도 있기 때문에 해당 값을 따로 찾아봐야겠다는 힌트를 해당 시각화를 통해 얻을 수 있습니다 질문🙋🏻♂️ :handle_unknown="ignore" 는 무엇을 의미할까요? train 셋에는 없었지만 test 셋에는 있을 때 당황하지 않고 무시하고 넘어가기 'train에는..

2023.03.20 ● train과 test의 day가 아예 다르기 때문에 빼주는 것이 낫다고 판단! 신호와 소음 구분하기 ● 하이퍼 파라미터 튜닝을 통해 모델의 성능을 개선시킬 수 있다! -> GridSearch, RandomSearch로 최적의 하이퍼 파라미터 찾기 질문🙋🏻♂️ : 왜 label='casual', label='registered'을 따로 해주나요 ? - 모델을 만들고 돌릴 때부터 각각 따로 학습을 시켜준 뒤 최적의 하이퍼파라미터를 찾습니다. - count = casual + registered 질문🙋🏻♂️ : train 에는 unique 값의 max 가 2545 인데, test는 49인 이유는? - 정답값(y) 컬럼이 빠져 있기 때문 질문🙋🏻♂️ : 간단하게 모델을 만들기 전에 ..

2023.03.15 ● 엑스트라 트리 모델 Extra Trees 이란? 더욱 랜덤한 포레스트로 아주 무작위화된 앙상블 러닝 모델이다. Extra Trees - 임의 분할 Random Forest - 최적 분할 from sklearn.ensemble import ExtraTreesRegressor # Building the model extra_reg = ExtraTreesRegressor() # Training the model extra_reg.fit(X, y) ● 회귀에서는 정답이 예측과 얼마나 가까운지를 측정! 분류에서 썼던 accuracy는 얼마나 정답을 맞혔는지(y_predict와 y_test의 값이 일치하는 개수)를 평가하기 때문에, accuracy로 회귀모델을 평가하는 것은 적절하지 않습니다..
2023.03.14 질문🙋🏻♂️: 만약 train에는 없는 데이터가 test에 생긴다면? OneHotEncoder(handle_unknown='ignore') -> 알 수 없는 카테고리가 발견되면 0으로 처리 ● 머신러닝/딥러닝 알고리즘은 문자 데이터를 처리할 수 없다! -> 알고리즘이 데이터를 처리할 수 있도록 feature engineering을 통해 데이터를 가공 feature engineering 중 하나인 Encoding Binary encoding vs one-hot-encoding Binary 값은 굳이 one-hot-encoding해줄 필요가 없다. 배타적인 값이 중복을 일으키기 때문! - pd.get_dummies() -> 문자 형태 데이터만 encoding 해서 데이터프레임을 변환해 ..