데이터분석 과제테스트 벼락치기로 준비하기

Notice

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

𝘚𝘭𝘰𝘸 𝘣𝘶𝘵 𝘴𝘵𝘦𝘢𝘥𝘺

데이터분석 과제테스트 벼락치기로 준비하기 본문

기타

데이터분석 과제테스트 벼락치기로 준비하기

.23 2024. 10. 28. 17:49

데이터 분석 과제 테스트란?

💡 분석 → 전처리 → 모델링 → 성능평가

> 제한시간 내 일련의 과정을 모두 완료한 뒤 완성된 모델을 통해 예측한 값을 제출하는 것.

일반적으로 데이터 분석 과제라면

끝없는 EDA 과정을 겪으며 feature engineering을 거듭하고 거듭하고 .. 거듭해서

적절한 ML/DL 모델을 고르고 고르고 .. 골라서

학습 모델의 parameter tuning까지 완료한 뒤

최상의 결과를 도출하는 것이 맞지만,

한 문제당 한 시간, 많아야 두 시간 주는 시험에서는 시행착오의 과정을 일일히 거치는 것이 불가능하다.

따라서 결과를 제출하는 것이 우선인지라,

빠르게 모델링 단계로 진입하는 것을 목표로 대비를 하면 좋을 것 같다.

일반적인 기업 시험에서 내는 문제는

크게 DataFrame 활용 문제, 예측/회귀 문제 이렇게 두 유형으로 나뉜다.

Pandas 얼마나 잘쓰는지 물어보는 문제는 판다스 함수 얼마나 잘 알고있는지 보는거라 사실 판다스를 많이 다뤄봤어야 빠른 시간 내 푸는게 가능하지만

분류/회귀의 경우 아직 문제가 크게 어려워지지 않은 지금 선에서는 갖다 쓰는 코드 몇개만 외우면 어느정도 커버가 가능한 것 같더라

그래서 정리해보는 필요한 코드 요약글이다.

시험 과정 요약

✔️ 결과를 제출하는 것이 우선이기 때문에 간단한 데이터 전처리 이후 바로 모델링 진행

변수 별 분포 파악
결측치 존재하는 데이터 버리기 or 결측치 채우기
이상치 보정
Scale 보정/정규화
object형 변수 category화 하기
주의할 점: 전처리 진행 시 test dataset에도 반드시 동일하게 적용해줘야됨

✔️ 모델링 및 간단한 성능 평가

cross_validate 통한 최선의 모델 선택
간단한 parameter tuning

✔️ 성능 고도화 위한 EDA 진행

변수 별 관계 파악
데이터 / 데이터 간 관계 시각화
결과에 영향 주는 변수 확인
Feature engineering
...

✔️ 다시 ML 모델링 → 결과 제출

To-do List

1. 필요한 라이브러리 로드

import warnings

warnings.filterwarnings("ignore") # 경고 무시

import seaborn as sns        # 그림그리기(얘가 좀 더 쉬움)
import numpy as np            # 배열 사용(잘 안쓰던데 배열형태 언제쓸줄모르니 일단 그냥 load)
import matplotlib.pyplot as plt # 그림그리기2

# 프로그래머스 시험 기준
# 일반적으로 파일 로드하는 코드는 그냥 주기 때문에 pandas는 굳이 import 안해도 되긴 함
import pandas as pd

2. 데이터 로드

일반적으로 제일 처음에 실행만 해도 되는 형태로 주어지기 때문에 사실 시험볼때 의미는 X

train = read_csv("경로/train_file.csv")
test = read_csv("경로/test_file.csv")

3. 데이터 훑어보기

train.head()         	# 상위 5개 데이터 로드
train.columns.values 	# 데이터 columns array로 반환
# train.columns.to_list() 쓰면 리스트형태로 반환

train.info()         	# 데이터의 column, non-null인 데이터 개수, column의 data type
train.describe()     	# object가 아닌 형태의 데이터 수치값 반환
train.describe(incude="O") # object 형태의 데이터 수치값(count, unique, top, freq)

columns 제외 각각 코드 실행 결과(bike-sharing-demand.csv 예시)

train.head()         	# 상위 5개 데이터 로드

train.info()         	# 데이터의 column, non-null인 데이터 개수, column의 data type

train.describe()     	# object가 아닌 형태의 데이터 수치값 반환

train.describe(incude="O") # object 형태의 데이터 수치값(count, unique, top, freq)

4. 데이터 전처리

결측치 / 이상치 처리

# 결측치 처리 방식
train['col1'] = train['col1'].fillna(0)                      # 1. 특정 값(0)
train['col2'] = train['col2'].fillna(train['col2'].mean())   # 2. 평균값
train['col3'] = train['col3'].fillna(train['col3'].median()) # 3. 중앙값
train['col4'] = train['col4'].fillna(train['col4'].mode()[0])# 4. 최빈값

절대 주의할 점

test 데이터셋에 똑같이 채워주되, 채워주는 값은 train 기준으로 채워줘야한다고 함

for c in numeric_cols:
    median = train[c].median()
    train[c] = train[c].fillna(median)
    test[c] = test[c].fillna(median)

데이터 변환

# 데이터의 형식 변환
pd.to_numeric(column, errors='coerce')    # 숫자로 변환
pd.to_datetime(column, format='%m/%d/%Y') # m/d/YYYY 형식 -> YYYY-d-m 형식

# object형 변수 -> category화
train.obj_col = train.obj_col.astype('category')

# dictionary 만들어서 map 함수 사용하여 변환.. 이거 사용할때 조심할것
# 전에 시험볼때 잘못해서 개고생했던 기억이 있음ㅠㅠ
obj_dict = {'col1':1, 'col2':2, ... }
train.obj_col = train.obj_col.map(obj_dict)

데이터 정규화

from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 주의 !! array 형태로 반환함
scaler = StandardScaler
train_scaled = scaler.fit_transform(train)
df_train_scaled = pd.DataFrame(train_scaled, columns=train.columns)

# test도 똑같이 진행
test['col'] = scaler.transform(test['col'])

* 주의! Scaling 시 훈련 모델에 대해서는 fit을 진행하고, test 데이터에 대해서는 진행하지 않고 바로 transform 진행할것

+ 외에 사용 가능한 방법들

Data Transformation

- Positive skewed

np.log(df['해당 변수'])

0 포함하는 데이터일 경우 np.log1p 또는 1 더해서 오류 방지

- Negative skewed

np.sqrt(df['해당 변수'])

5. Plot 통해 데이터 / 데이터 간 관계 표현 (seaborn)

자주 사용하는 plot 정리

연속형 데이터 분포: distplot

sns.distplot(data.column, bins=range(min, max), ax)

- deprecated된 함수라 뜨는데, kdeplot(선) or histplot(막대그래프) 사용 가능

- displot은 subplots 말고 단독 사용만 가능

+ DataFrame.hist

histogram 같은거 어느 세월에 column 골라서 저거 다 그리고있음?? 할때 이거 써도 괜찮

df.hist(figsize=(12, 10))

변수들의 이상치 분포 확인: boxplot

sns.boxplot(data.column, data, ax)

이산형 데이터 개수 세기: countplot

sns.countplot(data.column, data)

이산형-이산형 관계 표현: barplot

sns.barplot(x, y, data, ax)

이산형-연속형 / 이산형-(범주의 개수가많은)이산형 관계 표현: lineplot, pointplot

sns.pointplot(x, y, data, ax)
sns.lineplot(x, y, data, ax)

연속형-연속형 데이터 관계 표현: scatterplot, regplot

sns.scatterplot(x, y, data, ax)
sns.regplot(x, y, data, ax, line_kws, scatter_kws)

+ df 자체에도 plot 기능이 있음 (ex. df.plot.bar(), df.plot.density(), df.plot.pie() )

급하게는 우선 저렇게만 해도 괜찮, 시간이 되면 여러번 다양하게 그리는 연습 해보기

상관관계 plot - heatmap (꾸미는 코드는 그냥 외워야됨..별수없음..)

corr = train.corr() # 변수별 상관관계 저장

mask = np.triu(np.ones_like(corr, dtype=np.bool))
cmap = sns.diverging_palette(220, 10, as_cmap=True)
fig, ax = plt.subplots(figsize=(20, 15))

sns.heatmap(corr, mask=mask, cmap=cmap, center=0, linewidth=.5, annot=True, fmt='.3f')

6. Cross validation으로 모델 선택

# regression 예시
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.model_selection import cross_validate, KFold
# 분류문제에는 StratifiedKFold도 될듯

rf = RandomForestRegressor()
score = cross_validate(rf, X_train, Y_train, return_train_score=True, n_jobs=-1, cv=KFold())
print(np.mean(score['train_score']), np.mean(score['test_score'])

gb = GradientBoostingRegressor()
score = cross_validate(gb, X_train, Y_train, return_train_score=True, n_jobs=-1, cv=KFold())
print(np.mean(score['train_score']), np.mean(score['test_score'])

모델을 저렇게 두개만 부른 이유는 일반적으로 두개의 성능이 가장 좋아서...

7. 성능 더 좋은 것 선택해서 grid search 진행

from sklearn.model_selection import GridSearchCV
from sklearn import metrics

# 일반적으로 rf가 제일 좋더라..
rf = RandomForestRegressor()
rf_params = { 'max_depth':range(2, 10, 2), 'n_estimators':[10, 100, 200] }
# 잘 모르겠는 parameter들은 help 써서 참고해서 쓰기

grid_rf = GridSearchCV(rf, rf_params, cv=5)
grid_rf.fit(X_train, Y_train)
pred = grid_rf.predict(X_train)

mse = mean_squared_error(Y_train, pred)
mse

metrics 사용 시

Regression - mean_squared_error / mean_absolute_error

Classification - accuracy_score / f1_score

8. Best parameter 확인해서 학습 진행

# best parameter 확인법
grid_rf.best_params_

rf = RandomForestRegressor(max_depth=..., n_estimators=...)
rf.fit(X_train, Y_train)
pred = rf.predict(X_valid)
mse = mean_squared_error(Y_valid, pred)
mse

predict = rf.predict(X_test)

9. 조건 확인해서 제출

idx = test['col']

result = pd.DataFrame({
	"index":idx,	# 문제에서 제시한 정렬/primary key/index 기준 
	"ans":predict	# 예측한 column
})


# df.to_csv로 저장명까지는 코드로 주어줌
# 뒤에 index=False 붙여주는거만 잊지말기
result.to_csv("submission.csv", index=False)

그 외 알아두면 좋은 것들

검색해서 여기까지 오는 사람이 있을진모르겠는데..

추가적으로 공부하면서 도움 많이 됐던 거 알려드림니다

- 공부하면서 도움 됐던 문제들

1️⃣ 결측치 존재하는 데이터 처리: 우주선 생존자 예측

Spaceship Titanic

Predict which passengers are transported to an alternate dimension

www.kaggle.com

2️⃣ 데이터 이상치 처리: 자전거 수요 예측

Bike Sharing Demand

Forecast use of a city bikeshare system

www.kaggle.com

해당 데이터의 경우 시계열 데이터로서의 의미도 있고.. 날짜 데이터 처리하는 방법에 대해 고민할 수 있기 때문에 좋은듯

3️⃣ 데이터 프레임 처리: 채용공고추천

프로그래머스

SW개발자를 위한 평가, 교육, 채용까지 Total Solution을 제공하는 개발자 성장을 위한 베이스캠프

programmers.co.kr

- 와 나는 진짜 도저히 평소에 pandas 안써서 DF 문제 못풀겠다??

데이터 프레임 함수 공부 : 프로그래머스 사전테스트ㅋㅋ 로 주어지는 '미세먼지 농도에 따른 WHO 예보등급 ~~어쩌고' 문제 꼭 풀어보기

→ 문제에서 답까지 도출하는데 요구되는 최소한의 함수는 거의 여기서 연습 가능

- 모델 대체 뭐쓰지??

분류 : RandomForestClassifier, DecisionTreeClassifier

회귀 : RandomForestRegressor, GradientBoostingRegressor

scikit-learn에 주어지는 기본 ML 모델 중에서는

웬만큼 상식적인 데이터셋 범위 내에서는 tree 기반 모델인 DecisionTree / RandomForest가 제일 잘먹힌다

대신 그만큼 과적합도 쉬운 편이니 무조건 잘나왔다고 좋아할건 아니고

train_test_split 써서 validation을 해보던가, parameter search 잘해야됨

- 함수도 잘 모르겠고 파라미터도 잘 기억안날때

보통 python, numpy, pandas 까지는 주피터노트북에서 공식문서 링크 주기때문에 참고하면 되는데, 그 외 라이브러리에서 특정 함수를 모를땐 무조건 help.

help는 신이다.

시험환경에서 먹히는지 이미 여러번 써먹어봄👍

help(RandomForestClassifier)

답을 다 주는 것은 아니지만.. 연습을 여러번 해봤다면 키워드만 보고도 바로 생각나기 때문에 정말 시험 보다 급할 때 사용 가능..

저 정말 저 기능 덕분에 여러번 살았습니다

취준생 모두 화이팅

나 화이팅..

저작자표시 (새창열림)

'기타' 카테고리의 다른 글

[기타] The TensorFlow library was compiled to use AVX instructions, but these aren't available on your machine. - Apple Silicon ARM 문제해결 (0)	2025.04.05
[기타] mac vscode 오류 - includePath를 업데이트하세요 (1)	2024.10.04
[기타] 코딩테스트 일주일 준비하기 + 시험 응시 후 대비전략 (1)	2024.04.13
[기타] git: 원격 저장소 연결 시 필요한 git 명령어 (0)	2023.11.13
백날천날 까먹고 구글링하는 코드 정리 - C++ (0)	2022.08.19

'기타' Related Articles

Comments

𝘚𝘭𝘰𝘸 𝘣𝘶𝘵 𝘴𝘵𝘦𝘢𝘥𝘺

데이터분석 과제테스트 벼락치기로 준비하기 본문

데이터분석 과제테스트 벼락치기로 준비하기

데이터 분석 과제 테스트란?

시험 과정 요약

To-do List

1. 필요한 라이브러리 로드

2. 데이터 로드

3. 데이터 훑어보기

4. 데이터 전처리

결측치 / 이상치 처리

데이터 변환

데이터 정규화

5. Plot 통해 데이터 / 데이터 간 관계 표현 (seaborn)

연속형 데이터 분포: distplot

+ DataFrame.hist

변수들의 이상치 분포 확인: boxplot

이산형 데이터 개수 세기: countplot

이산형-이산형 관계 표현: barplot

이산형-연속형 / 이산형-(범주의 개수가많은)이산형 관계 표현: lineplot, pointplot

연속형-연속형 데이터 관계 표현: scatterplot, regplot

상관관계 plot - heatmap (꾸미는 코드는 그냥 외워야됨..별수없음..)

6. Cross validation으로 모델 선택

7. 성능 더 좋은 것 선택해서 grid search 진행

8. Best parameter 확인해서 학습 진행

9. 조건 확인해서 제출

그 외 알아두면 좋은 것들

'기타' 카테고리의 다른 글

티스토리툴바