빅데이터분석기사/작업형2 9

[작업형2] 중고 자동차 가격 예측하기(회귀)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 중고 자동차 가격을 예측하여 다음과 같은 형식으로 제출하시오. 자동차 가격을 예측해주세요! 예측할 값(y): price 평가: RMSE (Root Mean Squared Error) data: train.csv, test.csv 1. EDA # 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") train.info() 실행 결과 : RangeIndex: 3759 entries, 0 to 3758 Data columns (total 9 columns): # Column Non-Null Count Dtype --- ---..

[작업형2] 자동차 시장 세분화(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 신규 고객이 어떤 분류에 속할지 예측하여 다음과 같은 형식으로 제출하시오. 자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화했습니다. 기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요! 예측할 값(y): "Segmentation" (1,2,3,4) 평가: Macro f1-score data: train.csv, test.csv 문제1-1) 수치형 변수만 사용 (초급자) 1. EDA # 라이브러리 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") print(train.shape, t..

[작업형2] 유방암 예측 모델 만들기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 시험환경 : https://bit.ly/3H64wpG 문제) 분류 모델을 만든 뒤 다음과 같은 형식으로 CSV파일로 생성하시오. (제출한 모델의 성능은 F1평가지표에 따라 채점) 1. 시험환경 세팅 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data2.csv", index=False) from sklearn.model_sel..

[작업형2] 심장마비 확률 높은 사람 구하기(분류 / 튜닝)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 심장마비 확률이 높은 사람을 다음과 같은 형식의 CSV 파일로 생성하시오. 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대 심박수 등의 컬럼이 있음. 평가: ROC-AUC, 정확도(Accuracy), F1 을 구하시오. target : output (1:심장마비 확률 높음, 0:심장마비 확률 낮음) csv파일 생성 : 수험번호.csv (예시 아래 참조) 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") print(train.shape, test.shape) 실행 결과 : (242, 15) (61, 14) → ..

[작업형2] 에어비앤비 가격 예측하기(회귀)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 에어비엔비 가격을 다음과 같은 형식의 CSV 파일로 생성하시오. 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE target : price(가격) csv파일 생성 : 수험번호.csv (예시 아래 참조) 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") → train과 test 2개의 파일로 나누어져있다. 2. EDA train.shape, test.shape 실행 결과 : (39116, 16) (9779, 15) train.head(3) → train 데이터는 16개의 열로 이루어져..

[작업형2] 신용카드 서비스를 떠나는 고객 확률 구하기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 신용카드 서비스를 떠나는 고객을 찾아라. 나이, 급여, 결혼 상태, 신용 카드 한도, 신용 카드 카테고리 등의 컬럼이 있음. 평가: ROC-AUC, 정확도(Accuracy), F1, 정밀도(Precision), 재현율(Recall)을 구하시오. target : Attrition_Flag (1:이탈, 0:유지) csv파일 생성 : 수험번호.csv (예시 아래 참조) 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") → train과 test 2개의 파일로 나누어져있다. 2. EDA train.shape, test...

[작업형2] 보험가입 확률 구하기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 보험가입 확률을 다음과 같은 형식의 CSV 파일로 생성하시오. 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") 2. EDA # 크기 확인 train.shape, test.shape 실행 결과 : ((1490, 10), (497, 9)) # 샘플 확인 train.head() → TravelInsurance 컬럼이 Target으로 사용될 컬럼이다. # 타입 확인 train.info() 실행 결과 : RangeIndex: 1490 entries, 0 to 1489 Data columns (total 10 colum..

[작업형2] 제품 배송 시간에 맞춰 배송되었는지 예측하기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 제품 배송 시간에 맞춰 배송되었는지 예측모델 만들기(정시 도착하지 않을 확률), 다음과 같은 형식의 CSV 파일로 생성하시오. - ID : 고객 ID - Reached.on.Time_Y.N : 정시 도착 여부 (0: 정시 도착, 1: 정시 도착하지 않음) 1. 데이터 불러오기 # 시험환경 세팅 3개 파일 생성 (코드 변경 X) import pandas as pd import numpy as np from sklearn.model_selection import train_test_split def exam_data_load(df, target, id_name="", null_name=""): if id_name == "": df =..

[작업형2] 고객의 성별이 남자일 확률 구하기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 백화점 고객의 1년간 구매 데이터에서 고객의 성별 예측값(남자일 확률)을 다음과 같은 형식의 CSV 파일로 생성하시오. - cust_id : 고객 ID - gender : 성별 (0: 여자, 1: 남자) 1. 데이터 불러오기 import pandas as pd X_train = pd.read_csv("X_train.csv", encoding="euc-kr") y_train = pd.read_csv("y_train.csv") X_test = pd.read_csv("X_test.csv", encoding="euc-kr") → 시험환경에서는 encoding="euc-kr"가 없어도 된다. 2. EDA # 데이터 크기 X_train.sh..