전체 글 39

[작업형3] 대응(쌍체)표본 t-test (paired t-test)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // [배경] 동일한 대상에게 "첫번째 관측 -> (개입) -> 두번째 관측" 예1) 어떤 사람의 수학 점수가 "1타 강사" 수업을 들은 전후 비교 예2) 오른쪽과 왼쪽 눈 크기 비교 문제1) 귀무가설과 대립가설1 귀무가설(H0): μ = 0 대립가설(H1): μ < 0 μ = (수업을 듣기 전 - 수업을 들은 후) 점수 평균 유의수준: 0.05 import pandas as pd from scipy import stats # 정규분포를 따른 다는 가정 df = pd.DataFrame({ "pre":[80,69,78,88,100,85,83,81,80,91,95,59,59,49,69,39,49,59,90,90,91,93,79,78,68,58,78,88,88], ..

[작업형3] 독립표본 t-test (two-sample/independent t-test)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // [배경] 빅데이터 분석기사 실기시험을 공부하면서 강사가(또는 도서에서) 제공한 코드를 복사-붙여넣기 하며 학습하는 사람들(A 집단)과 직접 코딩하면서 에러를 마주하는 사람들(B 집단)의 평균 점수는 다르다고 할 수 있을까요? 문제1) 귀무가설과 대립가설1 귀무가설(H0): μ1 = μ2, A집단과 B집단 시험 평균 점수는 같다. 대립가설(H1): μ1 μ2, A집단이 B집단 보다 평균 점수가 크다. stats.ttest_ind(df['Agroup'], df['Bgroup'], alternative="greater", equal_var=False) 실행 결과 : Ttest_indResult(statistic=-1.8619610028956959, pvalue..

[작업형3] 단일표본 t-test (one-sample t-test)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // [배경] 하루에 커피 몇 잔 마시는지 가설검정 문제1) 귀무가설과 대립가설1 귀무가설(H0): 하루 평균 두 잔 (μ = 2) 대립가설(H1): 하루 평균 두 잔 보다 더 많이 마신다 (μ > 2) 유의수준: 0.05 import pandas as pd from scipy import stats df = pd.DataFrame({ "하루 커피 몇 잔":[3,2,1,3,2,3,4,1,1,1,2,3,4,4,3,3,3,2,2,2] }) df.head(3) → 임의적으로 커피 몇 잔 마셨는지 데이터프레임을 만들어준다. result = stats.ttest_1samp(df["하루 커피 몇 잔"], 2, alternative="greater") result 실행 결..

[작업형3] 가설검정 과정

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 1. 모집단과 표본 - 모집단 : 집단 전체 - 표본 : 모집단을 대표하는 집합 2. 귀무가설과 대립가설 - 가설검정 : 모집단에 대한 가설이 적합한지 추출한 표본데이터로부터 판단하는 통계적 추론 (ex. 대한민국 남성 평균 키가 175cm가 맞는지 전부 조사하기 어렵기 때문에 표본데이터로 판단) - 귀무가설(H0) : 기존에 알려진 가설 (평균 키가 175cm 이다.) - 대립가설(H1) : 새로 밝히려는 가설 (평균 키가 175cm가 아니다.) - 귀무가설 채택 -> 귀무가설을 기각하지 못한다. - 대립가설 채택 -> 귀무가설을 기각한다. (통계적으로 유의하다.) 3. 가설검정의 오류 - 1종 오류 : 귀무가설(H0)이 참인데도 기각하는 경우 - 2종..

[작업형3] 표본평균 / 검정통계량 / p-value / 채택.기각 구하기

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 시험환경 : https://dataq.goorm.io/exam/116674/체험하기/quiz/3 문제) 주어진 데이터(data/blood_pressure.csv)에는고혈압 환자 120명의 치료 전후의 혈압이 저장되어 있다. 해당 치료가 효과가 있는지 (즉, 치료 후의 혈압이 감소했는지) 쌍체표본 t-검정(paired t-test)를 통해 답하고자 한다. 가설은 아래와 같다. - bp_before : 치료 전 혈압 - bp_after : 치료 후 혈압 - H0 : 귀무가설 (치료 효과가 없을 것이다.) - H1 : 대립가설 (치료 효과가 있을 것이다.) 문제1) μd(치료 후 혈압 - 치료 전 혈압)의 표본평균을 입력하시오. (반올림하여 소수 둘째자리까지 ..

[작업형2] 유방암 예측 모델 만들기(분류)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 시험환경 : https://bit.ly/3H64wpG 문제) 분류 모델을 만든 뒤 다음과 같은 형식으로 CSV파일로 생성하시오. (제출한 모델의 성능은 F1평가지표에 따라 채점) 1. 시험환경 세팅 # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_breast_cancer() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data2.csv", index=False) from sklearn.model_sel..

[작업형1] 평균 / 행(row)별 합 / 고유값 수 구하기

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 시험환경 : https://bit.ly/3H64wpG 문제1) 앞에서 부터 50%의 데이터와 'target'컬럼이 0 값을 가진 데이터만 활용해 'proline'컬럼의 평균을 구하시오. (소수점 절사(버림), 정수형 출력) # 시험환경 세팅 import pandas as pd from sklearn import datasets dataset = datasets.load_wine() df = pd.DataFrame(dataset['data'], columns=dataset['feature_names']) df['target'] = dataset['target'] df.to_csv("data1-1.csv", index=False) # 데이터 파일 읽기 예제 ..

[Python] 캐글(kaggle) 필사 전략

// 퇴근후딴짓 님의 강의를 참고하였습니다. // 1. 캐글 회원가입 및 로그인하기 https://www.kaggle.com/ 2. Competitions(경연 대회) 클릭 3. 입문자가 가장 많이 해보는 Titanic Dataset 클릭 4. Code 클릭 5. Titanic Tutorial 클릭 → 우측에 보이는 숫자가 UP 버튼으로 가장 높은 숫자의 코드를 봐도 되나 입문자가 따라하기에는 어렵다. → 이때 검색창에 tutorial / starter / simple 단어로 검색하면 입문자용 코드를 찾을 수 있다. 6. 코드 필사하기 → 인터넷 창을 한 개 더 띄워 똑같이 Titanic Dataset 클릭하여 들어온 후 New Notebook 버튼을 클릭한다. → Notebook 버튼 클릭하면 note..

Python 2023.06.20

[작업형2] 심장마비 확률 높은 사람 구하기(분류 / 튜닝)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 심장마비 확률이 높은 사람을 다음과 같은 형식의 CSV 파일로 생성하시오. 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대 심박수 등의 컬럼이 있음. 평가: ROC-AUC, 정확도(Accuracy), F1 을 구하시오. target : output (1:심장마비 확률 높음, 0:심장마비 확률 낮음) csv파일 생성 : 수험번호.csv (예시 아래 참조) 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") print(train.shape, test.shape) 실행 결과 : (242, 15) (61, 14) → ..

[작업형2] 에어비앤비 가격 예측하기(회귀)

// 퇴근후딴짓 님의 강의를 참고하였습니다. // Dataset : 문제) 에어비엔비 가격을 다음과 같은 형식의 CSV 파일로 생성하시오. 평가: R-Squared, MAE, MSE, RMSE, RMSLE, MAPE target : price(가격) csv파일 생성 : 수험번호.csv (예시 아래 참조) 1. 데이터 불러오기 import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") → train과 test 2개의 파일로 나누어져있다. 2. EDA train.shape, test.shape 실행 결과 : (39116, 16) (9779, 15) train.head(3) → train 데이터는 16개의 열로 이루어져..