BigData

[Python] 이미지 데이터셋 수집 방법 3가지

seo0seok — Mon, 10 Jul 2023 15:54:27 +0900

1. roboflow

https://public.roboflow.com/

2. kaggle

https://www.kaggle.com/datasets

3. 구글 이미지 크롤링

import ssl
import os
import sys
import time
import urllib.request
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.by import By

ssl._create_default_https_context = ssl._create_unverified_context

searchKey = input('Search Keyword : ')

# 저장할 폴더 경로 설정
path = f"./imgs/{searchKey}/images"

try:
    # 중복되는 폴더명이 없다면 생성
    if not os.path.exists(path):
        os.makedirs(path)
    # 중복된다면 문구 출력 후 프로그램 종료
    else:
        print('이전에 같은 [검색어, 이미지 수]로 다운로드한 폴더가 존재합니다.')
        sys.exit(0)
except OSError:
    print('OS error')
    sys.exit(0)

options = webdriver.ChromeOptions()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)
driver.get("https://www.google.co.kr/imghp?hl=ko&tab=wi&authuser=0&ogbl")
elem = driver.find_element("name", "q")

elem.send_keys(searchKey)
elem.send_keys(Keys.RETURN)

SCROLL_PAUSE_TIME = 1
# Get scroll height
last_height = driver.execute_script("return document.body.scrollHeight")
while True:
    # Scroll down to bottom
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
    # Wait to load page
    time.sleep(SCROLL_PAUSE_TIME)
    # Calculate new scroll height and compare with last scroll height
    new_height = driver.execute_script("return document.body.scrollHeight")
    selector = ".mye4qd"
    if new_height == last_height:
        try:
            driver.find_element(By.CSS_SELECTOR, selector).send_keys(Keys.ENTER)
        except:
            break
    last_height = new_height

images = driver.find_elements(By.CSS_SELECTOR, ".rg_i.Q4LuWd")
print("Total images found:", len(images))

count = 0
for image in images:
    try:
        if count >= 500:
            break
        image.click()
        time.sleep(1)
        xpath = r'//*[@id="Sva75c"]/div[2]/div[2]/div[2]/div[2]/c-wiz/div/div/div/div[3]/div[1]/a/img[1]'
        imgUrl = driver.find_element(By.XPATH, xpath).get_attribute("src")
        opener = urllib.request.build_opener()
        opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1941.0 Safari/537.36')]
        urllib.request.install_opener(opener)

        urllib.request.urlretrieve(imgUrl, f'{path}/{searchKey}{str(count+1)}.jpg')
        count += 1
        print("Downloaded image", count)
    except Exception as e:
        print('Error:', e)

driver.quit()

- 구글 이미지 크롤링 코드이다.

- 코드 실행 후 크롤링할 검색명을 console창에 입력하면 구글 이미지 크롤링이 시작된다.

- 자동으로 500개까지 크롤링 되게 코딩되어있지만 구글 보안 정책 때문에

최대 400개 까지만 가능하다.

- 크롤링 도중 에러가 발생하는 이미지들도 많아 400개를 크롤링하여도 다운로드

되는 이미지는 그것보다 적다.

- 필자는 파이참으로 실행하여 PycharmProjects 폴더에 이미지 폴더가 생성된다.

[Python] labelImg를 활용한 이미지 라벨링

seo0seok — Mon, 10 Jul 2023 15:40:02 +0900

1. labelImg란

- labelImg는 이미지 주석 도구로, 개발자들이 객체 감지 모델을 학습하기 위해 이미지에

주석을 달 수 있도록 도와준느 프로그램이다. 이 프로그램은 영상 및 이미지 처리 작업에

많이 사용되며, 객체 감지 모델을 구축하는 데 필수적인 작업 중 하나이다.

2. labelImg 설치

https://github.com/tzutalin/labelImg

- 먼저 github에 들어가 Releases -> Binary v1.8.1을 클릭한다.

- windows_v 1.8.1.zip 파일을 다운로드 받는다.

- zip 파일을 풀면 data, labelImg 두 파일이 생성된다.

- data 안에는 txt 파일이 들어있는데 이 곳은 라벨링할 클래스명을 적어주면된다.

(ex. monkey)

- labelImg를 클릭하여 실행한다.

3. labelImg 사용법

- 프로그램 실행 시 첫 화면이다.

- 빨간 네모칸 안에 형식을 바꿀수 있는데 우리는 이미지를 라벨링해 YOLO에서 사용할

것이기 때문에 클릭하여 YOLO로 바꾸어 준다.

- PascalVOC로 라벨링 시 XML 파일로 생성 / YOLO로 라벨링시 txt 파일이 생성된다.

- 실수로 안바꾸면 재작업을 해야하니 꼭 바꿔주자.

- 형식이 YOLO로 바뀐 모습이다.

- Open Dir 버튼을 클릭해 이미지 파일이 저장되어 있는 폴더를 지정해준다.

- Change Save Dir 버튼을 클릭해 라벨링 된 txt파일 저장할 폴더를 지정해준다.

- 경로 설정을 완료하면 이미지 폴더에 있는 이미지가 보인다.

<단축키>

- 라벨링하면서 쓰는 단축키 4가지이다. 이 4가지만 알고 있어도 충분하다.

w 클릭 후 마우스 드래그 : 라벨링 범위 지정

a 버튼 : 이전 이미지로 이동

d 버튼 : 다음 이미지로 이동

ctrl + s : 저장하기

- 라벨링 범위를 지정한 모습이다.

- 여기서 Save 버튼을 클릭하거나, ctrl + s를 클릭해 저장해준다.

- 간혹 저장 시 에러가 나는 이미지들이 있는데 그런 이미지들은 그냥 포기하고 넘어가준다.

- 라벨링이 완료된 후 생성된 txt 파일이다.

- 맨 앞 숫자 0은 각 클래스를 숫자로 지정해준다.

- 그 뒤로 나오는 숫자 4개는 객체의 경계 상자 정보이다.

- 일반적으로 (x_min, y_min, x_max, y_max) 형식으로 표현되며, 이는 경계 상자가 왼쪽 위

모서리의 (x_min, y_min) 좌표와 오른쪽 아래 모서리의 (x_max, y_max) 좌표로 정의된다.

지금까지 labelImg 프로그램으로 이미지 라벨링 하는법을 알아보았다.

이렇게 작업한 이미지와 라벨링한 txt을 YOLOv7을 활용해 이미지 분석이 가능하다.

[Python] YOLOv7을 활용한 이미지 분석

seo0seok — Mon, 10 Jul 2023 13:34:43 +0900

1. YOLOv7이란

- YOLOv7은 객체 탐지 알고리즘 중 하나인 You Only Look Once (YOLO)의 버전 7이다.

- 실시간으로 탐지가 가능하고 속도가 빠르다.

- 다중 객체 탐지가 가능하다. 한 이미지에서 여러 객체를 동시에 탐지할 수 있다.

- 객체의 크기와 종횡비에 강인해 작은 객체나 다양한 크기의 객체도 정확히 탐지가 가능하다.

2. YOLOv7 설치

https://github.com/WongKinYiu/yolov7

- 먼저 github에 들어가 zip파일을 다운로드 받는다.

3. Jupyter Notebook

import os
os.getcwd()

실행 결과 :
'/storage01/shared_data/users/youngseok/YOLOv7'

- 주피터 노트북에 다운로드 받은 YOLOv7을 업로드 한 후 os.getcwd()를 사용해

현재 경로를 찾는다.

import shutil

filename = './YOLOv7.zip' # 압축 해제할 파일
extract_dir = './YOLOv7/' # 압축 해제 시 폴더 이름
archive_format = 'zip'

shutil.unpack_archive(filename, extract_dir, archive_format)

- 현재 경로를 찾은 후 위 코드에서 압축 해제할 zip파일과 압축 해제 시 폴더이름, format을

설정해주고 실행하면 YOLOv7 zip파일 해제가 된다.

!pip install -r requirements.txt

- 위 코드를 실행해 필요한 라이브러리들을 한번에 설치한다.

import wget
wget.download('https://github.com/WongKinYiu/yolov7/releases/download/v0.1/yolov7.pt')

- 위 코드는 YOLOv7에서 필요한 가중치들을 다운로드 받는 코드이다.

!python train.py --device 6,7 --batch-size 16 --epochs 40 --img 640 
--data ../data_monkey.yaml --weights yolov7.pt

- YOLOv7에 있는 train.py 코드를 실행 시켜준다.

- device : 사용할 GPU 번호 (0부터 시작)

- batch-size : 한 번의 모델 업데이트에 사용되는 데이터의 수

-> 높을수록 메모리 사용량이 늘고 연산 시간이 길어진다.

- epochs : 전체 학습 데이터를 몇 번 반복할지

-> 높을수록 학습 결과가 좋아지지만 과적합 위험성 있음

- img : 이미지 크기

-> 클수록 학습 결과가 좋아질 수 있지만 연산 시간이 길어진다.

- data : yaml 파일 경로

- weights : 가중치

-> 다운로드 받은 yolov7.pt를 사용해준다.

train: ../object/monkey/monkey/train/images
val: ../object/monkey/monkey/valid/images
test: ../object/monkey/monkey/test/images

nc: 1
names: ['monkey']

- yaml 파일이란 데이터의 구조와 계층을 표현하기 위해 들여쓰기를 사용하며,

주로 설정 파일이나 데이터 전송 형식으로 사용된다.

- train, val, test 폴더의 경로를 지정해준다.

- nc : class 개수

- names : class 명

- 이미지에서 원숭이 한 객체만 탐지하기 위해 개수는 1, class 명은 monkey로 설정해주었다.

- train, val, test 폴더에는 images, labels 두 폴더로 이루어져있다.

-> images 폴더에는 원숭이 이미지, labels 폴더에는 원숭이 이미지를 라벨링하고

난 후 좌표값 txt파일이 들어있다.

0 0.500000 0.485455 0.387978 0.890909

- 라벨링 된 txt 파일 예시이다.

- 맨 앞 숫자 0은 각 클래스를 숫자로 지정해준다.

- 그 뒤로 나오는 숫자 4개는 객체의 경계 상자 정보이다.

- 일반적으로 (x_min, y_min, x_max, y_max) 형식으로 표현되며, 이는 경계 상자가 왼쪽 위

모서리의 (x_min, y_min) 좌표와 오른쪽 아래 모서리의 (x_max, y_max) 좌표로 정의된다.

- train.py 코드로 학습을 시키면 YOLOv7 -> runs -> train 폴더 순으로 들어가보면

exp1 ~ exp** 폴더가 생성된다.

- exp 폴더 안에 weights(가중치) / result.png / confusion_matrix.png / R_curve /

P_curve / PR_curve / F1_curve 등 모델 성능 평가 지표들이 있다.

- weights 폴더 안에 best.pt는 학습 중 가장 좋은 결과가 나온 가중치 정보가 저장되어 있다.

이는 뒤에 detect.py 코드 실행 시 사용된다.

!python detect.py --device 6,7 --weights runs/train/exp33/weights/best.pt 
--conf 0.2 --img-size 640 --source ../object/monkey/monkey/test/images

- train.py 코드로 학습이 끝난 후 detect.py 코드를 실행 시켜준다.

- device : 사용할 GPU 번호 (0부터 시작)

- weights : 가중치 경로 / exp는 학습할 때마다 생기므로 번호를 맞춰 써줘야한다.

-> 가장 좋은 결과가 나왔던 가중치 best.pt를 사용해준다.

- conf : 객체 탐지에 대한 신뢰도 임계값으로 0.2보다 높은 객체만 탐지 결과로 출력된다.

- img : 이미지의크기

- source : test할 이미지 폴더 경로

- P-curve 그래프를 시각화 한 것으로 0.904가 나왔다.

- 이는 모델이 양성으로 예측한 대상 중 실제로 90.4%가 양성이라는 의미이다.

- R-curve 그래프를 시각화 한 것으로 0.96 나왔다.

- 이는 실제 양성인 대상을 예측한 확률이 96%라는 의미로 모델이 양성 샘플을

거의 다 찾았다고 볼 수 있다.

- PR-curve 그래프를 시각화 한 것으로 0.8590 나왔다.

- 정밀도와 재현율 사이의 조화 평균이 F1 Score를 나타내며, 모델의 전반적인 성능을 의미한다.

- 원숭이 이미지 학습 후 테스트 이미지를 넣었을때 원숭이 객체들을 잡아주는 것을 알 수 있다.

- 지금은 하나의 객체로 하였지만 한 이미지에서 여러 객체 탐지도 동시에 가능하다.

- 성능이 좋게 나온 결과로 작성하였지만 직접 해보면 성능이 잘 나오지 않는다.

- 이미지 분석을 하면서 성능을 높이기 위해 해본 방법들은 이미지 데이터 개수 추가,

고품질 이미지 사용, 일관성 있는 라벨링, epochs 늘리기 등이 있다.

- 이 중 고품질 이미지 사용과 많은 이미지 데이터 사용이 가장 효과가 좋았다.

[작업형2] 중고 자동차 가격 예측하기(회귀)

seo0seok — Sat, 24 Jun 2023 03:49:11 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

Dataset :

문제) 중고 자동차 가격을 예측하여 다음과 같은 형식으로 제출하시오.

자동차 가격을 예측해주세요!

예측할 값(y): price
평가: RMSE (Root Mean Squared Error)
data: train.csv, test.csv

1. EDA

# 데이터 불러오기
import pandas as pd

train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

train.info()

실행 결과 : 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3759 entries, 0 to 3758
Data columns (total 9 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   model         3759 non-null   object 
 1   year          3759 non-null   int64  
 2   price         3759 non-null   int64  
 3   transmission  3759 non-null   object 
 4   mileage       3759 non-null   int64  
 5   fuelType      3759 non-null   object 
 6   tax           3759 non-null   int64  
 7   mpg           3759 non-null   float64
 8   engineSize    3759 non-null   float64
dtypes: float64(2), int64(4), object(3)

→ 6개의 수치형 변수, 3개의 명목형 변수로 이루어져있다.

train.isnull().sum()

실행 결과 : 
model           0
year            0
price           0
transmission    0
mileage         0
fuelType        0
tax             0
mpg             0
engineSize      0
dtype: int64

test.isnull().sum()

실행 결과 : 
model           0
year            0
transmission    0
mileage         0
fuelType        0
tax             0
mpg             0
engineSize      0
dtype: int64

→ train, test 데이터 모두 결측치는 없다.

y_train = train.pop("price")

→ 가격 예측에 사용될 'price' 컬럼은 y_train 변수에 따로 담아두고 train 데이터에서 삭제한다.

2. 수치형 활용

cols = ['year', 'mileage', 'tax', 'mpg', 'engineSize']
train = train[cols]
test = test[cols]

→ train, test 데이터에서 수치형 변수들만 선택한다.

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, y_train, test_size=0.2, random_state=2022)
X_tr.shape, X_val.shape, y_tr.shape, y_val.shape

from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)

→ 랜덤포레스트 회귀 모형으로 훈련 및 예측을 실시한다.

from sklearn.metrics import mean_squared_error
def rmse(y_true, y_pred):
    return mean_squared_error(y_true, y_pred)**0.5

→ 사이킷런에서 rmse는 제공하고 있지 않아 함수로 rmse 계산 방식을 만들어준다.

rmse(y_val, pred)

실행 결과 :
1565.0567336921324

→ 검증 데이터로 평가 시 1565가 나온다.

3. 수치형 + 범주형 활용

train = pd.get_dummies(train)
test = pd.get_dummies(test)

→ train, test 데이터를 get_dummies 함수를 사용해 원핫 인코딩을 진행한다.

from sklearn.model_selection import train_test_split
X_tr, X_val, y_tr, y_val = train_test_split(train, y_train, test_size=0.2, random_state=2022)
X_tr.shape, X_val.shape, y_tr.shape, y_val.shape

from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor()
rf.fit(X_tr, y_tr)
pred = rf.predict(X_val)
rmse(y_val, pred)

→ 원핫인코딩 진행 후 평가 진행시 rmse는 1305가 나온다.

→ rmse는 오차에 기반하기 때문에 숫자가 낮을수록 좋다. 즉, 원핫 인코딩 진행 후 더 좋은 성능이 나온 것이다.

4. Test 예측

pred = rf.predict(test)
result = pd.DataFrame({
    'pred':pred
})
result.to_csv("result.csv", index=False)

pd.read_csv('result.csv')

→ 문제에서 제시한 형식대로 'pred' 컬럼에 pred값을 넣어 데이터프레임으로 만든 후 제출

[작업형2] 자동차 시장 세분화(분류)

seo0seok — Sat, 24 Jun 2023 03:17:11 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

Dataset :

문제) 신규 고객이 어떤 분류에 속할지 예측하여 다음과 같은 형식으로 제출하시오.

자동차 회사는 새로운 전략을 수립하기 위해 4개의 시장으로 세분화했습니다.
기존 고객 분류 자료를 바탕으로 신규 고객이 어떤 분류에 속할지 예측해주세요!

예측할 값(y): "Segmentation" (1,2,3,4)
평가: Macro f1-score
data: train.csv, test.csv

문제1-1) 수치형 변수만 사용 (초급자)

1. EDA

# 라이브러리 불러오기
import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

print(train.shape, test.shape)
train.head()

실행 결과 : 
(6665, 11) (2154, 10)

→ 11개의 컬럼으로 이루어져있다. 'Segmentation' 컬럼은 Target 컬럼이다.

train.info()
train.nunique()

실행 결과 :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6665 entries, 0 to 6664
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               6665 non-null   int64  
 1   Gender           6665 non-null   object 
 2   Ever_Married     6665 non-null   object 
 3   Age              6665 non-null   int64  
 4   Graduated        6665 non-null   object 
 5   Profession       6665 non-null   object 
 6   Work_Experience  6665 non-null   float64
 7   Spending_Score   6665 non-null   object 
 8   Family_Size      6665 non-null   float64
 9   Var_1            6665 non-null   object 
 10  Segmentation     6665 non-null   int64  
dtypes: float64(2), int64(3), object(6)

ID                 6665
Gender                2
Ever_Married          2
Age                  67
Graduated             2
Profession            9
Work_Experience      15
Spending_Score        3
Family_Size           9
Var_1                 7
Segmentation          4
dtype: int64

→ 수치형 컬럼은 5개가 있다.

train.isnull().sum()

실행 결과 :
ID                 0
Gender             0
Ever_Married       0
Age                0
Graduated          0
Profession         0
Work_Experience    0
Spending_Score     0
Family_Size        0
Var_1              0
Segmentation       0
dtype: int64

test.isnull().sum()

실행 결과 : 
ID                 0
Gender             0
Ever_Married       0
Age                0
Graduated          0
Profession         0
Work_Experience    0
Spending_Score     0
Family_Size        0
Var_1              0
dtype: int64

→ train, test 데이터 모두 결측치는 없다.

2. 전처리

# target(y, label) 값 복사
target = train.pop('Segmentation')
target

실행 결과 :
0       4
1       2
2       2
3       3
4       3
       ..
6660    2
6661    4
6662    4
6663    2
6664    2
Name: Segmentation, Length: 6665, dtype: int64

→ Target으로 사용할 'Segmentation' 컬럼은 train 데이터에서 pop() 함수를 사용해 따로 뽑아두고 데이터에서는 삭제한다.

# test데이터 ID 복사
test_ID = test.pop('ID')

→ 제출용 데이터프레임에 사용할 'ID' 컬럼을 'test_ID' 변수에 담아 두고 데이터에서는 삭제한다.

# 수치형 컬럼(train)
# ['ID', 'Age', 'Work_Experience', 'Family_Size', 'Segmentation']
num_cols = ['Age', 'Work_Experience', 'Family_Size']
train = train[num_cols]

→ 수치형 컬럼 5개 중 'ID' 컬럼은 사용하지 않아 미포함시키고, 'Segmentation' 컬럼은 Target으로 미포함시킨다.

3. model 학습 및 예측

# 모델 선택 및 학습
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(train, target)
pred = rf.predict(test)
pred

실행 결과 : 
array([2, 3, 3, ..., 4, 3, 1])

→ 랜덤포레스트 모델로 train 데이터와 target을 학습 시키고 test 데이터를 예측하면 1~4로 분류된다.

4. csv파일 제출

pd.DataFrame({'ID': test_ID, 'Segmentation': pred}).to_csv('수험번호.csv', index=False)

→ 문제에서 제시한 형식대로 'ID'와 'Segmentation' 컬럼에 test_ID와 pred값을 넣어 데이터프레임으로 만든 후 제출

문제1-2) 범주형(카테고리) 활용 (중급자)

1. EDA

# 라이브러리 불러오기
import pandas as pd
train = pd.read_csv("train.csv")
test = pd.read_csv("test.csv")

train.info()

실행 결과 : 
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6665 entries, 0 to 6664
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   ID               6665 non-null   int64  
 1   Gender           6665 non-null   object 
 2   Ever_Married     6665 non-null   object 
 3   Age              6665 non-null   int64  
 4   Graduated        6665 non-null   object 
 5   Profession       6665 non-null   object 
 6   Work_Experience  6665 non-null   float64
 7   Spending_Score   6665 non-null   object 
 8   Family_Size      6665 non-null   float64
 9   Var_1            6665 non-null   object 
 10  Segmentation     6665 non-null   int64  
dtypes: float64(2), int64(3), object(6)

→ 6개의 object형 컬럼이 있다.

2. 전처리

# 원핫 인코딩
train = pd.get_dummies(train)
test = pd.get_dummies(test)

→ train, test 데이터를 get_dummies() 함수를 사용해 원핫 인코딩을 진행한다.

# target(y, label) 값 복사
target = train.pop('Segmentation')
target

→ Target으로 사용할 'Segmentation' 컬럼은 train 데이터에서 pop() 함수를 사용해 따로 뽑아두고 데이터에서는 삭제한다.

train = train.drop("ID", axis=1)
test_ID = test.pop('ID')

→ train 데이터에서 사용하지 않는 'ID' 컬럼을 삭제한다.

→ 제출용 데이터프레임에 사용할 'ID' 컬럼을 'test_ID' 변수에 담아 두고 데이터에서는 삭제한다.

3. model 학습 및 예측

# 모델 선택 및 학습
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(random_state=0)
rf.fit(train, target)
pred = rf.predict(test)
pred

실행 결과 :
array([1, 3, 3, ..., 2, 3, 4])

→ 랜덤포레스트 모델로 train 데이터와 target을 학습 시키고 test 데이터를 예측하면 1~4로 분류된다.

4. csv파일 제출

pd.DataFrame({'ID': test_ID, 'Segmentation': pred}).to_csv('수험번호.csv', index=False)

→ 문제에서 제시한 형식대로 'ID'와 'Segmentation' 컬럼에 test_ID와 pred값을 넣어 데이터프레임으로 만든 후 제출

[작업형1] 조건 / 평균 / bmi / 절대값 / 내림차순 구하기

seo0seok — Sat, 24 Jun 2023 01:25:21 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

Dataset :

문제1) 종량제 봉투 종류가 '규격봉투'이고, 종량제 봉투 용도가 '음식물쓰레기'인 2L가격 평균을 출력하시오.

(단, 가격0 제외, 반올림 후 정수 출력)

import pandas as pd
df = pd.read_csv("5-1price.csv")
df

cond1 = df['2ℓ가격'] != 0
cond2 = df['종량제봉투종류'] == "규격봉투"
cond3 = df['종량제봉투용도'] == "음식물쓰레기"
df = df[cond1 & cond2 & cond3]

print(round(df['2ℓ가격'].mean()))

실행 결과 : 
118

→ '2L가격'이 '0원'이 아닌 조건1 / '종량제봉투종류'가 '규격봉투'인 조건2 / '종량제봉투용도'가 '음식물쓰레기인 조건3

세 가지 조건을 만든다.

→ 세 가지 조건을 모두 만족하는 '2L가격' 컬럼의 평균을 mean() 함수로 구하고 round() 함수로 반올림하여 출력한다.

문제2) bmi를 계산하고, 수치가 정상인 사람 수와 위험체중인 사람 수의 차이를 절대값으로 구하시오. (정수로 출력)

- bmi(체질량지수): 몸무게(kg) / 키(m)의 제곱 단위 -

Height: cm
Weight: kg

저체중: BMI 18.5미만
정상체중: BMI 18.5이상 ~ 23미만
과체중 또는 위험체중: BMI 23 이상 ~ 25미만
비만체중: 25이상

import pandas as pd
df = pd.read_csv("5-2bmi.csv")
df

df['bmi'] = df['Weight'] / (df['Height']/100)**2
cond1 = (df['bmi'] >= 18.5) & (df['bmi'] < 23)
cond2 = (df['bmi'] >= 23) & (df['bmi'] < 25)
print(abs(len(df[cond1]) - len(df[cond2])))

실행 결과 :
144

→ Weight와 Height를 이용해 bmi를 구한다. (키는 cm로 되어있어 100으로 나눠 m로 만들어 줘야한다.)

→ bmi가 정상인 조건1 / bmi가 과체중인 조건2를 만든다.

→ 정상인 사람 수와 과체중인 사람의 수를 len() 함수를 사용해 구하고 뺀 후 abs() 함수를 사용해 절대값을 씌워 출력한다.

문제3) 순전입학생(순전입 학생 = 전입 학생 - 전출 학생)이 가장 많은 학교의 전체학생수를 정수로 출력하시오.

import pandas as pd
df = pd.read_csv("5-3student.csv")
df

df['순전입'] = df['전입학생수(계)'] - df['전출학생수(계)']
df = df.sort_values('순전입', ascending=False)
print(int(df.iloc[0,-2]))

실행 결과 :
230

→ '전입학생수'와 '전출학생수'를 이용해 '순전입'을 구한다.

→ '순전입' 컬럼을 sort_values(ascending=False) 함수를 사용해 내림차순으로 정렬한다.

→ iloc() 함수를 통해 첫 번째 행의 '전체학생수' 컬럼을 선택한 후 int를 씌워 출력하면 230명이 나온다.

[작업형1] 사분위수 / 절대값 / 조건 / datetime 변환 구하기

seo0seok — Sat, 24 Jun 2023 00:53:57 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

Dataset :

문제1) age 컬럼의 3사분위수와 1사분위수의 차를 절대값으로 구하고, 소수점 버려서, 정수로 출력하시오.

import pandas as pd
df = pd.read_csv("basic1.csv")
df

result = abs(df['age'].quantile(0.25) - df['age'].quantile(0.75))
print(int(result))

실행 결과 : 
50

→ quantile() 함수를 사용해 3분위수와 1분위수를 구한 후 abs() 함수를 사용해 절대값을 씌워준다.

→ 정수로 출력하기 위해 int() 함수를 사용해 출력하면 50이 나온다.

문제2) (loves반응+wows반응)/(reactions반응) 비율이 0.4보다 크고 0.5보다 작으면서, status_type=='video'인 데이터의 갯수를 구하시오.

import pandas as pd
df = pd.read_csv("fb.csv")
df

cond1 = (df['loves'] + df['wows'])/ df['reactions'] > 0.4
cond2 = (df['loves'] + df['wows'])/ df['reactions'] < 0.5
cond3 = df['type'] == 'video'

print(len(df[cond1 & cond2 & cond3]))

실행 결과 : 
90

→ 비율이 0.4보다 큰 조건1 / 비율이 0.5보다 작은 조건2 / 'type' 컬럼이 'video'인 조건3 세 가지를 만든다.

→ 조건 세 가지를 모두 만족하는 개수를 len()함수를 사용하여 출력하면 90개이다.

문제3) date_added가 2018년 1월 이면서 country가 United Kingdom 단독 제작인 데이터의 갯수를 구하시오.

import pandas as pd
df = pd.read_csv("nf.csv")
df

# 풀이1
cond1 = df['country'] == "United Kingdom"

df['date_added'] = pd.to_datetime(df['date_added'])
df['year'] = df['date_added'].dt.year
df['month'] = df['date_added'].dt.month


cond2 = df['year'] == 2018
cond3 = df['month'] == 1

print(len(df[cond1 & cond2 & cond3]))

실행 결과 : 
6

→ 'object'형인 'country' 컬럼을 pd.to_datetime() 함수를 사용해 변환해준다.

→ dt.year / dt.month 함수를 사용해 년 / 월 컬럼을 만들어준다.

→ 'country' 컬럼이 'United Kingdom"인 조건1을 만든다.

→ 년도가 2018년인 조건2, 월이 1월인 조건3을 만든다.

→ 조건 3가지를 모두 만족하는 개수를 len함수를 사용하여 출력하면 6개이다.

# 풀이2
cond1 = df['country'] == "United Kingdom"

df['date_added'] = pd.to_datetime(df['date_added'])

cond2 = df['date_added'] >= '2018-1-1'
cond3 = df['date_added'] <= '2018-1-31'

print(len(df[cond1 & cond2 & cond3]))

실행 결과 : 
6

→ 'object'형인 'country' 컬럼을 pd.to_datetime() 함수를 사용해 변환해준다.

→ 조건을 부등호를 사용해 '2018-1-1' ~ '2018-1-31' 인 날짜를 만든다.

# 풀이3

cond1 = df['country'] == "United Kingdom"
df['date_added'] = pd.to_datetime(df['date_added'])
cond2 = df['date_added'].between('2018-1-1', '2018-1-31')
print(len(df[cond1 & cond2]))

실행 결과 : 6

→ 'object'형인 'country' 컬럼을 pd.to_datetime() 함수를 사용해 변환해준다.

→ 조건을 between() 함수를를 사용해 '2018-1-1' ~ '2018-1-31' 인 날짜를 만든다.

# 풀이4
cond1 = df['country'] == "United Kingdom"

df['date_added'] = df['date_added'].fillna("")

str1 = "2018"
str2 = "January"
cond2 = df['date_added'].str.contains(str1)
cond3 = df['date_added'].str.contains(str2)

print(len(df[cond1 & cond2 & cond3]))

실행 결과 : 6

→ 'object'형인 'country' 컬럼을 pd.to_datetime() 함수를 사용해 변환해준다.

→ 조건을 str.contains()함수를 사용해 '2018년'과 'January(1월)'이 포함된 날짜를 만든다.

추가 문제) 만약 'country'컬럼에 대소문자 함께 있고, 띄어쓰기가 있는 것도 있고 없는 것도 있다면?

# 띄어쓰기 제거
df['country'] = df['country'].str.replace(' ','')

# 소문자로 변경
df['country'] = df['country'].str.lower()
df['country']

cond1 = df['country'] == "unitedkingdom"

df['date_added'] = pd.to_datetime(df['date_added'])
df['year'] = df['date_added'].dt.year
df['month'] = df['date_added'].dt.month


cond2 = df['year'] == 2018
cond3 = df['month'] == 1

print(len(df[cond1 & cond2 & cond3]))

실행 결과 : 
6

→ 'country' 컬럼에 띄어쓰기가 있다면 str.replace(' ', '') 함수를 사용해 띄어쓰기를 제거 해준다.

→ 'country' 컬럼에 대소문자가 섞여있어 소문자로 변경하고 싶다면 str.lower() 함수를 사용하면 된다.

(소문자 -> 대문자 : str.upper() 함수 사용)

[작업형3] 회귀모형

seo0seok — Fri, 23 Jun 2023 03:39:08 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

1. 상관계수

- 두 변수 사이의 관계 (1에 가까울 수록 강한 양의 상관관계, -1에 가까울 수록 강한 음의 상관관계)

문제1) iris에서 Sepal Length와 Sepal Width의 상관계수 계산하고 반올림 후 소수 둘째자리까지 출력하고, 양의 상관관계인지 음의 상관관계인지 출력하시오.

import pandas as pd
from sklearn.datasets import load_iris

# iris 데이터셋 로드
iris = load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df

# Sepal Length와 Sepal Width의 상관계수 계산
correlation = df.corr()
result = correlation.loc['sepal length (cm)', 'sepal width (cm)']
print(round(result,2))

실행 결과 : 
-0.12

→ corr() 함수를 통해 상관계수를 구한다.

→ 문제의 'sepal length (cm)', 'sepal width (cm)' 의 상관계수를 loc()함수를 사용해 직접 뽑아낸다.

→ -0.12로 약한 음의 상관관계를 나타내는 것을 알 수 있다.

문제2) iris 데이터에서 sepal length (cm)[독립변수]를 통해 sepal width (cm)[종속변수]를 예측하려고 한다.

단순선형 회귀모형을 만들고 기울기와 절편을 구하시오.

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(df[['sepal length (cm)']], df['sepal width (cm)'])

print(lr.coef_[0]) # 기울기
print(lr.intercept_) # 절편

실행 결과 :
-0.06188479796414415
3.418946836103816

→ 먼저 단순선형 회귀모형을 만든 후 fit()함수 안에 독립변수 'sepal length (cm)', 종속변수 'sepal width (cm)'를 넣어준다.

→ 기울기는 .coef_[0]을 통해 구하면 -0.06 / 절편은 .intercept_를 통해 구하면 3.41이 나오게 된다.

[작업형3] 일원배치법

seo0seok — Fri, 23 Jun 2023 03:23:41 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

1. 일원배치법

- 관측치가 3개 이상일 때 활용

그룹 간의 평균 차이를 비교하기 위해 사용되는 통계적 검정
한개의 변수(그룹)에 따라 평균의 차이가 통계적으로 유의미한지 검정
양측 검정만 있음 (방향이 없음)

문제) 빅데이터 분석기사 실기를 세 가지 다른 교육 방법(A, B, C)을 도입하여 수험생들의 실기시험 성적을 비교하고자 합니다. 40명의 학생들을 무작위로 12명씩 세 그룹으로 나누어 교육을 시행한 후, 시험을 실시하였습니다. 다음은 각 그룹의 수험생들의 실기시험 성적 데이터입니다. (단, 각 그룹의 데이터는 정규성을 만족하고 그룹간의 등분산성은 동일하다.)

- 귀무가설(H0) : 세 그룹 간의 평균 실기시험 성적 차이가 없다. (모평균의 차이가 없다).

- 대립가설(H1) : 세 그룹 간의 평균 실기시험 성적 차이가 있다. (모평균이 모두 같지는 않다)

# 데이터 생성 (실행)
import pandas as pd
group_A = [78, 85, 92, 88, 76, 81, 80, 79, 83, 89, 91, 87]
group_B = [77, 74, 84, 82, 79, 80, 85, 88, 81, 76, 78, 83]
group_C = [79, 78, 72, 75, 74, 76, 73, 68, 71, 75, 79, 72]

pd.DataFrame({
    'group_A':group_A,
    'group_B':group_B,
    'group_C':group_C
}).to_csv("oneway.csv", index=False)

import pandas as pd
import scipy.stats as stats
df = pd.read_csv('oneway.csv')

정규성 검정)

# [정규성 검정] shapiro (H0: 정규분포를 따른다. H1: 정규분포를 따르지 않는다.)
# 주어진 데이터가 정규 분포를 따르는지를 확인
print(stats.shapiro(df['group_A']))
print(stats.shapiro(df['group_B']))
print(stats.shapiro(df['group_C']))

실행 결과 :
ShapiroResult(statistic=0.9519118666648865, pvalue=0.6650832295417786)
ShapiroResult(statistic=0.9926441311836243, pvalue=0.9999779462814331)
ShapiroResult(statistic=0.9600766897201538, pvalue=0.7849239110946655)

→ 세 컬럼 모두 p-value값이 0.05보다 커 귀무가설을 채택한다. 즉, 정규분포를 따른다.

등분산 검정)

# [등분산 검정] levene (H0: 각 그룹 데이터는 등분산을 가진다. H1: 하나 이상의 그룹이 등분산을 가지지 않는다.)
# 그룹 간 분산이 동일한지를 확인하기 위한 검정
print(stats.levene(df['group_A'], df['group_B'], df['group_C']))

실행 결과 :
LeveneResult(statistic=2.437300743889479, pvalue=0.10297619038422344)

→ 세 컬럼의 p-value값이 0.05보다 커 귀무가설을 채택한다. 즉, 등분산이다.

문제1) F값 (반올림하여 소수 둘째자리까지 계산)

# 일원배치법 수행
f_statistic, p_value = stats.f_oneway(df['group_A'], df['group_B'], df['group_C'])

# F-value
print(round(f_statistic,2))

실행 결과 : 
15.57

→ stats.f_oneway 함수에 세 컬럼을 넣어 f_statistic을 출력하면 15.17이 나온다.

문제2) P값 (반올림하여 소수 여섯째자리까지 계산)

# p-value
print(format(p_value,'.6f'))

실행 결과 : 0.000017

→ stats.f_oneway 함수에 세 컬럼을 넣어 p-value를 출력하면 0.000017이 나온다.

문제3) 검정수준(유의수준 0.05하)

→ pvalue값이 0.000017로 유의수준 0.05보다 낮아 귀무가설을 기각한다.

→ 즉, 대립가설이 채택되므로 교육방법에 따라 시험결과의 차이가 있다고 할 수 있다.

[작업형3] 독립성 검정(카이제곱)

seo0seok — Fri, 23 Jun 2023 03:01:52 +0900

// 퇴근후딴짓 님의 강의를 참고하였습니다. //

1. 독립성 검정

- 두 범주형 변수의 관련성

문제) A공장과 B공장 임직원 간의 근무기간 비율에 차이가 있는가?

- 귀무가설(H0) : '근무지'와 '근무기간'은 독립이다.

- 대립가설(H1) : '근무지'와 '근무기간'은 독립이 아니다.

문제1) 위의 가설에 대한 독립성 검정(카이제곱)의 검정통계량 값은?

import pandas as pd
from scipy.stats import chi2_contingency

# 데이터
df = pd.DataFrame([[50, 60],[25, 40]])

→ 문제와 같이 데이터프레임을 만들어준다.

# 독립성 검정
stat, p, dof, expected_freq = chi2_contingency(df)

실행 결과 : 
Chi2ContingencyResult(statistic=0.5552884615384607, pvalue=0.4561648467028253,
dof=1, expected_freq=array([[47.14285714, 62.85714286], [27.85714286, 37.14285714]]))

→ chi2_contigency 실행 결과 4개의 값이 나오는데 4개의 변수에 바로 담아줄 수 있다.

# 검정통계량
print(round(stat,2))

실행 결과 : 
0.56

→ 검정통계량은 0.56이다.

문제2) 위의 통계량에 대한 p-값을 구하시오.

# p-value
print(round(p,4))

실행 결과 : 
0.4562

→ p-value값은 0.4562이다.

문제3) 유의수준 0.05하에서 가설검정의 결과(채택/기각)중 하나를 선택하시오.

→ pvalue값이 0.4562로 유의수준 0.05보다 높아 귀무가설을 채택한다.

→ 즉, 대립가설이 기각되므로 근무지와 근무기간이 독립이 아니라고 할 수 없다.

# 연속성 수정(Yates's correction for continuity): 기본값 True
chi2_contingency(df, correction=False) 

실행 결과 :
0.82
0.3664

→ correction=True일때와 correction=False의 값이 다르다.