Python

[Python] 코로나 데이터 분석

seo0seok 2023. 5. 3. 11:48

보고서 :

코로나 데이터 분석 보고서.pdf
1.18MB

 

아래 site에서 제공된 데이터셋은 Johns’ Hopkis 대학 내 The Center For Systems Science and Engineering(CSSE) 에서 업데이트 하는 전세계 코로나 (COVID-19) 발생 현황 데이터셋이다. 제공된 데이터셋 중 2021년 8월~2022년 7월 일간

데이터를 대상으로 numpy & pandas package 내 함수로 다음을 수행하고 결과 및 insight를 팀 별로 리포트 하시오.

(누적데이터인 경우 누적데이터로 해당 결과를 제시하고, 일별 데이터 를 산출하여 총합과 일평균값을 산출하여 결과 비교)

 

COVID-19/csse_covid_19_data/csse_covid_19_daily_reports at 770dafdb73e9dc31140db77b13b1b92cfd8241f9 · CSSEGISandData/COVID-19 (github.com)

 

문제 1) 일별 국가별 코로나 발생자수와 사망자 수를 기준으로 전처리 하시오. 일부 국가는 지역별로 코로나 발생자수와 사망자 수가 분리되어 있으니 국가별로 집계하고 국가, 총발생자수, 총사망자수, 일평균 발생자수, 일평균 사망자수 리스트를 제시하시오.

 

 

문제 2) 데이터가 0인 경우(코로나 환자 0)와 데이터가 없는 경우를 구분하여 전처리하고 전처리 시 data가 없는 국가는

제외하고 제외된 국가 리스트를 제시하시오.

 

 

문제 3) 1년동안 코로나 총 발생자수, 총 사망자수, 일평균 발생자수, 일평균 사망자 수 기준으로 가장 많은 20개 국가를 내림차순으로 정렬(4가지 기준 각각 sorting) 하고 각 기준 별 기술통계량을 산출하여 리포트 하시오.

 

 

문제 4) 1년동안 대한민국에서 발생한 코로나 발생자수 및 사망자 수 데이터 대상으로 전처리를 실시하시오.

 

 

문제 5) 1년동안 대한민국에서 발생한 코로나 발생자수 및 사망자 수 데이터 대상으로 기술통계량(평균, 중앙값, 최빈값, 표준편차, 분산, 첨도, 왜도, 범위, 최소값, 최대값, 합, 관측수)을 구하시오.

 

 

 

문제 6) 1년동안 대한민국에서 발생한 코로나 발생자수 및 사망자 수 데이터 대상으로 pandas package 내 함수로 box plot과 월별로 코로나 발생자수 및 사망자수의 히스토그램으로 시각화하시오.