본문 바로가기

코딩/파이썬과 데이터 사이언스

파이썬과 데이터 사이언스 : seaborn 제공 mpg 및 그외 데이터셋

 

Seaborn(버전 0.11.2 기준)은 다양한 데이터셋을 제공하며, get_dataset_names() 함수를 이용해 제공되는 데이터셋 이름 정보를 확인할 수 있습니다.

 

anagrams
anscombe
attention
brain_networks
car_crashes
diamonds
dots
dowjones
exercise
flights
fmri
geyser
glue
healthexp
iris
mpg
penguins
planets
seaice
taxis
tips
titanic

 

Seaborn에서 제공되는 데이터셋에 대한 정보는 아래 github에서도 확인이 가능하며, 각 데이터셋의 원천 사이트 정보도 확인할 수 있습니다.

 

https://github.com/mwaskom/seaborn-data

 

아래는 Seaborn에서 제공되는 데이터셋 "mpg" 정보입니다.

 

 

  • "mpg" 데이터셋은 1970년~1982년 사이 미국, 유럽 및 일본 자동차에 대한 이름, 제조사 및 특징 등에 대한 정보를 담고 있음
  • "mpg" 데이터셋은 카네기 멜론 대학교의 StatLib 라이브러리에서 취득
  • "mpg" 데이터셋의 mpg 열은 miles per gallon (연비), displacement는 cu in 단위의 배기량을 의미

아래는 "mpg" 데이터셋의 displacement, horsepower, mpg 데이터 간의 연관성을 보여줍니다.

 

 

import matplotlib.pyplot as plt
import seaborn as sns

df = sns.load_dataset('mpg')

sns.scatterplot(data=df,
                x='displacement',
                y='horsepower',
                hue='mpg')

plt.show()