즐거운프로그래밍

[pandas] pandas 실습예제 2

수수께끼 고양이 2023. 11. 16. 13:43
728x90
반응형

 

import pandas as pd
reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/wine-data.csv',index_col=0)
reviews

 


인덱스를 title 컬럼으로 셋팅한다.

reviews.set_index('title', inplace=True) 
# inplace=True inplace:해당 장소에의 의미, 메모리에서 작업(반영)
reviews

 

먼저 데이터가 비어있느것이 있는지 확인한다.

reviews.isna()

 

reviews.isna().sum()


그리고나서, 가격이 없는 데이터는 빼고, 데이터셋을 가져온다.

reviews['price'].notna() # notna : true = 가격이 있음

 

reviews = reviews.loc[reviews['price'].notna(), ]
reviews


리뷰에 새로운 컬럼 critic 만들고, everyone 이라고 값 넣는다.

reviews['critic']='everyone'
reviews


리뷰의 포인트 컬럼은 수치로 되어있다. 이 컬럼의 기초통계데이터를 확인하시오. (평균, 최대 최소 등)

reviews['points'].describe()


taster_name 컬럼은 사람 이름으로 되어있다. 몇명의 사람들이 평가를 한것인까?

reviews['taster_name'].nunique()

reviews.groupby('taster_name')['taster_name'].count() # 테스터 네임 오름차순

reviews['taster_name'].value_counts() # 인덱스 갯수 오름차순

 


리뷰 포인트의 평균을 구하시오

reviews['points'].mean()


테스터들의 이름을 전부 확인하시오

reviews['taster_name'].unique() # NaN 포함

reviews['taster_name'].unique().size # NaN 포함 갯수

 

reviews['taster_name'].dropna().unique().size # NaN 제거 후 갯수
reviews['taster_name'].nunique()

 


각 테스터들은, 각각 몇개의 와인을 테스트 했는지 확인하시오. ( 테스터 이름, 갯수 )

reviews['taster_name'].value_counts()


리뷰의 포인트의 평균을 구하고, 리뷰의 포인트값이, 평균보다 큰 데이터 (즉, 평가가 좋은 와인) 만 가져오시오.

reviews.loc[reviews['points'] > reviews['points'].mean(), ]

 

 

 

728x90
반응형