728x90
반응형

데이터분석처리 5

[python] seaborn 차트(Bar Chart, 바 차트) 예제

type_1 으로 바 차트 표시하기 sb.countplot(data= df, x='type_1', color=base_color) plt.show() 내림차순으로 정렬하여 바차트 표시하기 base_order3 = df['type_1'].value_counts().index # 인덱스만 추출하기 base_order3 sb.countplot(data= df, x='type_1', order=base_order3) plt.show() 오름차순으로 바 차트 표시하기 base_order4 = list(reversed(base_order3)) base_order4 sb.countplot(data= df, x='type_1', color=base_color, order=base_order4) plt.show() x축..

[python] seaborn 차트 만들기(Bar Chart, 바 차트)

Bar Chart(막대 차트) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sb csv 파일 데이터를 가져온다 generation_id 는 데이터가 중복되어 있는 것 같다. = 카테고리컬 데이터 df['generation_id'].nunique() df['generation_id'].unique() 각 제너레이션 아이디 별로 캐릭터가 몇개씩 있는가? df['generation_id'].value_counts() # value_counts : 해당 컬럼의 값의 갯수 특정 컬럼이 카테고리컬 데이터 일때 각 데이터가 몇개씩 있는지 차트로 나타내고 싶으면 seaborn의 countplot 함수를 사..

[pandas] pandas 실습예제 2

import pandas as pd reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/wine-data.csv',index_col=0) reviews 인덱스를 title 컬럼으로 셋팅한다. reviews.set_index('title', inplace=True) # inplace=True inplace:해당 장소에의 의미, 메모리에서 작업(반영) reviews 먼저 데이터가 비어있느것이 있는지 확인한다. reviews.isna() reviews.isna().sum() 그리고나서, 가격이 없는 데이터는 빼고, 데이터셋을 가져온다. reviews['price'].notna() # notna : true = 가격이 있음 reviews = reviews..

[pandas] pandas 실습예제 1

구글 코랩에 구글 드라이브 마운트 후 csv 파일을 불러옵니다. import pandas as pd reviews = pd.read_csv('/content/drive/MyDrive/Notebooks/data/winemag-data.csv',index_col=0) # index_col = 인덱스로 사용할 컬럼 선택(컬럼 번호로 작성) reviews 리뷰의 디스크립션 컬럼을 desc 로 저장한다. desc = reviews['description'] first_description 이라는 변수에는, 디스크립션 컬럼의 첫번째 데이터를 저장한다. first_description = reviews['description'][0] reviews.loc[0,'description'] reviews.iloc[0, 1..

[pandas] pandas HTML 웹 자료 읽어온 후 데이터 처리

GETTING HTML DATA df = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html') df 자료가 리스트 형식(대괄호 [])으로 표시되었고, 웹페이지 내에 자료가 여러개 있어서 리스트화 되어 표시된 것! 리스트의 갯수를 확인하고 각각 데이터를 확인해야함 len(df) # 리스트의 갯수 리스트 갯수가 2개로 확인되어 하나씩 불러와 봄 df[0] # 데이터 프레임 df[1] 각 데이터 프레임 하단에 자료 데이터 외의 코드가 들어가 있고 웹페이지 확인시 표 안에 광고 코드를 삽입한 것으로 확인되어 각 데이터에서 해당 부분을 제거함 df[0] = df[0].drop(8, axis=0) df[0].loc[0:7,] 위 2가지 코..

728x90
반응형