728x90
반응형

분류 전체보기 265

[pandas] pandas 데이터 가공 연습하기

df = pd.DataFrame({'Employee ID':[111, 222, 333, 444], 'Employee Name':['Chanel', 'Steve', 'Mitch', 'Bird'], 'Salary [$/h]':[35, 29, 38, 20], 'Years of Experience':[3, 4 ,9, 1]}) df 경력이 3년 이상인 사람의 데이터를 가져오시오 df['Years of Experience'] >= 3 df.loc[df['Years of Experience'] >= 3 , ] #변수명.loc[행, 열] # 이 방법은 안된다(에러남) df.iloc[,] 경력이 3년 이상인 사람의 이름과 시급을 가져오시오 df.loc[df['Years of Experience'] >= 3 , ['Emp..

[pandas] pandas HTML 웹 자료 읽어온 후 데이터 처리

GETTING HTML DATA df = pd.read_html('https://www.livingin-canada.com/house-prices-canada.html') df 자료가 리스트 형식(대괄호 [])으로 표시되었고, 웹페이지 내에 자료가 여러개 있어서 리스트화 되어 표시된 것! 리스트의 갯수를 확인하고 각각 데이터를 확인해야함 len(df) # 리스트의 갯수 리스트 갯수가 2개로 확인되어 하나씩 불러와 봄 df[0] # 데이터 프레임 df[1] 각 데이터 프레임 하단에 자료 데이터 외의 코드가 들어가 있고 웹페이지 확인시 표 안에 광고 코드를 삽입한 것으로 확인되어 각 데이터에서 해당 부분을 제거함 df[0] = df[0].drop(8, axis=0) df[0].loc[0:7,] 위 2가지 코..

[pandas] pandas 파일 읽어온 뒤 데이터 중복 제거와 데이터 처리 예제 (nunique, count, unique, sum, mean, groupby, agg, value_counts)

csv 파일 불러오기 df = pd.read_csv('/content/drive/MyDrive/Notebooks/data/company.csv') df 중복된 데이터를 가지고 있는 컬럼들이 있다. 예를 들면, 성별과 같은 컬럼들 이런 데이터를 카테고리컬 데이터라고 한다. 유니크한 데이터의 갯수를 세는 방법 df['Year'].nunique() # nunique = number unique 데이터의 전체 갯수를 세는 방법 df['Year'].count() 중복제거한 유니크한 데이터를 표시 df['Year'].unique() 데이터 프레임 전체에 describe를 하면, 수치 데이터만 보여준다. df.describe() describe 함수를 문자열 데이터 컬럼 하나에만 적용하면, 빈도수 등을 알 수 있다...

[pandas] pandas 파일 읽어온 뒤 데이터 처리하기(describe, head, tail, info)

pandas 파일 읽어온 뒤 데이터 처리하기 구글 코랩에서 구글 드라이브 사용시 1. 왼쪽 폴더 모양 클릭 2. 상단 구글 폴더 클릭 3. 계정 연동 시 아래의 명령 실행 4. 연동 후 파일 경로를 복사하여 읽어오기 csv (Comma Separated Values) 파일을 읽는 방법, pd.read_csv('파일 경로') 명령으로 실행 csv 외에도 다양한 파일 연동이 가능함 df = pd.read_csv('/content/drive/MyDrive/Notebooks/data/1234.csv') df df.shape # 데이터 갯수 df.isna().sum() # NaN 데이터 갯수 기본적인 통계 데이터를 보여주는 함수 df.describe() # 각 항의 데이터 정보를 보여줌(평균, 최대값, 최소값, ..

[pandas] pandas DataFrame 2

import pandas as pd # We create a list of Python dictionaries items2 = [{'bikes': 20, 'pants': 30, 'watches': 35}, {'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5}] pd.DataFrame(data=items2, index=['store 1','store 2']) 판다스의 2차원 데이터를 처리하는 "데이터프레임"에서 데이터를 액세스 하는 방법 3가지 1. 컬럼의 데이터를 가져오는 방법 : 변수명 오른쪽에 대괄호 사용 2. 사람 용인, 인덱스와 컬럼명으로 데이터 액세스 하는 방법 변수명.loc[ , ] 3. 컴퓨터용인 컴퓨터 인덱스로 데이터를 가져오는 방법 변수명.il..

[pandas] pandas DataFrame 1

pandas DataFrame : 행과 열 import pandas as pd # We create a dictionary of Pandas Series items = {'Bob' : pd.Series(data = [245, 25, 55], index = ['bike', 'pants', 'watch']), 'Alice' : pd.Series(data = [40, 110, 500, 45], index = ['book', 'glasses', 'bike', 'pants'])} pd.DataFrame(data=items) # DataFrame = 2차원 데이터 / Series = 1차원 데이터 왼쪽 진한 글씨를 index 라고 하고 윗쪽 진한 글씨를 columns 라고 하고 안쪽 데이터 부분을 values 라고..

[pandas] pandas Series 데이터 2

index = ['apples', 'oranges', 'bananas'] data = [10, 6, 3,] fruits=pd.Series(data=data, index=index) fruit_list= [10,6,3] fruit_list fruits data에 5씩 더하고 싶을 때 fruits+5 fruits = fruits+5 # fruits 변수에 저장(메모리 저장), 데이터 가공 fruits fruits 특정 인덱스에 data 값을 변경하고 싶을 때 fruits['oranges']= fruits['oranges']-2 fruits fruits[['apples','bananas']] = fruits[['apples','bananas']]-3 fruits pandas Series 실습 예제 1. 다음과..

[pandas] pandas Series 데이터 1

pandas 데이터 분석 방법, 데이터 분석(처리) 라이브러리 기본적인 통계 데이터를 제공 pandas Series : 1차원 데이터 Series의 오른쪽 부분을 values(값)(data)라고 하고 Series의 왼쪽 부분을 index라고 한다. pandas Series 데이터 생성 import pandas as pd index = ['eggs', 'apples', 'milk', 'bread'] data = [30, 6, 'Yes', 'No'] index index[1] pandas Series pd.Series(data=data) 이때 인덱스 부분을 사람들이 보기 좋은 용도로 변경하고 싶을 때는 아래와 같이 index부분을 잡아준다. pd.Series(data=data, index=index) 변수 ..

728x90
반응형