일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- react
- TypeScript
- crud
- SSA
- Props
- RDS
- dict
- Vue
- pandas
- docker
- 파이썬
- EC2
- lambda
- AWS
- git
- flask
- S3
- wetube
- SAA
- Class
- MongoDB
- NeXT
- merge
- node
- 카톡
- 채팅
- socket io
- 튜플
- async
- 중급파이썬
- Today
- Total
목록Python/pandas (8)
초보 개발자
데이터를 정렬해보자 sort_values 키를 통해 오름차순 정렬을 시켰다. 여기서 내림차순을 시키고 싶다면 아래의 옵션을 주면된다. ascending=False 수학과 영어 두개를 사용하여 정렬하고 싶다면 배열안에 넣어주면된다. 정렬도 마찬가지로 배열안에 넣어주면 된다. 수학을 기준으로 오름차순하고, 같은 점수가 있다면 내림차순한다. 데이터 수정 만약 학교 이름이 바뀌어서 북산고에서 산북고로 되었다면 replace replace를 사용하고 obj안에 기존 값을 키 쪽에, 바꿀 값은 밸류 쪽에 넣어주면 잘 바뀌는 것을 확인할 수 있다. 또 열 값을 전부 소문자로 바꿔주고 싶은 경우 이렇게 할 수도 있다. 또 신기한게.. ~고 로 끝나는데 ~고등학교로 끝나게 하기 위해서 단순히 아래와 같이 해주면 된다. ..
값이 없으면 NaN이 들어간다. 이럴 경우에 데이터 선택 및 조작에 있어 오류가 발생할 수 있기에 특정 값으로 바꿔주는 것이 좋다. fillna 그중 하나가 fillna이다. 이건 모든 NaN값을 매개변수에 들어있는 값으로 바꾼다. 기존에 SW에 NaN값이 두개 있었는데 이를 공백으로 바꿔주었다. 모든 값이 공통된 값으로 변경되다보니 유연성이 떨어진다. 컬럼명을 지정해주면 그 컬럼에 대해서만 값이 변경된다. 먼저 학교 컬럼을 다 NaN으로 바꿔주었다. fillna만 사용하면 모든 값이 바뀌지만 컬럼을 지정해주면 그 특정 컬럼의 NaN값만 바뀐다. dropna 다시 처음으로 돌아와서 dropna를 사용하면 값 중 하나라도 NaN값이 들어있다면 그 행을 삭제시켜 버린다. 이번엔 dropna의 옵션에 대해 알..
iloc 앞서 컬럼 명이라던지, 인덱스 이름을 이용해서 데이터를 선택했는데, 이번에는 인덱스를 이용하여 선택해보려고한다. 방법은 같다. 차이라고하면 단순히 인덱스를 사용하냐, 이름을 사용하냐정도인 것 같다. 숫자 0을 적으면 0번째 행의 값들을 불러온다. 이 역시 슬라이싱이 가능하다. 다만 다른 점은 loc에서는 슬라이싱을 할 때 끝 인덱스 값도 포함해주어 보여줬지만, iloc에서는 끝 인덱스 값은 포함하지 않는다. 0:4 -> 0,1,2,3 이렇게 4개만 보여주는 것을 확인할 수 있다. 원하는 컬럼 값만 선택하고 싶다면 뒤에 컬럼의 인덱스 값을 적어주면된다. 복수라면 배열안에 넣어주자. 물론 슬라이싱도 가능하다. 조건 시리즈에 부등호를 사용하면 값이 boolean으로 변경된다. 이를 df에 넣으면 값이..
이번엔 데이터를 확인할 수 있는 방법을 배워보자. describe 이건 계산 가능한 컬럼들의 정보를 나타내준다. 이름과 학교 같이 스트링은 계산이 불가하기에 나오지 않는다. 개수, 평균, 표준편차 등 여러 정보를 확인할 수 있다. info 전체 데이터의 전반적인 자료를 확인할 수 있다. 자료형, 컬럼수, 메모리 등을 확인할 수 있다. head head를 적으면 제일 위 5개를 보여준다. head(7)이라고 적으면 7개를 보여준다. tail 마찬가지로 tail을 적으면 맨 뒤의 5개의 로우는 가져오는데 7을 넣어주어 뒤의 7개를 가져왔다. values 2차원 배열 형식으로 모든 데이터를 보여준다. index index를 확인할 수 있다. columns 컬럼 명도 확인할 수 있다. shape 해당 데이터 프..
pandas data를 excel, txt, csv등의 형태로 열거나, 저장하기 CSV로 저장하기 , to_csv('원하는 이름.csv') 생각보다 간단하다. to_csv함수를 사용하는데 확장자 명까지 적어주면된다. 단 한줄로 끝난다. 이렇게 하면 파일이 생성이된다. 이 파일을 열어보면 csv형태로 잘 적혀있는 것을 확인할 수 있다. 근데 이걸 엑셀파일로 열어보면 한글이 깨져서 나오는 것을 확인할 수 있다. 인코딩 문제인데 아래처럼 옵션을 주면 된다. 여기서 utf-8만 적으면 적용이 안되고 sig까지 적어줘야 제대로 반영이 되는 것 같다. 다시 파일을 엑셀에서 열어보면 잘 열리는 것을 확인할 수 있다. 근데 여기서 또 하나의 옵션을 줄 수도 있는데 앞에 보이는 인덱스를 csv형식에서는 빼고 싶다면 in..
데이터 프레임의 조작법에 있어서 인덱스 부분을 살펴보자 매개변수에 Index 배열을 주면 원하는 값으로 인덱스를 지정할 수 있었다. 하지만 갑자기 기본인덱스로 돌아가고 싶은 경우에는 어떻게 할까?? reset_index() 함수를 사용하면 된다. 위와같이 처음에 인덱스를 지정해주었다. 그리고 df.index.name = 'default' 위 처럼 지정해주면 인덱스의 이름또한 지정할 수 있다. 자 ! 여기서 기본 인덱스로 돌아가보자 분명 잘 돌아갔는데 뭔가 이상하다. 기존의 인덱스가 컬럼으로 변해있는 것을 확인할 수 있다. 내가 원한건 이게 아닌데.. 그렇다면 여기서 drop=True를 넣어주면 된다. 그럼 기존에 있던 인덱스가 사라지고 기본 인덱스로 변한다. 좋다. 다만 다시 df를 쳐보면 변하지 않은 ..
DataFrame 은 2차원데이터이고, 시리즈의 모음이다! Data는 dictionary형태로 준비해야한다. 강의에서 제공하는 슬램덩크 자료를 준비해보았다. data = { '이름' : ['채치수', '정대만', '송태섭', '서태웅', '강백호', '변덕규', '황태산', '윤대협'], '학교' : ['북산고', '북산고', '북산고', '북산고', '북산고', '능남고', '능남고', '능남고'], '키' : [197, 184, 168, 187, 188, 202, 188, 190], '국어' : [90, 40, 80, 40, 15, 80, 55, 100], '영어' : [85, 35, 75, 60, 20, 100, 65, 85], '수학' : [100, 50, 70, 70, 10, 95, 45, 90..
이 글은 나도 코딩의 강의를 보고 정리하는 글입니다. https://www.youtube.com/watch?v=PjhlUzp_cU0&t=3204s pandas는 데이터 분석을 할 수 있는 파이썬의 라이브러리?라고 한다. 기본적으로 사용하려면 import를 해주어야 한다. 1. Series 1차원 데이터를 다룰 때 사용한다. pd.Series(배열)를 해주면 위와 같이 1차원자료가 생긴다. 여기서 주의할 점이 단순히 한 컬럼이 생기는 것이 아니라, 인덱스를 가지고 있는 1차원 자료를 리턴한다. 나중에 조건을 설정하는 것도 나올텐데, 이 때 아마 조건이 시리즈 즉 1차원 자료의 형태로 리턴이 되어지는 것 같다. 따라서 해당 인덱스가 True라면 해당 행을 보여주고 False라면 해당 행을 보여주지 않는다. ..