본문 바로가기
대학원 일기 | MS of Data Science

[대학원 준비] 파이썬 Pandas 공부하면서 챗GPT 사용해보기

by Ina Dan 2023. 3. 11.
728x90
반응형

챗 gpt, pandas

요즘 데이터 사이언스와 머신 러닝을 위한 파이썬 강의를 Udemy에서 듣고 있다. 어제 Pandas (데이터 처리와 분석을 위한 라이브러리)의 기본 문법과 관련된 강의를 들었다. 그리고 이를 연습해 보기 위해 Kaggle에서 받은 데이터로 혼자서 연습을 하고 있었다.

 

그러던 중 어떤 식으로 코드를 짜야 할지 해결이 잘 안되는 문제가 생겼다. 그래서 최근 논란 아닌 논란을 불러일으키고 있는 챗 GPT의 기능을 하용해 보기로 했다.

 

우선 내가 공부하던 방식은 다음과 같다.


1. 강의에서 연습 문제에서 나왔던 질문들과 내가 이 데이터에 궁금한 것들에 대한 질문 만들기

2. 질문에 맞는 답변을 출력하는 코드 짜보기


온라인 강의를 들으면서 혼자 공부하는 것의 단점 중 하나가 물어볼 사람이 없다는 것이다. 물론 강의 제공자에게 댓글을 남겨서 물어볼 수도 있지만, 시간이 걸리고 내가 연습하던 데이터의 경우 Kaggle에서 따로 찾아본 데이터이기 때문에 질문을 남기기 어려웠다. 그래서 밑져야 본전이라고 나도 한 번 챗 GPT를 시도해 봤다.

반응형

최초 코드
최종 코드

문제가 되던 질문: What is the average number of arrested drivers? (체포된 운전자 수의 평균은?)

 

이 질문을 해결하는 데 내가 생각했던 부분은,

1. is_arrested의 데이터 타입이 object(str/ 문자 또는 str 포함) 이어서 평균을 구하는 .mean() 함수를 바로 사용할 수 없다는 것.

2. 그래서 True 데이터의 수를 세서 숫자로 만든 후 그것의 평균을 구해야 한다고 생각했다.

3. 하지만, 여기서 내가 잘못했던 점은 평균을 구할 때 True 데이터 수를 is_arrested 열(column)의 전체 데이터 수로 나눠야 한다는 것을 놓쳤다는 것이었다. (당시에는 생각이 엉켜서 포스팅을 작성하는 지금은 또렷하게 보이는데 당시에는 안 보였다ㅠㅠ)

 

그래서 내가 다루고 있는 데이터와 관련해서 배경을 챗 GPT에게 설명하고 나의 코드에서 잘못된 점을 물었다.

 

chat1

chat2

value_counts() 함수에 normalize를 True로 설정하면 전체 데이터에서 특정 데이터(True)가 발생하는 빈도수를 계산하여 보여준다는 것을 알 수 있었다. 챗 GPT에게 설명을 들은 후 따로 한 번 더 Pandas에서 세부 내용들을 읽어보면서 완전히 이해할 수 있었다.

 

value_counts
출처: https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html


물론 너무 의존적이게 되는 것은 경계하고 아직까지 정확한 답변을 위해서는 영어로 질문해야 하지만, 혼자 공부하면서 질문을 할 선생님(?)이 필요할 때, 챗 GPT는 사용해볼 법한 기술인 것 같다. 

728x90
반응형

댓글