🤖 Data Study/memo

[빅데이터분석기사] 6회 시험 후기

데이터분석가SIENNA 2023. 6. 26. 04:43

[시험 전]

  원래 이런 시험을 보면 합-불합만 확인하고 마는데 이번엔 후기를 한 번 남겨본다. 일단 난 대학원에서 데이터사이언스를 전공 중이다. 한 달 전부터 공부를 시작한 척 했지만 정말 솔직하게 공부 안 했다. 한 달 전부터 온라인 스터디에 참가하긴 했는데, 거기 올라온 예상 문제를 한 번씩 필사해 보면서 이번에 시험 유형이 바뀐다는 공지들, 그 전에 어떤 문제들이 나왔었고, 작업형1,2,3을 어떻게 풀어나가야 하는 지, 또 다른 사람들은 어떻게 공부했는지만 좀 봤다. 본격적으로 공부 시작한 건 시험 주의 월요일. 그러니까 한 5일 정도 공부했다. 공부 시작한 지 하루만에 이거 5일만에 될까 하는 생각이 들었다. 그래도 목요일 쯤 되니까 작업형2는 그냥 모델을 다 외워버려서 해 볼만 하단 생각 들었다. 작업형 3도 이번에 처음 나오는 유형이라, 주최측에서 보여준 예시문제에서 크게 벗어날 것 같지 않아 걱정은 안했다. 문제는 작업형1...역시 데이터분석에서 제일 골머리 아픈 건 전처리인가 보다. 아래 사이트 들에 있는 문제들을 풀어보았다. 이런 시험 문제들 정리해주신 분들 덕분에 편하게 공부한 듯 하다. 진짜 감사합니다!

 

https://www.datamanim.com/dataset/03_dataq/index_big_python.html

 

1.빅데이터 분석기사 실기 (PYTHON) — DataManim

 

www.datamanim.com

https://www.kaggle.com/datasets/agileteam/bigdatacertificationkr

 

Big Data Certification KR

빅데이터 분석기사 실기 (Python, R tutorial code)

www.kaggle.com

 

[시험 당일]

  시험장이 조금 불만이었다. 너무 서울에 몰려있는 건 그렇다치고 한 시험장에 사람들이 너무 따닥 따닥 배치되어서 진심 바로 옆에서 코드가 보일 정도였다. 깜놀... 모니터, 마우스랑 키보드에 먼지 수북한것도 싫었다 ㅠㅠ 시험에 관한 질문을 했는데 감독관이 "그런거 물어보셔도 저희는 몰라요! 궁금하신건 채팅으로 물어보세요" 해서 머슥타드였다. 칠판에 시험 시간이 잘못 표기되는 등 자잘하게 맘에 안드는 점 투성이...그래도 그냥 나만 잘하면 된다는 생각으로 대기하면서 시험가이드를 열심히 읽었다. 9시 반부터 휴대폰이나 공부하던 것 집어넣고 10시까지 대기해야하는데 그 시간이 좀 길게 느껴지긴 했다.

 

[시험 문제 후기]

  10시 딱 되자마자 문제를 딱 본 순간 머리가 핑 돌았다. 문제들이 하나같이 기네? 나는 모든 시험을 문제를 한번 쓱 읽고 시작해야지 안그러면 1번 풀다가 뒷 문제 궁금해서 미쳐버리는 타입이다ㅋㅋㅋㅋ모든 문제를 죄다 읽고나서야 편하게 1번 부터 풀 수 있었다.

  작업형1의 1, 2, 3번 문제는 무난했으나 문제가 진짜 한국말 못하는 사람이 쓴 것 처럼 이해하는 데 오래걸렸다. 그 중 두 문제가 datetime형 관련 문제인 듯 했다. 아니 이거 시험 문제 낼 때 솔직히 한국어 전문 그쪽에다가 자문받아야 하는 거 아닌지 생각들 정도로 말을 이상하게 했다. 1번은 데이터에서 시간 차의 평균을 구하고, 그 값이 가장 큰 데이터의 시간을 정수로 출력하는 문제였다. object타입을 datetime으로 변환하면 굿~ 2번은 데이터에서 총 인원수를 구하고 비율을 구해서 비율이 가장 높은 데이터의 특정 값을 정수로 출력하는 문제. 쉬운 편. 논란이 좀 있는 듯한 세 번째 문제는 월별 연도별로 데이터 워쩌고 저쩌고 해서 월평균인지 연평균을 구하는 문제였다. 처음에는 datetime으로 변환해서 접근할까 했는데 그냥 별도의 year, month 컬럼추가해서 풀었다. 근데 이거 진심 문제가 이해가 안가서 몇 번을 읽었는지 모른다. 그래서 뭘 구하라는거야???(풀면서도 계속되는 의문) 국어 못하는 자와 코딩 못하는 자의 자강두천... 중간중간 갑자기 쪽지로 공지가 와서 문제 조건을 정확히 짚어줬다. 누군가가 예리하게 질문한 내용인가 보다. (존경의 눈빛)

  작업형 2는 결과값을 분류 예측하고 marco f1 score로 평가하는 문제였다. 데이터가 train, test만 주어졌다. 머예요 y_train 내놔요ㅠㅠ 작업형 2는 데이터가 결측치도 없고~ 수치형 데이터 범위도 죄다 똑같아서 스케일링이 무의미한~ 아주 깔끔한 데이터였다. 그래서 공부한대로 여러가지 모델 시도하려다가 작업형3에서 시간을 너무 잡아먹어서 그냥 랜덤포레스트(짱) 썼다. 데이터가 정말 깔끔했던 문제. 세상의 모든 데이터가 이렇게 온실 속 화초처럼 깔끔하면 좋으련만.

  작업형 3ㅋㅋㅋㅋ귀무가설 기각 채택 이거 외않내는거냐고,,ㅋㅋㅋ간만에 필기노트 펼쳐가며 공부했는데,,, 카이제곱 검정 이런거 나왔다. 통계 공부하면서 다 배웠던 내용인데 문제는 내가 기억이 안난다는 점이었다. 통계 쪽을 좀 더 비중있게 공부했어야 했다. 예시문제만큼 간단하고 쉬운 거 나올 줄 알고 방심했다!! 힝...분명히 시험장이 에어컨 때문에 추웠는데 점점 손에서 땀이 났다. 솔직히 시간 1시간 정도 남을 줄 알았는데 3시간이 이렇게 촉박할 줄은. 문제 보니 사실 통계를 공부했다면 그리 어려운 문제는 아니었지만. 그래 이번 기회에 파이썬으로 제대로 정리해 둬야겠다.

 

[시험장을 나오며]

  시험 시간을 15분 정도 남겨두고 제출 후 퇴실했다. 집에 오는 길에 다른 사람들은 어떻게 풀었을까 궁금해서 데이터 카페나 오픈채팅방에 들어가 봤는데 작업형 1-3 문제가 논란이 좀 되는 모양이었다. 와중에 하드코딩으로 푼 사람들도 간간히 보였는데 좀 놀란 점은 이거 하드코딩도 답이 맞으면 정답처리라고 한다. 근데... 좀 아니지않나? 하드코딩으로 풀어서 정답인들 그게 본인한테 좋은건가 ㅠ 또 하나 느낀 점은 사람들 진짜 글 안 읽는다는 거였다. 분명히 시험가이드에 나와있는 단순 내용들을 물어보고 누가 지적하면 몰랐다 못 봤다고 한다. 모두들 묻기 전에 자기가 먼저 찾아보는 걸 디폴트로 했음 좋겠다. 아우 암튼 난 작업형3을 제대로 못풀어서 합격이 좀 아슬할 것 같다. 작업형2에서 감점이 없기를 바라며 후기 끝!