728x90
300x250
[문서(스프레드시트), (메모장)] CSV 파일 - 수정 작업하기

 

CSV 파일을 수정하는 방법에 대해서 몇 가지 소개하고자 한다.

사소한 것 같지만 적절히 잘 사용할 수 있으면 몸이 편해진다.

 

사용 소프트웨어

  마이크로소프트 오피스 2007

소프트웨어 구분

  상용 소프트웨어

 

* 대량 데이터를 뽑아내기 위해서 통계청의 "산업 근로형태별 취업자 10차" 데이터를 사용하였음.
* 통계청에서 기부/후원을 받은 바 없음.
-> 좋은 데이터가 있다면 찾아보는 것도 추천함.

 


1. 원시 데이터 글자 오류 제거하기(수작업)

 

이렇게 화면에 띄어서 작업을 하게 되는 경우에는 매우 비효율적이다.

CSV파일의 특성을 잘 이해한다면 이렇게 작업하는 경우는 없을 것으로 보인다.

 

 

그림 1-1. 원시 데이터, 도도(Dodo)

 

도도가 선정한 데이터는 데이터양이 나름대로 많은 것을 대상으로 하였다.

 


1-2. 스프레드시트를 새창으로 열어서 작업하기

 

CSV 파일의 형태는 순수한 문자로 구성되어있다.

문자열 크기 조정 등을 화면상에서 수행하더라도 저장하고 나면 스타일 적용 등이 사라진다.

그러나 데이터를 분석 처리 등을 할 때는 CSV 파일이 효과적이다.

불필요한 외형스타일 등이 제거된 파일이기 때문에 가공처리가 매우 수월하다.

 

 

그림 1-2-1. CSV파일 -> 스프레드시트 새창열기로 가져오기, 도도(Dodo)

 

앞서 열었던 파일의 데이터를 스프레드시트로 가져올 수가 있다.

문제가 되는 문자열은 "-" 문자가 있는 문자열이다.

 

 

그림 1-2-2. 문제가 되고 있는 문자열, 도도(Dodo)

 

그림 1-2-2처럼 문제가 되는 문자열들이 꽤 있다.

하나씩 바꿔주도록 한다.

 

 

그림 1-2-3. 수정이 완료된 문자열, 도도(Dodo)

 


1-3. CSV 파일을 메모장으로 해서 수정하기

 

글자 가독성은 매우 떨어지긴 하지만, 양이 많은 경우에는 마우스 클릭보다는 훨씬 수월하다.

주의할 점은 "고쳐야 할 대상"의 문자를 수정해야 하는 데, "고치지 않아도 될 문자"를 수정할 경우도 발생할 수 있다.

 

컴퓨터 프로그래밍에서는 "리펙토링"의 문제라고 정의할 수 있다.

이런 문제들이 발생한다.

 

컴퓨터 프로그래밍에서의 리펙토링의 문제는 "변수(Variable)의 네이밍 센스" 등의 문제가 있다.

굉장히 쉬워보여도 쉽사리 하기 힘들다.

 

문자 바꾸는 게 힘든 것이 아니라 기존에 짜놓은 코드를 다 외울 수 없고, 변수가 중복되는 지 등을 모르기에 어려운 것이다.

기능적으로는 하기 쉽다.

 

 

 

그림 1-3-1. 메모장으로 바꾸기, 도도(Dodo)

 


2. 원시 데이터의 최종 가공물

 

 

그림 2-1. 최종 완성물

 

기초 초벌 단계의 문자열 가공 작업이 성공적으로 끝났다.

이 정도만 되어도 깨끗한 데이터라고 할 수 있다.

 

[첨부(Attachment)]

example.7z

 

 

 


3. 참고자료(Reference)

 

1. 산업/근로형태별 취업자(10차), Last Modified 2018-07-31, Accessed by 2018-07-31, http://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1DE7112&conn_path=I3, 통계청(국가통계포털), 경제활동인구조사

반응형

+ Recent posts