CSV 파일을 수정하는 방법에 대해서 몇 가지 소개하고자 한다.
사소한 것 같지만 적절히 잘 사용할 수 있으면 몸이 편해진다.
사용 소프트웨어 |
마이크로소프트 오피스 2007 |
소프트웨어 구분 |
상용 소프트웨어 |
* 통계청에서 기부/후원을 받은 바 없음.
-> 좋은 데이터가 있다면 찾아보는 것도 추천함.
1. 원시 데이터 글자 오류 제거하기(수작업)
이렇게 화면에 띄어서 작업을 하게 되는 경우에는 매우 비효율적이다.
CSV파일의 특성을 잘 이해한다면 이렇게 작업하는 경우는 없을 것으로 보인다.
그림 1-1. 원시 데이터, 도도(Dodo)
도도가 선정한 데이터는 데이터양이 나름대로 많은 것을 대상으로 하였다.
1-2. 스프레드시트를 새창으로 열어서 작업하기
CSV 파일의 형태는 순수한 문자로 구성되어있다.
문자열 크기 조정 등을 화면상에서 수행하더라도 저장하고 나면 스타일 적용 등이 사라진다.
그러나 데이터를 분석 처리 등을 할 때는 CSV 파일이 효과적이다.
불필요한 외형스타일 등이 제거된 파일이기 때문에 가공처리가 매우 수월하다.
그림 1-2-1. CSV파일 -> 스프레드시트 새창열기로 가져오기, 도도(Dodo)
앞서 열었던 파일의 데이터를 스프레드시트로 가져올 수가 있다.
문제가 되는 문자열은 "-" 문자가 있는 문자열이다.
그림 1-2-2. 문제가 되고 있는 문자열, 도도(Dodo)
그림 1-2-2처럼 문제가 되는 문자열들이 꽤 있다.
하나씩 바꿔주도록 한다.
그림 1-2-3. 수정이 완료된 문자열, 도도(Dodo)
1-3. CSV 파일을 메모장으로 해서 수정하기
글자 가독성은 매우 떨어지긴 하지만, 양이 많은 경우에는 마우스 클릭보다는 훨씬 수월하다.
주의할 점은 "고쳐야 할 대상"의 문자를 수정해야 하는 데, "고치지 않아도 될 문자"를 수정할 경우도 발생할 수 있다.
컴퓨터 프로그래밍에서는 "리펙토링"의 문제라고 정의할 수 있다.
이런 문제들이 발생한다.
컴퓨터 프로그래밍에서의 리펙토링의 문제는 "변수(Variable)의 네이밍 센스" 등의 문제가 있다.
굉장히 쉬워보여도 쉽사리 하기 힘들다.
문자 바꾸는 게 힘든 것이 아니라 기존에 짜놓은 코드를 다 외울 수 없고, 변수가 중복되는 지 등을 모르기에 어려운 것이다.
기능적으로는 하기 쉽다.
그림 1-3-1. 메모장으로 바꾸기, 도도(Dodo)
2. 원시 데이터의 최종 가공물
그림 2-1. 최종 완성물
기초 초벌 단계의 문자열 가공 작업이 성공적으로 끝났다.
이 정도만 되어도 깨끗한 데이터라고 할 수 있다.
[첨부(Attachment)]
3. 참고자료(Reference)
1. 산업/근로형태별 취업자(10차), Last Modified 2018-07-31, Accessed by 2018-07-31, http://kosis.kr/statHtml/statHtml.do?orgId=101&tblId=DT_1DE7112&conn_path=I3, 통계청(국가통계포털), 경제활동인구조사
'공부(Study) > 문서(한글, 스프레드시트, 프리젠테이션)' 카테고리의 다른 글
[문서(스프레드시트)] Transpose로 행과 열을 바꾸기 (절대함수 사용) (1) | 2018.07.31 |
---|---|
[(문서)] 프리젠테이션 - 사용방법(문서 작성, 기본 디자인, 인쇄) (0) | 2018.07.27 |
[(문서)] 스프레드시트 - 글 입력, 함수, 차트, 셀 편집, 글 편집, 인쇄 (0) | 2018.07.26 |
[(한글(Hangul)] 한글 문서 - 작성(표, 글자, 차트, 단, 여백, 인쇄) (0) | 2018.07.26 |