당신은 주제를 찾고 있습니까 “빅 데이터 분석 프로세스 6 단계 – 5강 빅데이터 분석 방법론“? 다음 카테고리의 웹사이트 https://you.experience-porthcawl.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.experience-porthcawl.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 데이터人싸 이(가) 작성한 기사에는 조회수 7,993회 및 좋아요 57개 개의 좋아요가 있습니다.
- 분석 프로세스의 이해 …
- 문제인식 -> 관련연구 조사 -> 모형화(변수 선정) -> 자료 수집(변수 측정) -> 자료분석 -> 결과제시
- 1.1 문제 인식 …
- 2 관련연구 조사 …
- 1.3 모형화와 변수 선정 …
- 1.4 데이터 수집과 변수 측정
빅 데이터 분석 프로세스 6 단계 주제에 대한 동영상 보기
여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!
d여기에서 5강 빅데이터 분석 방법론 – 빅 데이터 분석 프로세스 6 단계 주제에 대한 세부정보를 참조하세요
5강 빅데이터 분석 방법론
I made a thumbnail for free in website \”forcre\”.
website : www.forcre.kr
빅 데이터 분석 프로세스 6 단계 주제에 대한 자세한 내용은 여기를 참조하세요.
데이터 분석의 6 단계
문제제기 (Ask) · 준비 (Prepare) · 처리 (Process) · 분석 (Analyze) · 공유 (Share) · 실행 (Act).
Source: double-d.tistory.com
Date Published: 2/3/2022
View: 5515
데이터 분석 프로세스의 6단계 – 빅연디
데이터 분석 프로세스의 6단계 · 1. 질문: 비즈니스 과제/객관적/질문 · 2. 준비: 데이터 생성, 수집, 스토리지 및 데이터 관리 · 3. 프로세스: 데이터 정리/ …
Source: duswl.tistory.com
Date Published: 6/18/2021
View: 8554
분석의 6단계 – 네이버 블로그
식스 시그마의 중요한 방법인 DMAIC는 정의(Define), 측정(Measure), 분석(Analyze), 개선(Improve), 관리(Control)의 앞 글자를 나타낸다. 이 책에서는 …
Source: m.blog.naver.com
Date Published: 5/17/2022
View: 6710
데이터 분석 절차 – velog
데이터분석빅데이터 … 일반적인 데이터 분석의 업무 프로세스는 아래와 같다. … 데이터 수집 단계 : 분석에 필요한 데이터를 확보하는 과정
Source: velog.io
Date Published: 5/5/2022
View: 1941
2-빅데이터 처리단계 – 빅데이터 – 하둡, 하이브로 시작하기
수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계 · 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 …
Source: wikidocs.net
Date Published: 8/27/2021
View: 1095
[데이터 분석 기사] 빅데이터 분석 기획 – 빅데이터 분석 계획
4) 데이터 분석의 6단계 … 빅데이터 분석 프로세스 … 6) 분석결과 제시: 변수들 사이의 관련성을 토함한 데이터 분석결과를 해석하여 의사결정자 …
Source: kbkb456.tistory.com
Date Published: 8/27/2021
View: 9346
데이터 분석은 이렇게 합니다! – 제이펍
1단계: 목표 이해하기 · 2단계: 계획 세우기 · 3단계: 데이터 수집 및 전처리하기 · 4단계: 데이터 분석하기 · 5단계: 검증 및 평가하기 · 6단계: 시각화 및 …
Source: jpub.tistory.com
Date Published: 1/2/2021
View: 9927
데이터 분석을 위한 5단계 절차 – 브런치
우선 나의 PC에서부터 내가 속한 조직에서 데이터를 수집한다. 때로는 내가 가지고 있는 스몰데이터가 남이 가지고 있는 빅데이터보다 가치있는 경우가 …
Source: brunch.co.kr
Date Published: 6/1/2022
View: 953
주제와 관련된 이미지 빅 데이터 분석 프로세스 6 단계
주제와 관련된 더 많은 사진을 참조하십시오 5강 빅데이터 분석 방법론. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.
주제에 대한 기사 평가 빅 데이터 분석 프로세스 6 단계
- Author: 데이터人싸
- Views: 조회수 7,993회
- Likes: 좋아요 57개
- Date Published: 2020. 7. 1.
- Video Url link: https://www.youtube.com/watch?v=mMgBghJ5qwk
건설안전관리자로 성장하는 공간 :: 빅데이터 분석 프로세스란?? (경영 빅데이터 분석사 공부 中)
안녕하세요. 아프락사쓰입니다.
빅데이터의 분석이란 어떤 프로세스를 가지고 있을까요?
저와 같은 비전공자에게는 빅데이터 분석이라고하면 너무 막연하기만 합니다.
저와 같은 분들을 위하여 포스팅하였습니다.
1. 분석 프로세스의 이해
분석은 새로운 개념이 아니며 이미 오래전부터 여러 영역에서 효과적으로 활용해왔다. 일반적으로 분석은 단계적으로 진행된다. 예를 들어, 매우 분석적인 마케팅 조사의 경우 조사 목적 도출, 조사 설계, 모집단 및 표본 설계, 데이터 수집, 데이터 분석, 결과 제시 등의 단계로 진행된다. 또한 결함 발생 수를 100만 개당 3~4개 이하로 줄이고자 하는 식스 시그마 역시 매우 체계적인 과정으로서 두 가지 분석방법이 있다. 이 중 DMAIC방법론이 가장 일반적인 방법론인데, 이는 문제정의(Define), 측정(Measure), 분석(Analyze), 개선(Improve), 관리(Control)의 5단계를 거쳐 혁신 프로세스를 완료한다. 종합해 볼때 분석 프로세스는 문제의 인식에서 결과 제시까지 다음과 같이 여섯 단계로 정리 할 수 있다.
문제인식 -> 관련연구 조사 -> 모형화(변수 선정) -> 자료 수집(변수 측정) -> 자료분석 -> 결과제시
1.1 문제 인식
분석의 출발점은 문제를 인식하고 이를 해결하고자 하는 의지라 할 수 있다. 개인이나 기업이 갖고 있는 해결 과제나 현재 직면하고 있는 주요 의사결정 문제는 당연히 분석의 주제이다. 이런 주제가 자신에게 프로젝트로 주어질 수도 있고 아니면 자신이 자발적으로 해결하고자 연구가 될 수도 있다. 문제 인식 단계에서 가장 중요한 것은 문제가 무엇인지, 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지를 명확히 하는 것이다.
분석의 핵심은 인식된 문제에 대해 관련된 데이터를 수집, 분석하여 문제해결에 필요한 정보를 얻는 것이다. 이때 문제는 가설의 형태로 표현하면 문제가 명확해지며, 분석 과정을 통해 검정이 가능해진다. 일반적으로 가설이란 어떤 사실을 설명하거나 어떤 이론 체계를 검정하기 위하여 설정한 가정을 말한다. 그러나 분석을 위한 가설은 통상 변수들간의 관계에 대한 잠정적인 믿음이나 주장으로, 분석을 통하여 실행에 도움이 되는 정보 가치를 얻게 된다. 일반적으로 가설은 ‘소득 소준이 높으면 문화 소비 비용도 클 것이다’라는 형태로 표현할 수 있다.
1.2 관련연구 조사
문제가 인식되면 다음으로 관련되는 각종 문헌(논문, 책, 보고서, 잡지 등)들을 조사해야 한다. 문제와 관련되는 기존의 연구들과 저서들을 찾아 검토하고 그 내용을 요약, 분류하여 완전히 파악하는 과정을 거치면 해결하고자 하는 문제가 더욱 명확해진다. 그리고 개괄적으로 어떤 요인(변수)들이 중요하게 작용하는지를 파악할 수가 있게 된다.
여기에서 변수는 어떤 관계나 범위 아에서 여러 가지 값으로 변할 수 있는 수를 말한다. “투표결과가 이번 협상에서 중요한 변수가 될 것이다.”, “여론이 정책 결정에 변수로 등장하였다.”는 등의 예문에서와 같이 사람, 상황, 행위 등의 속성을 나타낸다. 성병, 주소, 학력, 소득수준, 출신지 등이 그 예이다. 관련된 데이터들을 모두 섭렵하는 것은 분석에서 가장 중요한 부분이며 다음 단계의 모형화(변수 선정)를 위해서 필수적이다.
요즈음 관련 데이터를 찾는 가장 쉬운 방법은 네이버, 다음, 구글과 같은 검색엔진을 활용하는 것이다. 또한 관련 서적도 검색할 수 있는데, 특히 인터넷 서점을 활용하여 관련되는 서적이나 데이터를 검색하면 크게 도움이 된다. 다양한 데이터와 연구 문헌 등의 검색 외에 전문가들과 해결해야 할 문제에 관해 상담하는 것이 필요하다 여기에서 전문가들이란 해당 문제에 대한 오랜 경험과 지식을 축적하여 문제의 해결 대안이나 아이디어를 줄수 있는 사람을 의미한다. 이상의 문제와 관련된 연구 조사과정을 거쳐 수집된 데이터의 내용들은 다 읽고 정리하면 과련 변수들을 파악 할수 있게 된다.
1.3 모형화와 변수 선정
우리가 인식한 문제들은 대부분 복잡하므로 단순화해야 해결 대안을 찾기가 쉽다. 즉 많은 변수가 포함된 문제를 그 특성을 잘 대표하는 결정적인 요소(번수)만을 추려서 그것으로 표현하면 분석이 좀 더 쉬워지는 것이다. 모형화란 복잡한 현상을 문제의 본질과 관련되는 적은 수의 변수만을 추려서 단순화하는 과정을 말한다. 여기에서 모형은 문제(연구 대상)를 의도적으로 단순화한 변수들 간의 관계이다. 또한 변수란 수로 표현 가능한 측정치들을 통칭한다. 예를 들어 성별, 소득, 몸무게, 선호하는 정도, 좋아하는 음식 등이 수치로 표현가능하고 측정 가능하면 변수라 할 수 있다.
삽화나 캐리커쳐가 의도적으로 인물의 중요한 특징(머리, 눈, 코, 입 등)을 강조하고 나머지는 무시하는 것과 같이 모형화도 문제와 관려된 주요 변수만을 선택하고 불필요한 것들은 버린다. 만약 지도를 그린다면 거리와 방향이 중요하겠지만, 지하철 노선표는 각 역과 노선별 연결이 더 중요하다. 어떤 변수를 버리고 어떤 변수를 택할 것인가는 그 변수가 문제 해결과 얼마나 직접적으로 관련이 있는가에 달려 있다. 예를 들어, 어느 쇼핑몰이 회원들에게 전자쿠폰북을 발송하는데 반응률이 낮아 쿠폰 선호대상을 찾아 ㅜ폰을 발송하고자 한다고 하자. 이때에는 수많은 회원 데이터 중에서 총구매금액에 영향을 미치는 요이들을 고려해야 하므로 평균 구매금액, 사이트 체류시간, 구매상품의 다양성 등을 분석 대상 변수로 단순화하면 분석이 한층 쉬워진다
1.4 데이터 수집과 변수 측정
선정된 변수에 의해 분석 모형이 구성되면 데이터 수집과정, 즉 변수 측정과정을 거치게 된다. 데이터를 수집하는 방법은 통상 2차 데이터 혹은 1차 데이터를 얻는 방법 두 가지에 의해 이루어진다.
먼저 2차 데이터는 다른 목적을 위해 이미 수집, 정리되어 있는 데이터로, 데이터 원천은 매우 다양하다. 예를 들어 기업의 내부 데이터, 통계청 등의 정부 간행물과 통계 데이터, 상업용 데이터, 학술 논문과 문헌 등이 2차 데이터라 할 수 있다. 많은 경우 2차 데이터를 구하면 쉽게 분석을 할 수 있지만, 2차 데이터를 통해서 자신이 선정한 변수의 측정치를 구할 수 없는 경우가 많다. 이럴 경우 1차 데이터를 구해야 하는데, 1차 데이터란 조사가가 설문조사, 관찰, 실험 등을 통하여 직접 데이터를 수집한 경우의 데이터를 말한다. 데이터 수집을 위한 두 가지 방법 중 어떤 방법을 선택하여 구체적으로 어떻게 측정할 것인가는 해결해야 하는 문제의 성격과 측정해야 하는 변수의 특징에 달려있다.
1.5 데이터 분석과 정리
분석 대상과 관련되는 변수의 데이터가 수집되면 이를 분석해야 한다. 측정하고 수집된 데이터 그 자체만으로는 아무것도 알 수가 없으므로 분석을 통해 그 속에 내재된 의미를 파악하는 것은 매우 중요한 일이다. 즉 데이터 분석이란 모아놓은 데이터에서 변수들 간의 관련성을 파악하는 것이다. 예를 들어, 유권자들의 출신지역, 연령, 학력, 소득수준 등에 따라 특정 후보에게 어떠한 투표행태를 보이는지를 파악하는 것은 유권자의 투표 성향 분석이라는 데이터 분석이라 할 수 있다.
1.6 결과 제시
분석의 마지막 단계는 분석 결과의 의미를 제시하는 단계로, 이 단계가 잘되지 않으면 그동안의 과정이 물거품이 되고 만다. 즉 데이터 분석을 통해 변수 간의 관련성이 분석되면 그 결과가 의미하는 바를 명료하게 해석하여 의사결정자에게 구체적인 주언을 하는 것이 매우 중요하다. 특히 주요 분석 결과를 간단명료하게 요약하여 어떤 의사결정이 바람직하다고 적절한 방법을 통해 제시하는 것이 필요할 것이다.
결과 제시에는 연구 과정의 개요, 결과 요약, 문제의 해결을 위한 권고 등이 포함되어야 한다. 중요한 의사결정 사안인 경우에는 관계자들이 모인 자리에서 발표와 토론을 하거나 공식적인 보고서를 작성할 수도 있고 학술적인 의의가 있는 연구라면 논문으로 발표할 수도 있다.
결과의 제시 방법 중 표의 형태로 데이터를 제시하는 것은 주의를 끌지 못하게 하는 좋지 않은 방법으로 애기되고 있다. 많은 경우 다양한 차트나 그래프를 활용하여 효과적으로 주의를 끄는 방법이 권고되고 있다. 특히 호소력을 갖는 방법으로 데이터를 기업의 문제나 목표와 직접적으로 연관된 스토리로 만들어내어 전달하는 방법이 활용되고 있다. 이때에는 청중들이 이해할 수 있는 용어로 분석 결과를 제시하는 것이 권장되고 있는데, 기업의 경우 종종 수익, 비용 절감, 투자 회수율 등의 용어가 전달력을 갖는 것으로 이해되고 있다.
저는 빅데이터를 공부하여, 1.5에서 언급된 “모아놓은 데이터에서 변수들 간의 관련성을 파악”을 하여 의사결정하는데 도움을 얻는 것을 목표로 하고 있습니다.
파이팅!
데이터 분석의 6 단계
제목만 보고 벌써 지루해졌을지도 모르겠다. 하지만 그냥 그렇구나 정도로 쉽게 훑어보면서 넘어가자. 읽고 나면 이미 여러 번 해 봤던 과정일 수도 있다.
구글에서 정의하고 있는 데이터 분석의 6단계는 다음과 같다.
문제제기 (Ask) 준비 (Prepare) 처리 (Process) 분석 (Analyze) 공유 (Share) 실행 (Act)
이름을 잘 붙여 놓았지만, 결국 문제나 목적이 있었기 때문에 데이터 준비해서 분석했고, 분석 결과를 누군가와 공유한 후에 잘했는지 못했는지 봤다는 얘기다. 여러 웹사이트를 돌아다니다 보면 일부 단계가 합쳐져 있거나 이름이 다를 수 있지만, 결국 큰 흐름에서는 별 차이가 없다.
이제 각 단계에 대해서 추가 설명을 해보자.
1. 문제제기 (Ask)
구글로 시작했으니, 구글에서 말하는 문제제기에 대한 설명을 더해보자.
해결하고자 하는 문제를 정의한다.
문제와 관련된 이해당사자들이 기대하는 바를 완전히 이해하라. 이를 위해서 그들과 지속적으로 소통하고 협업한다.
실질적인 문제에 집중하고, 그 외의 것들은 과감하게 버린다.
문제 자체에 매몰되지 말고, 한 걸음 뒤로 물러나서 전체적인 맥락을 본다.
적절한 질문을 할 줄 알아야 그 다음 단계로 넘어갈 수 있다. 회사 생활을 하면서 여러 직원들과 일을 해보았다. 일을 잘하는 직원과 그렇지 않은 직원은 안타깝게도 ‘문제정의’에서부터 차이가 난다. 동일한 문제를 놓고도 헛다리를 짚어 생각지도 못한 구석에서 끙끙거리고 있는 사람들이 한 둘이 아니다. 그러니, 당연한 이야기이지만 문제제기가 제일 중요한 단계이다. 요즘같이 언제든지 스마트폰으로 인터넷에 접속할 수 있는 세상에서는 깊이 생각하는 훈련이 모두에게 부족하다. 이와 관련하여 조훈현의 『고수의 생각법』을 읽어보길 추천한다.
2. 준비 (Prepare)
문제는 알았으니 어떤 데이터를 모아야 하는지 결정해야 한다. 대부분의 경우 데이터는 한가지가 아니고 여러 출처에서 나온 다양한 형태를 띄고 있을 것이다. 준비 단계에서는 다음과 같은 고민을 하고 수집된 데이터를 잘 정리해야 한다.
문제를 해결하기 위해 어떤 데이터를 어디에서 가지고 올 것인가
기존에 존재하는 데이터가 없다면, 어떤 방법을 통해 추가로 데이터를 확보할 것인가
확보된 데이터에서 어떤 값을 측정할 것인가
수집된 데이터를 어디에 어떻게 저장할 것인가
저장된 데이터를 어떻게 안전하게 관리할 것인가
3. 처리 (Process)
전처리라고 하면 더 와닿겠다. 이 단계에서는 실질적인 분석을 하기 전에 데이터를 가다듬는다(Clean-up). 회사의 데이터베이스에 있는 데이터이든, 공공데이터(Public Data)이든, 아니면 어떤 다른 형태의 대안데이터(Alternative Data)이든 현실 세계에서의 데이터는 대부분 불완전하다. 즉, 에러가 많이 있고, 같은 종류의 데이터에도 엉뚱한 값이 들어가 있거나 서식이 다를 수 있고, 비어 있는 값이 있을 수 있다. 그 상태에서 그대로 데이터 분석을 하면 가끔 실제와 다른 엉뚱한 결과가 나오게 되므로 전처리 과정은 필수이다. 경험이 별게 아닐 수 있지만, 경험이 있는 사수와 신입의 차이는 여기에서도 생긴다. 노련한 사람은 각 출처에서 나온 데이터에서 어디를 손봐줘야 할지 쉽게 알아차릴 수 있다. 하지만 경험이 부족한 사람의 경우 전처리에서 애를 먹는다. 다음 단계인 분석의 단계를 거쳐야 뭔가 잘못되었다는 걸 알아차리고 다시 뒤로 넘어와 데이터를 다듬다보면, 어느 새 사무실에 혼자 있는 자신을 발견하게 된다.
엑셀을 사용하고 있다면, 필터 등 기본기능을 사용하여 잘못 입력된 데이터를 찾아낸다.
:동일한 항목이 중복되어 있는지, 각 항목별 이상한 값이 들어가 있는지, 입력된 값에 스페이스가 있는지, ‘N/A’가 있는지 등등
:동일한 항목이 중복되어 있는지, 각 항목별 이상한 값이 들어가 있는지, 입력된 값에 스페이스가 있는지, ‘N/A’가 있는지 등등 SQL을 사용할 수 있다면 더 큰 사이즈의 데이터를 수정할 수 있다.
데이터 자체에 편향(Bias)이 있지 않은지 한 번 더 살펴본다.
데이터는 특정 의견이 반영되지 않은 순수한 Raw Data이어야 하고, 입력된 값들은 항목별로 통일성이 있어야 한다. 수집된 데이터의 어디를 손봐야 하는지 아는 것도 중요하지만, 문제점을 발견한 후에 어떻게 효율적으로 처리해야 하는가도 중요하므로 많은 연습이 필요하다.
4. 분석 (Analyze)
실질적으로 데이터를 가지고 이리저리 돌려보며 인사이트를 찾아내는 단계이다. 데이터를 정렬하고, 원하는 형태로 만든다.
주어진 데이터로 어떻게 성과 측정을 위한 계산을 고안해 낼 것인가
여러 데이터들을 어떻게 합쳐낼 것인가
분석된 결과물은 어떤 형태로 정리될 수 있는가
인사이트를 찾아내는 방법은 다양할 수 있다. 사람마다 차이가 있을 수도 있고, 상황에 따라 다를 수도 있다. 어떤 경우에는 ‘A-ha Moment’가 와서 유레카를 외칠 수도 있고, 어떨 때에는 내가 이 데이터를 가지고 어떤 얘기를 하고 싶은지 깊이 묵상할 때 얻기도 한다.
5. 공유 (Share)
분석된 결과가 종종 한 사람의 머릿 속을 떠나지 않을 때가 있다. 임팩트가 있어서가 아니다. 그 사람 말고는 이해를 못해서이다. 공유의 단계에서는 그걸 어떻게 효과적으로 다른 사람의 머리로 전달할지를 고민하는 단계이다.
어떻게 보여줘야 이해당사자들이 쉽게 이해할 것인가
어떻게 보여줘야 본 사람들이 더 나은 의사결정을 할 수 있을까
결론을 어떻게 강조하면 좋은가
5~6쪽짜리 워드 파일을 작성해서 보여줘야 할 때도, 1장짜리 훈민정음 요약본을 작성해야 할 때도, 다양한 형태의 파워포인트로 전달해야 할 때도 있지만, 결국은 ‘어떻게 보여줘야 하는가’에 대한 고민이다. 단순하게 빽빽한 글로만 전달하고자 한다면 의도한 바가 이루어지지 않을 수 있다. 인간은 기본적으로 자기애가 넘친다. ‘나의 시간’이 침해받는 걸 무척 싫어한다. 특히 그런 상황에 대해서 불만을 쉽게 얘기할 수 있는 윗 분들의 경우에는 더더욱 그렇다. 그러니 적절한 표와 그래프는 필수이다. 단순히 엑셀에서 제공하는 차트 기능을 사용해도 되지만, 타블로(Tableau), MS Power BI, Looker 등의 전문 Visualization Tool을 배워보자. 또는 Python이나 R에서 제공하는 Package를 사용해도 된다. 단순하게 화려하기만 하면 안된다. 언제나 스토리텔링의 선 상에 있어야 한다. 관심이 있는 사람은 원서인 『Storytelling with Data』를 읽어보기 바란다.
6. 실행 (Act)
분석된 결과를 그 분들께 보고했으니, ‘그래서 어쩌라고?’라는 질문이 나올 차례다. ‘이렇게 하시면 됩니다’라는 내용을 제시해주는 단계가 ‘실행’단계이다. ‘데이터에 의한 의사결정(Data-driven Decision)’이 이런 것입니다라고 멋있게 보여주자.
생각보다 설명이 길어졌다. 하지만 다 읽고서 알았겠지만 이미 하고 있는 것들이다. 그냥 어디가서 “데이터 분석에는 6단계의 과정이 있습니다”라고 말하고 싶다면 신경써서 보고, 아니면 그냥 넘어가도 된다.
분석의 6단계
분석은 새로운 개념이 아니며 이미 오래전부터 여러 영역에서 효과적으로 활용해왔다. 일반적으로 분석은 단계적으로 진행되는데 예를 들어 매우 분석적인 마케팅 조사는 연구 목적, 연구 설계, 표본 설계, 자료 수집, 자료 분석, 결과 제시 등의 단계로 진행된다. 또한 요즈음 많이 언급되는 식스 시그마 역시 매우 체계적인 과정으로서 기업의 모든 프로세스에서 결함 발생 수를 100만 개당 3.4개 이하로 줄이고자 하는 품질 경영 전략이다. 식스 시그마의 중요한 방법인 DMAIC는 정의(Define), 측정(Measure), 분석(Analyze), 개선(Improve), 관리(Control)의 앞 글자를 나타낸다. 이 책에서는 영역과 무관하게 누구나 적용할 수 있는 분석의 단계로서 문제의 인식에서 결과 제시까지 아래의 그림과 같은 여섯 단계를 제시한다.
문제 인식 > 관련 연구 조사 > 모형화(변수 선정) > 자료 수집(변수 측정) > 자료 분석 > 결과 제시
① 문제 인식
분석은 자신이 하고 있는 업무나 또는 관심을 갖고 있는 현상에서 문제를 인식하여 그것을 해결하고자 하는 것으로부터 시작된다. 개인이나 기업이 갖고 있는 현안 문제나 현재 직면하고 있는 주요 의사결정은 당연히 분석의 주제가 된다. 이런 주제가 자신에게 프로젝트로 주어질 수도 있고 아니면 자신이 자발적으로 해결하고자 연구를 해도 된다. 물론 순수하게 개인적인 호기심을 불러 일으키는 문제도 주제에 따라서는 충분히 분석적으로 접근할 수 있다. 문제 인식 단계에서 가장 중요한 것은 무엇일까? 그것은 문제가 무엇인지, 왜 이 문제를 해결해야 하는지, 문제 해결을 통해 무엇을 달성할 것인지를 명확히 하는 것이다.
② 관련 연구 조사
문제가 인식되면 다음으로 그 문제와 관련된 기존의 연구들을 조사해야 한다. 문제와 직간접적으로 관련된 지식을 각종 문헌(잡지, 책, 보고서, 논문 등)을 조사하면 문제를 더욱 명확히 할 수 있을 뿐만 아니라 문제와 관련된 주요 요소(변수)들을 파악할 수 있다. 여기에서 변수는 두 개 이상의 값을 가지면서 변하는 수로서 사람, 상황, 행위 등의 속성(Attribute)을 나타내는데 지능지수, 나이, 방 안 온도, 시험 성적, 애국심, 팀 응집력 등이 그 예이다. 관련된 자료들을 모두 섭렵하는 것은 분석에서 가장 중요한 부분이며 다음 단계의 모형화(변수 선정)을 위해서 필수적이다. 모든 문제 해결은 무(無)에서 이루어지는 것이 아니라 유(有), 즉 관련 자료 파악에서 시작되며 요즈음은 구글과 같은 검색엔진을 활용하면 관련된 많은 자료를 쉽게 찾을 수 있다. 그 자료들을 섭렵하여 문제와 관련된 내용들을 다 읽고 정리하여 관련 변수들을 파악해야 한다. 만약 자신의 문제와 유사한 연구를 찾았다면 그 연구 결과를 그대로 적용할 수 있는지 아니면 최소한 같은 연구 방법을 쓸 수 있는지를 검토해야 한다.
③ 모형화(변수 선정)
모형은 문제(연구 대상)를 의도적으로 단순화한 것을 말하며 모형화는 문제와 본질적으로 관련된 변수만을 추려서 재구성하는 단계이다. 우리가 인식한 문제들은 대부분 복잡하므로(변수가 많으므로) 단순화할(변수의 수를 줄일) 필요가 있다. 따라서 문제를 그 특성을 잘 대표하는 결정적인 요소만을 추려서 주요 변수로만 나타낸다면 분석이 좀 더 단순해진다. 모형화는 신문의 삽화나 캐리커처를 그리는 것과 같다. 캐리커처가 의도적으로 인물의 중요한 특징(눈, 코, 머리 등)을 강조하고 나머지는 무시하는 것과 같이 모형화도 문제와 관련된 주요 변수만을 선택하고 불필요한 것들은 버린다. 어떤 변수를 버리고 어떤 변수를 택할 것인가는 그 변수가 문제 해결과 얼마나 직접적으로 관련이 있는가에 달려 있다. 예를 들어 지도를 그릴 때 거리와 방향은 매우 중요하다. 하지만 지하철 노선표를 그리는 경우에는 각 역 간의 거리와 방향은 그리 중요하지 않다. 지하철 노선표에서는 문제 해결(지금 있는 곳에서 목적지로 가는 방법)과 관련해서 각 역 간의 거리와 방향보다는 각 역과 노선별 연결이 더 중요하기 때문이다.
④ 자료 수집(변수 측정)
변수가 선정되면 그 변수들을 측정해야 한다. 자료(Data)는 변수들의 측정치를 모은 것이다. 인식된 문제는 모형화를 통하여 주요 변수로 재구성되고 측정이라는 과정을 거치면 자료가 된다. 측정, 즉 자료를 얻는 방법은 우선 다른 사람에 의하여 이미 수집, 정리되어 있는 자료(2차 자료라고 함)를 이용할 수 있는데 2차 자료는 통계청, 공공기관 연구소 등 여러 원천에서 저렴하게 구할 수 있다. 하지만 대부분의 연구에서는 2차 자료를 통해서 자신이 선정한 변수의 측정치를 구할 수 없는 경우가 많다. 그런 경우에는 조사자가 관찰(Observation), 설문조사(Survey), 실험(Experiment)을 통하여 직접 자료를 수집한다.(1차 자료라고 함) 이 중에서 어떤 방법을 선택하여 구체적으로 어떻게 측정할 것인가는 해결해야 하는 문제의 성격과 측정해야 하는 변수의 특징에 달려 있다.
⑤ 자료 분석
자료가 수집되면 자료를 분석해야 한다. 자료는 그 자체만으로는 아무 것도 말해주지 않기 때문이다. 자료 분석이란 나열된 숫자에서 변수 간의 규칙적인 패턴, 즉 변수 간의 관련성을 파악하는 것이다. 예를 들어 유권자의 투표 성향을 분석하기 위하여 지역별, 성별, 나이별로 특정 후보에 대한 지지도를 전화를 통한 설문 조사로 수집했다고 하자. 수집된 자료에서 유권자의 투표 패턴 즉 지역, 성별, 나이 등에 따라 특정 정당 후보를 지지하는데 어떤 패턴이 있는가를 파악하는 것이 자료 분석이다. 자료 분석에서는 도표와 그래프 같은 기초적인 기법에서부터 매우 정교한 통계적 모형까지 문제의 성격이나 복잡성에 따라 다양한 기법이 사용된다.
⑥ 결과 제시
자료 분석을 통해 변수 간의 관련성이 분석되면 그 결과가 의미하는 바를 해석하여 의사결정자에게 구체적인 조언을 하는 것으로 분석 과정이 마무리된다. 결과의 제시는 주요 분석 결과를 간단명료하게 요약하여 어떤 의사결정이 바람직하다고 제시하면 된다. 중요한 의사결정 사안인 경우에는 관계자들이 모인 자리에서 발표와 토론을 하거나 공식적인 보고서를 작성할 수도 있고 학술적인 의의가 있는 연구라면 논문으로 발표할 수도 있다.
말로만 말고 숫자를 대봐 中에서… (토머스 대븐포트/김진호 지음)
2-빅데이터 처리단계
빅데이터는 다음의 5단계로 처리됩니다.
수집 데이터를 수집하는 단계 정형, 비정형, 반정형 데이터 수집
정제 수집한 데이터를 적재하기 위해 필요 없는 데이터, 깨진 데이터를 정리하는 단계 반정형, 비정형 데이터는 분석에 필요한 데이터 외에 필요 없는 부분을 제거하는 단계가 필요함
적재 정제된 데이터를 분석하기 위해 적재하는 단계 RDB, NoSQL 데이터베이스, Redshift, Druid 등의 도구에 적재
분석 적재한 데이터를 의미 있는 지표로 분석하는 단계 의사결정권자나 이용자가 사용할 수 있는 데이터로 분석하는 단계
시각화 분석한 데이터를 도표로 보여주는 단계 데이터를 이해하기 쉬운 차트로 분석하는 단계
[데이터 분석 기사] 빅데이터 분석 기획 – 빅데이터 분석 계획
반응형
분석 수행 방안 수립
1. 고려사항
1) 주어진 문제에 대하여 구체적으로 정의가 가능함
2) 필요한 데이터 존재
3) 데이터를 분석 할수 잇는 분석 역량 보유
4) 데이터 분석의 6단계
– Version1: 문제인식 -> 관련 연구조사 -> 모형화 -> 자료수집 -> 자료분석 -> 분석결과 제시
– Version2: 수집 -> 저장 -> 처리 -> 분석 -> 시각화 -> 이용 -> 폐기
2. 빅데이터 분석 프로세스
1) 문제인식: 문제가 무엇인지, 왜 이 문제를 해결해야하는지 알아야함 -> 문제는 보통 가설의 형태로 표현
2) 관련연구조사: 각종 문헌을 조사하여 문제와 관련되는 내용을 요약, 분류하고 해결하고자 하는 문제를 정의
3) 모형화: 복잡한 현상을 문제의 본질과 관련되는 제어 가능한 변수들로 추려서 단순화
4) 자료수집: 이미 수집(정리)되어있는 데이터를 가공, 조사자가 직접 관찰, 실험
– 데이터 베이스: 수집된 데이터
– 데이터 베이스의 네가지 특징(ACID): 원자성, 일관성, 고립성, 지속성
5) 자료분석: 수집 데이터를 분석하여 데이터 속에 내재된 의미 파악
– 데이터 마이닝 기법: 분류, 예측, 관련성 분석, 군집분석, 소셜네트워크 분석
6) 분석결과 제시: 변수들 사이의 관련성을 토함한 데이터 분석결과를 해석하여 의사결정자에게 제시
분석 절차 및 작업 계획 수립
1. 분석 절차 수립(NCS)
1) 도메인 이슈 도출: 데 분석하고 하는 과제 현황을 파악 -> 개선과제
– 개념의 타당성, 내용의 타당성 검토 -> 측정값들의 상관관계 추정, 그론바하 알파값을 이용 신뢰도 평가
– 문제의 주요 이슈별 개선방향 도출 -> 최종 개선방향 수립
– 빅데이터 요건 정의서 작성 -> 기획의도, 분석을 통해 개선되는 부분등이 반드시 포함되어야 함
2) 분석 목표 수립
– 개선방향에 맞는 분석 목표 수립
– 데이터 원천, 데이터 입수 난이도, 분석방법 및 개별 분석 난이도, 분석 수행주기, 성과평가 기준등을 고려
– 분석목표 정의서 작성
– 분석의 기본정보(분석목적, 우선순위, 접근 방안)
– 성과 측정 방법(정량, 정성)
– 데이터 관련정보 및 분석 타당성에 대한 검토 의견
3) 프로젝트 계획 수립
– 프로젝트 수행 계획을 수립하기 위해 사전에 자원(인력, 인프라, 예산, 기간)을 고려함
– 전체 작업분할 구조도(WBS, Work Breakdown Structure) 설계
– 프로젝트 소요비용을 배분하고 작성(인건비, 하드웨어, 소프트웨어)
– 분석목표정의서, 프로젝트 소요비용 배분계획을 중심으로 수립
– 분석과제 정의 -> 데이터 준비 및 탐색 -> 데이터 분석 모델링 및 검증 -> 산출물 정리 및 기타
4) 보유데이터 자산 확인
– 보유된 데이터들 중 어떤 시스템의 데이터, 보관 데이터중 어느 영역의 데이터를 활용할 건지 파악
– 데이터의 품질, 분량, 수집 경로, 데이터 유형등을 정리 -> 사전 전처리 수행과정 용이하게 함
– 데이터 별로 컴플라이언스 준수여부 파악
– 외부 데이터를 수집하는 경우 결로에 및 필요한 제약사항을 표기, 개인정보 제거
5) 빅데이터 분석결과 시각화
– 다양한 분석 도구를 이용하여 빅데이터 시각화 -> 결과를 보고서로 작성
2. 로드맵 설정과 작업 분할 구조도 설정
– 빅데이터 분석 프로젝트 계획 수립 밑 WBS를 작성하는 절차
– 프로젝트 소요비용 배분: 인건비, 하드웨어 비용, 소프트웨어 비용, 기타 비용
– 프로젝트 WBS 수립: 데이터 분석과제 정의 , 데이터 탐색 및 준비, 데이터 분석 모델링 및 검증, 산출물 및 기타
– 프로젝트 업무 분장 계획 및 배분: 소요기간별 투입인원, 역할 정의 , 프로젝트 필수 산출물 정의, 프로젝트 평가
반응형
데이터 분석은 이렇게 합니다!
인터넷이 일상화되고, 각종 SNS와 플랫폼을 통해 수많은 데이터가 쌓여갑니다. 그뿐만 아니라 기업과 고객, 기업과 기업, 개인과 공공 서비스의 대부분이 네트워크로 연결되면서 그 안에 가공하지 않은 원석이 가득 쌓이고 있습니다. 이를 그대로 두면 말 그대로 원석일 뿐이겠지만, 제대로 분석한다면 황금알을 낳는 거위로 변모할 수도 있습니다. 네! 이제는 그야말로 데이터 분석의 시대가 되었다고 해도 과언이 아닐 것입니다.
그러나 학교나 회사에서 데이터 분석 과정에 대해 체계적인 교육을 받은 분이라면 주어진 데이터 분석 업무를 어렵지 않게 잘 처리할 수 있겠지만, 그렇지 않은 분들이 데이터 분석 업무를 맡게 되는 경우도 많아졌습니다. ( 배운 적도 없는데, 어떻게 해? 망! @.@ ) 그래서 여기저기 알아보지만, 접해 보지 않은 툴과 외계어 같은 프로그래밍 언어를 통한 데이터 분석 방법만 가득합니다. 데이터 분석은 어떤 과정을 통해서 하는지, 어떤 도구들이 필요한지, 어떤 검증과 평가가 필요한지 데이터 분석에 대한 전 과정을 차근차근 알려주는 곳은 없었습니다.
그래서 실무 경험이 풍부한 전문가(한국과 미국에서 10여 년간의 컨설턴트 활동을 거쳐 지금은 글로벌 이커머스 회사에서 근무 중인 윤영진 님)와 학계에 계신 교수님(미국 노던일리노이대학교에서 후학 양성과 학문을 연구 중이신 황재진 님)이 의기투합하여, 데이터 분석을 하고자 하는 초보자를 위해 세상에 없던 친절한 가이드북을 준비하였습니다!
《가볍게 떠먹는 데이터 분석 프로젝트》는 데이터 분석에 관련된 기초 이론과 두 개의 케이스 스터디를 통해 데이터 분석의 전 과정을 책 한 권만으로도 충분히 파악할 수 있도록 도와줍니다.
데이터 분석 프로젝트가 무엇인지, 그 목적과 중요성, 수행 시에 고려할 사항, 준비해야 할 것들은 무엇인지를 초반부에 먼저 다루고, 이어서 다음과 같은 데이터 분석 프로젝트를 위한 필수 6단계 절차에 대해 설명합니다.
1단계: 목표 이해하기
2단계: 계획 세우기
3단계: 데이터 수집 및 전처리하기
4단계: 데이터 분석하기
5단계: 검증 및 평가하기
6단계: 시각화 및 발표
데이터 취득과 데이터 검증 및 전처리 방법, 데이터 분석 도구 소개들을 소개합니다. 이어서 효과적인 전달을 위한 데이터 시각화 차트와 대시보드 사용법을 안내합니다. 마지막으로 가상의 캐릭터를 내세워 ‘서울시 버스의 승하차 인원 분석’과 ‘온라인 쇼핑몰에서의 블랙컨슈머를 분석’하는 프로젝트를 케이스 스터디 형태로 제공합니다.
대상 독자는 다음과 같습니다.
데이터 분석을 수행해야 하는 개인이나 학생
데이터 분석 관련 프로젝트를 맡았지만 관련 배경지식이 없는 사회 초년생
데이터 분석 프로젝트를 실제로 이끌어야 하는 프로젝트 매니저나 중간 관리자
데이터 분석 결과를 조직에 반영하여 전략을 수립하고자 하는 최고 관리자 및 경영자
책은 19일에 출간될 예정입니다. 미리 살펴보시고 싶은 분은 아래의 미리보기 파일(PDF와 HTML 기반의 전자책)을 참고해 주시고, 도움이 된다고 생각된다면 예약판매 중인 서점을 꾸~욱 눌러주세요!
■ 미리 보기(앞표지, 차례, 추천사, 머리말, 감사의 글, 베타리더 후기, 1장 ‘데이터 분석 프로젝트’ 일부, 3장 ‘데이터 취득’ 일부, 8장 ‘케이스 스터디 1: 서울시 버스의 승하차 인원 분석’ 일부, 뒤표지)
가볍게떠먹는데이터분석프로젝트_sample.pdf 4.18MB
■ 예약구매 사이트(가나다순)
■ 제이펍 소식 더 보기(제이펍의 소통 채널에서 더욱 다양한 소식을 확인하세요!)
데이터 분석을 위한 5단계 절차
이번 글에서는 공공분야 데이터 분석 절차를 설명한다.
필자의 경험상, 공공데이터 분석은 통상 5가지 단계에 의하여 이루어진다. 이 단계는 폭포수 모델 처럼 순차적으로만 이루어지는 것 같지만, 실제로는 앞 단계를 반복하는 경우가 많다. 예컨대, 문제를 정의하였으나 원하는 데이터를 수집할 수 없다면 문제를 수정해야 한다. 또한, 수집한 데이터에 오류가 많아서 전처리가 불가능하다면 다시 데이터를 수집하여야 하기 때문이다.
아래 소개하는 분석 절차는 지난 글(데이터 분석으로 통찰을 얻는다)에서 소개하였던 확증적 분석 기법과 탐색적 분석 기법의 장점을 취하여 만들었다. 전반적으로 탐색적 데이터 분석 기법을 취하였지만, 명확한 분석 목표를 초기에 설정하기 위하여 일부 확증적 데이터 분석 기법을 차용하였다.
각 단계에서 수행해야 할 일은 다음과 같다.
문제 정의 단계 : 분석하고자 하는 분야를 이해하고, 해결해야 할 문제를 객관적이고 구체적으로 정의한다.
데이터 수집 단계 : 분석에 필요한 데이터 요건을 정의하고, 데이터를 확보한다.
데이터 전처리 단계 : 수집한 데이터에 존재하는 결측값이나 오류를 수정/보완한다. 경우에 따라서 데이터 구조나 특성을 변경한다.
데이터 모델링 단계: 하나의 테이블(데이터셋)이 아닌 다수의 테이블을 이용하여 분석을 하는 경우가 있다. 이러한 경우, 데이터 모델링이 필요하다.
시각화 및 탐색 단계 : 다양한 도구를 이용하여 데이터를 시각화하고, 탐색을 통하여 문제를 해결한다.
공공데이터 분석 절차
1. 문제 정의 단계 : 가장 중요하지만 가장 어려운 단계
문제는 분석의 대상이면서 분석의 목적이기도 하다. 따라서 문제가 제대로 설정되지 않으면 분석 목표가 불분명해진다. 이런 경우, 분석 과정 내내 방황하다가 성과없이 끝나기 쉽다. 나침반 없이 바다를 항해하는 것과 같기 때문이다. 데이터 분석에서 문제정의가 중요한 이유이다.
공공 분야에서 문제 정의가 어려운 이유는 다음과 같다.
많은 사람들이 공감할 만한 가치가 있는 문제를 찾아야 한다.
향후 정의된 문제 해결을 위한 구체적인 행동이 수반되어야 한다.
데이터의 제약사항(데이터 확보 가능성 등)을 극복해야 한다.
분석을 위한 전문가와 분석 기간을 확보하여야 한다.
문제 정의를 잘 하려면, 무엇보다 잘 알거나 관심이 많은 분야를 선택해야 한다(예컨대 교통, 주택 등 도메인 지식). 그리고 모든 사람들이 명료하게 이해할 수 있도록 구체적이어야 한다.
예) 서울의 교통문제는 심각한가? → 서울시민의 평균 출퇴근 시간은?
아인시타인은 이렇게 말했다.
2. 데이터 수집 단계 : 주변에서부터 온라인, 오프라인까지
주변에서부터 분석에 필요한 데이터를 찾는다. 우선 나의 PC에서부터 내가 속한 조직에서 데이터를 수집한다. 때로는 내가 가지고 있는 스몰데이터가 남이 가지고 있는 빅데이터보다 가치있는 경우가 있다.
최근에 공공기관을 중심으로 데이터를 공개하는 곳이 많이 있다. 온라인에서 데이터 수집이 가능한 곳을 분야별로 소개한다.
[전체]공공데이터 포털 : https://www.data.go.kr/
서울시 열린데이터 광장 : http://data.seoul.go.kr/
[행정]주민등록 인구통계 : http://27.101.213.4/
지방행정 데이터 : http://localdata.kr/
[지도]국가 공간정보 포털 : http://www.nsdi.go.kr/
[건축]건축데이터 민간 개방 시스템 : http://open.eais.go.kr/
국가공간정보포털 : http://data.nsdi.go.kr/dataset
등기정보광장 : https://data.iros.go.kr/
[기상]기상 자료 개방 포털 : https://data.kma.go.kr/
[관광]TourAPI : http://api.visitkorea.or.kr
[농림]농림축산부 : http://www.mafra.go.kr/mafra/322/subview.do
[금융]금융빅데이터 개방 시스템 : https://credb.kcredit.or.kr/
금융데이터 거래소 : https://www.findatamall.or.kr/
[치안]경찰청 공공 데이터 개방 : https://www.police.go.kr/portal/main/contents.do?menuNo=200527
[문화]문화 데이터 광장 : https://www.culture.go.kr/data/
[복지]보건복지 데이터 포털 : https://data.kihasa.re.kr
[교통]국가 교통 DB : https://www.ktdb.go.k
교통사고 분석 시스템 : http://taas.koroad.or.kr/
[전기]전력데이터 개발 포털시스템 : https://bigdata.kepco.co.kr/
[기타]데이터 스토어 : https://www.datastore.or.kr/
SKT 빅데이터 허브 : https://www.bigdatahub.co.kr/
데이터의 저작권과 개인정보 이슈 때문에 온라인상 데이터 제공에 한계가 있는 경우가 있다. 이러한 이유로 일부 기관에서는 오프라인상에서 데이터를 제공하기도 한다. 이런 경우, 분석가는 그 기관을 직접 방문하여 데이터를 열람할 수 있으며 분석결과만 가지고 나올 수 있다. 원본 데이터는 반출이 금지된다.
서울시 빅데이터캠퍼스(https://bigdata.seoul.go.kr)
서울시 빅데이터 캠퍼스
통계 빅데이터센터(https://data.kostat.go.kr/)
통계 빅데이터센터
3. 데이터 전처리 단계 : 가장 많은 수고가 필요한 단계
“데이터 과학의 80%는 데이터 클리닝에 소비되고, 나머지 20%는 데이터 클리닝하는 시간을 불평하는데 쓰인다” – Kaggle 창림자 Anthony Goldbloom
데이터 전처리는 힘든 과정이다
분석을 위하여 수집한 데이터가 바로 분석에 쓰이는 경우는 거의 없다. 누락된 항목이 있거나 분석에 부적합한 구조이거나.. 전처리가 필요한 경우가 대부분이다. 이는 데이터 생성시에 분석을 전제하지 않았기 때문으로, 데이터 전처리는 데이터 분석 과정에서 가장 많은 노력이 투입되는 단계이다.
아래는 몇가지의 전처리 사례이다.
중복값 제거
결측값 보정
데이터 연계/통합
데이터 구조 변경 : tidy data 참조
4. 데이터 모델링 단계 : 관점별로 나누고 쪼개어 보기
분석의 규모가 커지게 되면 여러개의 데이터 테이블을 이용하게 된다(하나의 테이블에 모든 데이터를 기록하는 것은 데이터 무결성 유지와 저장 공간 확보 차원에서도 바람직하지 않다)
다수의 테이블을 연계하는 행위를 관계 설정이라고 하고 모델링이라고도 부른다. 모델링 기법으로 많이 알려진 방법중 하나는 스타 스키마이다. 스타 스키마라는 이름은 스키마 다이어그램이 별(star) 모양이라 해서 붙여진 이름으로, 한 개의 사실(fact) 테이블과 여러개의 차원(dimension)로 구성되어 있다. 사실 테이블은 핵심적인 사실(사건, 거래 등의 관측값)의 기록으로 이루어지며, 차원 테이블은 추가적인 사실(일시, 장소 등)의 기록으로 이루어지는게 보통이다. 각 테이블은 공통의 키 컬럼을 이용하여 연결된다.
앞서 분석은 나누고 쪼개는 과정이라고 하였다. 데이터 분석 과정에서 분석 대상을 나누고 쪼개면서 그 결과를 사실 테이블과 차원 테이블로 구성하는 것이 모델링의 핵심이다.
아래 그림은 교통사고를 분석하기 위한 데이터 모델링 예시이다.교통사고 사건 데이터를 사실 테이블로 배치하고 사고일시, 사고장소, 사고차량 등 추가적 관점은 차원 테이블로 배치하였다.
스타스키마 모델링 기법
5. 시각화 및 탐색 단계 : 패턴을 찾고 인사이트를 얻기
구슬이 서밀이라도 꿰어야 보배 – 한국속담
시각화 및 탐색 단계는 문제 정의 단계에서 정의한 문제에 대한 답을 찾는 단계이다.
대부분의 데이터는 숫자와 문자로 이루어져 있다.
사람의 인지 능력은 한계가 있기 때문에, 한번에 많은 양의 데이터(숫자와 문자)를 받아들이고 해석할 수 없다.
데이터 시각화는 대량의 데이터를 요약하고 사람이 판단하기 쉬운 형태의 이미지로 표현함하여 데이터 안에 숨겨진 유의미한 인사이트를 발견할 수 있도록 도와준다.
아래 그림은 ‘서울의 미세먼지 농도 변화 추이’를 시각화한 결과이다.
변화 추이를 확인하기 위하여 10년간의 데이터를 수집하여 전처리 한 결과, 파일 사이즈는 73MByte에 달하고 이를 A4용지로 출력하면 61,428매가 필요한 규모이다(왼쪽의 그림). 아무리 인지능력과 기억력이 뛰어난 사람이더라도 이 텍스트 데이터만 가지고 변화추이를 파악하는건 불가능하다.
하지만 오른쪽 그림처럼 데이터를 요약하여 그래프로 표시하면 이야기가 달라진다. 방대한 양의 데이터가 한장의 차트로 요약되어 단번에 파악 가능하게 된다(미세먼지는 감소 추세이며, 초미세먼지는 증가 추세이다)
서울의 10년간(2009년~2018년) 미세먼지 농도 변화 추이
데이터 시각화 및 탐색 단계에서 데이터를 요약하고 설명하는 방법으로 기술 통계(Descriptive statistics)를 많이 사용한다. 기술 통계는 수집한 데이터를 요약, 묘사, 설명하는 통계 기법으로 데이터의 대표값(평균, 중위값, 최빈값 등.. 중심 경향이라고도 한다) 및 분포 등을 이용한다.
아래의 그림은 서울의 과거 10년간(2009년~2018년) 미세먼지 농도 분포를 박스플롯으로 시각화한 그림이다. 위의 그림과 동일한 데이터를 이용했지만, 다른 방법으로 시각화/탐색을 하였기에 새로운 인사이트를 얻을 수 있다(2015년의 미세먼지 분포를 확인해 보라)
서울의 연도별 미세먼지 분포
키워드에 대한 정보 빅 데이터 분석 프로세스 6 단계
다음은 Bing에서 빅 데이터 분석 프로세스 6 단계 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.
이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!
사람들이 주제에 대해 자주 검색하는 키워드 5강 빅데이터 분석 방법론
- 동영상
- 공유
- 카메라폰
- 동영상폰
- 무료
- 올리기
5강 #빅데이터 #분석 #방법론
YouTube에서 빅 데이터 분석 프로세스 6 단계 주제의 다른 동영상 보기
주제에 대한 기사를 시청해 주셔서 감사합니다 5강 빅데이터 분석 방법론 | 빅 데이터 분석 프로세스 6 단계, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.