데이터 분석 프로젝트 | [프로젝트발표영상] 배달 매출 예측 분석 최근 답변 116개

당신은 주제를 찾고 있습니까 “데이터 분석 프로젝트 – [프로젝트발표영상] 배달 매출 예측 분석“? 다음 카테고리의 웹사이트 https://you.experience-porthcawl.com 에서 귀하의 모든 질문에 답변해 드립니다: https://you.experience-porthcawl.com/blog. 바로 아래에서 답을 찾을 수 있습니다. 작성자 SKplanet Tacademy 이(가) 작성한 기사에는 조회수 1,398회 및 좋아요 20개 개의 좋아요가 있습니다.

데이터 분석 프로젝트 주제에 대한 동영상 보기

여기에서 이 주제에 대한 비디오를 시청하십시오. 주의 깊게 살펴보고 읽고 있는 내용에 대한 피드백을 제공하세요!

d여기에서 [프로젝트발표영상] 배달 매출 예측 분석 – 데이터 분석 프로젝트 주제에 대한 세부정보를 참조하세요

배달 매출 데이터를 바탕으로 일주일 간의 매출을 예측하는 서비스를 기획
2020년 1월~5월의 시계열 데이터를 바탕으로 6월 한주의 매출을 예측하는 시스템이며,
배달 매출 예측도 상승을 위해 2가지의 계층 구조를 만들어서 예측 모델링을 수행
팀명 : 웰치스
멤버 : 이범주, 정수경
2021.11.18일 진행된 혁신성장청년인재양성사업 성과발표회 발표 영상입니다.

데이터 분석 프로젝트 주제에 대한 자세한 내용은 여기를 참조하세요.

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 …

이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고 …

+ 더 읽기

Source: magicode.tistory.com

Date Published: 2/29/2021

View: 4848

가볍게 떠먹는 데이터 분석 프로젝트윤영진 | 제이펍- 교보문고

이 책은 데이터를 활용한 분석 프로젝트 수행을 위한 방법론, 실전 기술, 그리고 예상되는 문제 해결을 다룹니다. 즉, 데이터 분석 업무의 시작에서 보고서 작성법까지 …

+ 여기에 표시

Source: www.kyobobook.co.kr

Date Published: 11/8/2022

View: 1671

실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기

실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기. 현직자와 함께하는 데이터직무 5주 인턴 · 직접 경험하는 것보다 · 데이터 1~3년차 현직자 안네스 멘토입니다.

+ 여기에 자세히 보기

Source: comento.kr

Date Published: 12/4/2022

View: 7445

[2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝 …

[2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 …

+ 여기를 클릭

Source: dataonair.or.kr

Date Published: 3/15/2021

View: 2266

사이드 프로젝트 도전기: ③데이터 분석을 통해 발전하기 – 요즘IT

사이드 프로젝트에 데이터 분석이 필요한 이유. “여러분은 사이드 프로젝트를 열심히 진행하여 결국 서비스를 완성했습니다. 아마 큰 성취감을 느끼며 …

+ 여기에 표시

Source: yozm.wishket.com

Date Published: 12/29/2021

View: 4097

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ …

원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요? 그럼 이번을 기회로,. 마케팅 가설이나 주장에 대해서 힘을 실어줄 수 …

+ 자세한 내용은 여기를 클릭하십시오

Source: soa-park.tistory.com

Date Published: 7/21/2021

View: 8925

공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1) – velog

프로젝트 1. 국내 코로나 환자 데이터 분석하기 ‍⚕️ seaborn 으로 countplot, 그리고 folium 으로 지도에 확진자 marker까지.

+ 여기에 표시

Source: velog.io

Date Published: 6/24/2022

View: 8682

가볍게 떠먹는 데이터 분석 프로젝트 – YES24

가볍게 떠먹는 데이터 분석 프로젝트. : 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정. 윤영진,황재진 저 | 제이펍 | 2021년 11월 19일 저자/출판사 …

+ 자세한 내용은 여기를 클릭하십시오

Source: www.yes24.com

Date Published: 2/7/2022

View: 5374

Top 31 데이터 분석 프로젝트 Trust The Answer

Most searched keywords: Whether you are looking for 내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 …

+ 여기에 자세히 보기

Source: toplist.pilgrimjournalist.com

Date Published: 10/13/2021

View: 8868

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 …

이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 …

+ 여기를 클릭

Source: jerrys-ai-lab.tistory.com

Date Published: 1/26/2021

View: 6817

주제와 관련된 이미지 데이터 분석 프로젝트

주제와 관련된 더 많은 사진을 참조하십시오 [프로젝트발표영상] 배달 매출 예측 분석. 댓글에서 더 많은 관련 이미지를 보거나 필요한 경우 더 많은 관련 기사를 볼 수 있습니다.

[프로젝트발표영상] 배달 매출 예측 분석
[프로젝트발표영상] 배달 매출 예측 분석

주제에 대한 기사 평가 데이터 분석 프로젝트

  • Author: SKplanet Tacademy
  • Views: 조회수 1,398회
  • Likes: 좋아요 20개
  • Date Published: 2022. 2. 6.
  • Video Url link: https://www.youtube.com/watch?v=ukeIsaagLBI

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데

이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다.

프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고하면 된다.

[빅데이터 프로젝트] – 빅데이터 프로젝트 1. 주제 선정 회의

데이터세트 구하기

학생때 머신러닝프로젝트를 하면서 가장 어려움을 겪는 부분은 주어지는 공공데이터가 매우 제한적이라는 점이다.

공공데이터 포털에 있는 데이터를 이용하는것도 좋은 방법이고, 특허처럼 특정 홈페이지에서 엑셀로 다운받을 수 있는 데이터가 있다면 그것을 이용하는 것도 좋은 방법이지만 다른 사람들과 데이터가 겹치지 않았으면 좋겠다면 kaggle을 이용하는것도 하나의 방법이 될 수 있다.

kaggle은 머신러닝, 딥러닝을 하는 사람들이 이용하는 사이트다.

캐글에 구글아이디로 로그인을 하면 현재 경합중인 머신러닝 프로젝트 주제들을 확인할 수 있다.

물론 경합이 끝난 주제들도 볼 수 있다.

이곳에서 마음에 드는 주제를 골라 데이터를 다운받고 직접 코드를 작성해보는것도 좋다.

뻔한 주제들도 있지만 뻔하지 않은 주제들도 있기 때문에 공공데이터만 활용하는 것보다 더 다양한 주제를 접할 수 있다.

캐글에서 주제를 확인하고 데이터를 다운받는 방법을 아래와 같다.

Overview에 있는 Description을 통해 주제가 무엇인지, 원하는 결과물은 어떤건지, 데이터는 어떻게 수집되었는지를 확인할 수 있다.

데이터분석을 할 때 이 배경지식들은 은근히 중요한 부분이기 때문에 꼼꼼히 읽어봐야한다.

영어로 되어있어도 당황하지 말고 구글 번역기를 이용하면 된다.

Data에 들어가서 데이터세트에 대한 설명을 확인할 수 있고, 대부분 빨간박스에 있는 .csv파일을 다운받아서 사용하면 된다.

다만 주제에 따라 csv파일이 아니라 다른 파일들이 주어지는 경우도 있기 때문에 어떤 파일을 사용해야할지 모르겠을 때는 Download All버튼을 눌러 모두 다운로드 해주면 된다.

내가 진행할 머신러닝 프로젝트 주제를 kaggle에서 가져오면 또 다른 좋은 점은 다른사람들이 올려둔 완성된 코드를 볼 수 있다는 점이다.

사실 프로젝트를 진행하면서 다른 사람의 코드를 보며 복사 붙여넣기를 하는 것은 실력향상에 큰 도움은 안되지만 마감이 빡빡한 경우에는 유용하게 참고할 수 있다.

Code 탭에 들어가서 우측 정렬을 Most Votes로 두면 가장 많은 좋아요를 받은 코드를 확인할 수 있다.

이 코드보기는 현재 경합이 진행중인 주제로 했을 경우에도 확인할 수 있다.

정말 친절하게 모든 코드가 나와있으니 참고하면 좋을 것 같다.

프로젝트 주제

1. 물류센터용 택배박스 분류 모델

목표 : 주소지가 섞여있는 택배를 배달하기 좋은 최적의 그룹으로 자동분류하는 모델

데이터 : 공공데이터 중에 전국 주소지를 포함하고 있는 데이터 아무거나 (굳이 집주소가 아니여도 되기 때문에 상가 주소여도 가능)

결과 : 자동 분류 된 번호 및 시각화(분류번호별 개수 / 지역별 분포도 등)

2. 특허데이터 분석을 통한 기업분석

목표 : 특허를 보유하고 있는 기업 분석을 통해 우리가 몰랐던 강소기업 발굴

데이터 : 특허청에서 특정 특허를 보유하고 있는 회사 리스트

결과 : 특정 특허를 보유하고 있는 회사 발견. 취준생, 투자자 등에게 기업정보 제공 가능

>> 이 프로젝트는 내가 직접 해본 프로젝트로 당시 빅데이터 수업을 듣는 모든 취준생들에게 빅데이터 관련 회사를 추천해주는 것이 목적이었고, 빅데이터 특허를 보유하고 있는 기업을 분석해본 결과 기업 업종이 IT산업뿐만 아니라 교육, 의료, 화학 등 다양한 업종에서도 빅데이터 특허를 출원했고 관련 기술자가 필요할것이라는 인사이트를 얻었다.

3. 물건판매 매장의 다음달 총 매출 예측

목표 : 물건판매 매장의 다음달 총 매출 예측

데이터 : https://www.kaggle.com/c/competitive-data-science-predict-future-sales 캐글에서 확인 가능

결과 : 과거 판매 데이터를 가지고 예측모델을 만들어 매월 변경되는 제품목록에 대해 총 매출액 예측

4. 코로나가 디지털학습에 미치는 영향 분석

목표 : 1) 디지털 학습 현황 분석 2)지역, 정책, 인구밀집에 따른 디지털 학습 차이 분석

데이터 : https://www.kaggle.com/c/learnplatform-covid19-impact-on-digital-learning 캐글에서 확인 가능

결과 :

디지털 학습 현황은 어떤가?

코로나가 디지털학습에 미치는 영향은?

인종, 민족, 지역, 인구밀집별 온라인 플랫폼 참여학생간의 차이?

정책 및 정부의 개입이 디지털학습에 미치는 영향?

가볍게 떠먹는 데이터 분석 프로젝트 – 교보문고

데이터 분석과 관련된실무 프로젝트를 진행하기 위한 방법론과 실제 케이스를 다룬 책이다.이 책은 분석과 관련된 기술이나 알고리즘을 다루기 보다는 분석과 관련된 실무 프로젝트를 원할히 수행하기 위한 가이드로써 데이터 과학자보다는 실무 프로젝트 총괄 책임자, PM, 팀장, 기획자, CEO에게 적합한 책이다.국내외에서 주로 활용되는 데이터 분석 방법론 중 하나인 CRISP-DM 표준 방법론을 중심으로 이론을 펼치되 이를 최대한 쉽게 이해할 수 있도록 구성한 것이 특징이며 마지막장에서 케이스 스터디 2가지 사례를 다루고 있어 데이터 분석 경험이 적은 초보자가 이해하기에도 적합한 책이다.책에서 제시하는 데이터 분석의 뼈대는6단계로 구성된다. 아래 그림과 같이 목표를 이해하고 이를 기반으로 한 계획을 수립한 후 수집 및 전처리를 진행한다. 이어 본격적인 분석에 돌입한 후 결과를 검증하며 시각화를 통해 의사결정과 당초 목표에 대한 솔루션을 제시하는 것이 큰 흐름이다.비유하자면 프로그래밍에 S/W공학론이 존재하듯 데이터 분석계의S/W공학론 같은 느낌이다. 전적으로 프로젝트를 원할히 운영할 수 있는 전체 그림을 제시하는 것이 책의 차별화된 부분이며 각 단계의 세부 업무 수행은 데이터 사이언티스트나 엔지니어 혹은 분석가들이 수행하게 될텐데 이를 위한 알고리즘 수준의 기술은 극히 일부를 제외하고는 다루지 않는다.AI, 알파고가 이슈가 된 이후 이 분야에 뛰어드는 사람들은 주로 딥러닝의 성능개선 혹은 알고리즘 기술이나 적어도 머신러닝의 알고리즘에 집중하는 경향이 많은데 어쨌든 이런 기술 또한 수익 혹은 가치 창출과 연결되어야 할 피치 못할 숙명에 처해있기에 프로젝트를 진행하지 않을 수 없다. 이는 이 책이 필요한 이유이기도 하다.책은 전반적으로 앞서 소개한 6단계의 구성을 차례차례 짚어 나간다. 전체적인 큰 흐름은 2장에 자세히 소개되어 있으며 1장은 주로 데이터 분석의 필요성과 개요를 다루고 있으므로 가볍게 읽으면 된다.본격적인 내용은 3장부터 진행되는데 데이터수집혹은 취득을 다루는 것으로 시작한다. 책을 읽으며 데이터의 수집처가 생각보다 매우 다양하다는 것을 알게 되었다.내부 데이터 출처원으로는 사내 ERP, CRM, POS, 문서, 기타 애플리케이션이 해당된다. 외부데이터로는 SNS, 공공 데이터, 포털데이터 등 매우 다양한 데이터 출처원이 존재한다. 책에서 이런 부분들이 꼼꼼하게 잘 정리되어 있어 실무 프로젝트에 있어 단계별 누락요소는 없는지체크리스트로 활용해도 괜찮겠다는 생각이 들었다.4장에서는 검증 및 전처리를 다룬다. 데이터의 유형별 모든 검증을 다루고 있진 않지만 적어도 Tabular 성격의 데이터에서 빈번하게 활용되는 검증 방법을 꽤 자세하게 다루고 있다.이어 전처리로 이상치, 결측치에 대한 처리 방법이 나오는데 적어도 빈번히 활용되는 MCAR, MAR, NMAR 등의 통계적 데이터 성격에 따른 결측치 처리 방법도 소개되고 있어 기본은 잘 갖추고 있다 판단된다.5장은 데이터 분석을 위한10가지 분석도구의 특징 및 장단점을 소개한다. 엑셀을 시작으로 가장 핫한 R, Python 등 그 외에도 태블로와 같은 BI 도구들도 다룬다. 다만 분석 기법이나 알고리즘에 관한 설명은 생략되어 있어 조금 아쉽기도 하다. 철저히 프로젝트와 관련된 거시적 흐름에 집중하는 구성이다.6장은 시각화를 다룬다. 특히 시각화 시 실무에서유의해야 할 유형과 함정에 대해 잘 정리되어 있다. 시각화 전체를 다루고 있는 것은 아니지만 적어도 가장 중요한 부분들이 잘 정리되어 있어 이 책에서 다루는 내용만 잘 이해해도 파레토 법칙의 80%는 달성할 수 있다고 본다.7장은대시보드를 구성하는 전략이 소개된다. 전략적, 분석, 운영 대시보드별 특징이 소개되고 사내에서 중요시 여겨지는 지표 등을 직관적으로 파악하기에 어떤 대시보드의 구성을 가져가는 것이 좋을지 방법이 소개된다.마지막 8장과 9장에서는케이스스터디로 실무 분석 사례를 다룬다. 8장은 서울시 버스 승하차 인원을 분석하여 교통 혼잡 비용을 줄이려는 프로젝트로 매우 기초적인 엑셀을 통한 기술 통계 위주의 분석을 다루고 있다.매우 기초적인 내용이기에 분석이 묘를 얻기는 어렵지만 대학 학부 수준의 프로젝트에 적용해보고 분석 프로젝트의 큰 흐름을 잡기에는 나쁘지 않은 입문 예제로 보인다.9장은 온라인 쇼핑몰의 블랙컨슈머를 파악하기 위한 분석을 시도하는데 8장보다는 약간 난이도가 있다. 시나리오나 가설이 등장하며 SQL을 도구로 활용하고 이를 검증하는 절차도 있다.하지만 역시 매우 기초적인 수준이다. 적어도 통계적으로 분포를 다루는 문제나 귀무 가설 정도 다루는 예제가 추가로 소개되었다면 더욱 좋겠다는 생각이 들었다. 혹은 머신러닝 기법으로 추론, 예측을 진행하는 프로젝트가 같이 소개되었다면 유익했을텐데 독자층을 철저히 입문 수준으로 제한한 것 같다.어쨌든 이 책은 데이터 분석 프로젝트를 처음으로 임하는 이에게 가장 적합한 책이라는 생각이 든다. 또, 깊숙한 실무를 진행할 필요가 없는 기획자나 총괄 책임자가 프로젝트의 큰 흐름을 빠르게 이해하고자 할 때 좋은 가이드가 될 것이다.책소개 – 가볍게 떠먹는 데이터 분석 프로젝트

사이드 프로젝트 도전기: ③데이터 분석을 통해 발전하기

최근 들어 사이드 프로젝트를 하는 직장인이 점차 많아지고 있습니다. 스타트업에 다니는 주변 지인들도 대부분 사이드 프로젝트를 진행하고 있고, 저 역시 팀을 모아서 사이드 프로젝트를 운영하고 있습니다.

프로젝트를 진행하는 과정에서 많은 인사이트를 얻고 있는데, 지난번에는 서비스를 만들 때 저희가 어떤 기준으로 개발 스택을 결정했는지 소개하면서 프로젝트의 목적과 스택 선택의 중요성에 대해 살펴보았습니다. 시리즈의 마지막으로 오늘은 출시 이후 어떻게 데이터를 확인하고 서비스를 발전해 나가야 하는지 이야기해보려 합니다.

서비스 HYDE의 로고.

1. 사이드 프로젝트에 데이터 분석이 필요한 이유

“여러분은 사이드 프로젝트를 열심히 진행하여 결국 서비스를 완성했습니다. 아마 큰 성취감을 느끼며 그동안의 노력이 머릿속을 스쳐 지나갈 것입니다. 그러나 완성의 기쁨도 잠시, 지인들로 인해 초기에 몰렸던 이용자는 금방 빠져나가고 서비스에 대한 애정과 의욕은 점차 식어갑니다.”

실제로 많은 사이드 프로젝트는 출시 이후에 금방 종료됩니다. 서비스 제작에 힘을 너무 많이 쏟았기 때문일 수도 있고, 완성 이후에 어떻게 해야 할지 갈피를 잡지 못해서일 수도 있습니다. 프로젝트가 종료되는 원인은 다양하지만 결국 중요한 것은 사용성을 개선하며 꾸준히 서비스를 유지하기가 매우 어렵다는 것입니다.

이런 상황에서 필요한 것이 바로 데이터입니다. 서비스 출시 이후 갈팡질팡하는 우리에게 데이터는 나침반과도 같습니다. 데이터는 사용자들이 어떤 행동을 취하고, 어떤 기능을 좋아하는지 알려줍니다. 우리는 분석된 데이터를 통해서 어떤 사람들이 우리의 서비스를 사용하는지, 그리고 유저들이 어떤 기능을 필요로 하는지 알 수 있습니다. 이러한 결과를 토대로 핵심 유저를 설정하고 새롭게 기능을 추가한다면 더 많은 사용자가 유입되어 프로젝트에 새로운 활력을 불어넣어 줄 것입니다.

HYDE의 구글 애널리틱스(GA) 보고서. 설치만으로 많은 정보를 확인할 수 있다.

2. 데이터 수집 툴 선택하기

데이터의 필요성을 깨달았다면, 데이터 수집 방법을 결정할 차례입니다. 우선 가장 기본적으로 활용할 수 있는 것은 서비스 데이터베이스에 있는 정보입니다. 우리는 따로 코드를 작성하지 않더라도 데이터베이스를 통해 가입된 유저 수와 업로드된 포스트 등을 쉽게 확인할 수 있습니다. 특히 데이터베이스의 정보를 편리하고 깔끔하게 확인하기 위한 도구도 많이 존재합니다. 저희 팀은 ‘몽고디비(MongoDB)’를 사용하고 있으며, 해당 툴에서 제공하는 차트 기능을 활용하고 있습니다.

그러나 데이터베이스만으로는 충분한 정보를 확인하기 어렵습니다. ‘유저가 어떤 페이지에 접속’했고 ‘어떤 버튼을 클릭했는지’ 등과 같은 로그 데이터는 보통 데이터베이스에 저장되지 않기 때문입니다. 데이터베이스를 아예 사용하지 않는 랜딩페이지나 간단한 서비스에서도 유저 로그가 필요한 것은 마찬가지입니다.

유저 로그 분석에 사용되는 대표적인 서비스로는 ‘구글 애널리틱스(Google Analytics, GA)’가 있습니다. 구글 애널리틱스는 웹사이트 방문자의 데이터를 수집 및 분석함으로써 온라인 비즈니스의 성과를 측정하고 개선하는 데 사용되는 웹로그 분석 도구입니다. 서비스에 한두 줄 정도의 코드만 심어두면 기본적인 유저의 접속 기록과 체류시간 등을 확인할 수 있는데, 이러한 편리성으로 인해 전 세계적으로 가장 널리 사용되는 분석 툴이 되었습니다. 추가로 더 상세한 분석이 필요하다면 원하는 이벤트를 별도로 추적하거나 보고서를 맞춤 설정할 수도 있습니다.

구글 애널리틱스가 상대적으로 웹 중심적인 도구라면 앱 서비스에 특화된 도구에는 ‘파이어베이스(Firebase)’가 있습니다. 파이어베이스 역시 구글 애널리틱스와 마찬가지로 설치 방법이 간단하며, 파이어베이스 애널리틱스를 통해 일간 활성 유저 및 리텐션 정보 등을 쉽게 확인할 수 있습니다. 추가로 파이어베이스는 저장소의 역할을 하거나 A/B 테스트 및 인앱 메시지 기능을 무료로 제공하고 있어서, 많은 앱 개발자들이 가장 선호하는 도구로 꼽힙니다.

저희 팀은 위에서 언급한 세 가지 방법으로 데이터를 수집하고 있는데, 위에 예시로 든 도구 외에도 사용 가능한 애널리틱스 서비스는 무수히 많이 존재합니다. 예를 들어 핫자(Hotjar)를 사용하면 히트맵 방식으로 유저가 어디까지 스크롤을 내렸고 얼마나 많은 유저가 특정 버튼을 눌렀는지 등을 확인할 수 있으며, 앰플리튜드(Amplitude)를 사용하면 퍼널 및 리텐션 분석 등을 다양한 차트로 파악할 수 있습니다. 단, 앰플리튜드는 연 사용료가 천만 원이 넘기에 사이드 프로젝트에서 많이 사용되지는 않는 편입니다.

HYDE의 데이터로 만든 몽고디비 차트. 이를 기반으로 기획과 마케팅을 진행한다.

3. 데이터 분석하기

우선 저희 팀은 데이터베이스에 저장된 정보를 통해 핵심 유저를 파악했습니다. 저희가 운영 중인 부캐(취미/관심사) 관리 앱 ‘HYDE’는 프로필을 생성할 때 부캐에 대한 카테고리를 입력해야 합니다. 이때 어떤 카테고리의 유저가 가장 많은지 확인하여 핵심 유저를 파악하고 있습니다. 몽고 차트를 통해 분석해본 결과 저희 서비스 내에서 ‘자기 계발’을 관리하는 유저가 가장 많았으며, 그 뒤를 ‘스포츠’, ‘문화생활’, ‘여행’ 카테고리가 차지했습니다. 세부 카테고리 기준으로는 ‘공부’, ‘외국어’, ‘해외여행’, ‘사이드 프로젝트’ 순서로 많이 관리한다는 사실을 확인할 수 있었습니다.

저희는 핵심 유저를 파악한 후, 해당 유저들이 가장 많이 사용하는 기능과 행동을 분석하고 이를 개선하기 위해 노력했습니다. 일례로 데이터베이스 분석을 통해 자기 계발 카테고리를 가진 유저들 중 부캐 관리를 위한 여러 템플릿 중에서 날짜 기반 종류를 선호하는 사실을 파악한 적이 있습니다. 이 데이터를 바탕으로 여러 업무 중에서 날짜 템플릿의 사용성 개선에 더욱 높은 우선순위를 부여하기도 했습니다.

데이터 분석으로 도출한 핵심 유저는 마케팅에서도 중요한 역할을 하고 있습니다. 보통 사이드 프로젝트는 광고에 사용할 수 있는 금액이 적다 보니 효율적인 마케팅이 매우 중요합니다. 이때 핵심 유저를 제대로 파악하고 있다면 광범위한 유저를 타깃 할 때보다 적은 금액으로 성과를 낼 수 있는 것입니다. 실제로 저희도 넓은 범위로 마케팅할 때와 비교하여 자기 계발과 공부 등을 키워드로 광고를 집행할 때 더욱 낮은 CPC(Cost per click, 클릭 당 비용)를 달성할 수 있었습니다.

이외에도 광고의 성과를 확인하거나 유저의 불편함을 파악하는 측면에서 데이터는 유용하게 사용됩니다. 우선 랜딩페이지에 애널리틱스 도구가 설치되어 있다면 얼마나 많은 유저가 어떤 경로로 방문했는지 확인이 가능합니다. 프로젝트의 마케터는 이러한 정보를 통해 유입 효율이 좋은 채널로 마케팅 전략을 수정할 수 있습니다. 또한 유저가 언제 이탈하는지 파악한다면 어떤 과정의 기능을 개선해야 하는지도 파악이 가능합니다.

(출처: Unsplash)

사이드 프로젝트의 성공을 기원하며

앞서 말한 내용을 종합하여, 저희가 데이터를 수집하고 활용하는 과정을 정리해보자면 다음과 같습니다.

Q. 사이드 프로젝트에도 데이터 분석이 필요한가?

A. 필요하다. 적절한 데이터는 서비스 완성 후 어떤 방향으로 나아가야 할지 방향성을 제시해 준다.

Q. 어떻게 데이터를 수집할 것인가?

A. 데이터베이스에 쌓인 정보를 바탕으로 분석한다. 추가로 구글 애널리틱스와 파이어베이스를 통해 유저 로그를 수집 및 분석한다.

Q. 분석한 데이터를 어떻게 활용할 것인가?

A. 핵심 유저를 설정하고 타깃 유저가 사용하는 기능과 행동을 파악한다. 이를 기반으로 사용성을 개선하거나 새로운 기능을 기획한다. 또한 명확한 타깃 설정은 마케팅 효율화에도 유용하다.

시리즈의 마지막 글을 통해 ‘사이드 프로젝트에서 데이터를 분석하는 방법’에 대해 살펴보았습니다. 비록 저희 서비스가 출시된 지 두 달이 채 안 되었지만, 데이터를 확인하며 진행한 덕분에 번아웃 없이 조금씩 서비스를 개선해나갈 수 있었다고 생각합니다. 사이드 프로젝트를 진행하시는 분들에게 이제까지의 콘텐츠가 도움이 되었기를 바라며, 앞으로 여러분 모두의 도전을 응원하겠습니다.

요즘IT의 모든 콘텐츠는 저작권법의 보호를 받는 바, 무단 전재와 복사, 배포 등을 금합니다.

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성)

안녕하세요, Soa입니다!

٩( ᐛ )و

이제 개강도 했고.. (공부하기싫어병)

홍보 ucc 제작 때문에 분석 포스팅이 조금 없었습니다..

아직 홍보 ucc 제작은 끝나지 않았지만..!

운영국에서 메일이 왔습니당…….^^!

(우는거 아님)

무려 10주간, 개인 분석 프로젝트를 A부터 Z까지 진행해야 한다는 사실…!

그래서 고민했습니다..

사실 분석 프로젝트를 진행했던 경험이 없기 때문에,

어떻게 10주간의 분석 프로젝트를 해야하나 막막했어요…

그러면서 든 생각이

원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요?

그럼 이번을 기회로,

마케팅 가설이나 주장에 대해서 힘을 실어줄 수 있게끔 하는

데이터 분석을 진행해봐야겠다고 생각했습니다!

반응형

나홀로 분석 프로젝트 (1) 분석 주제 선정

개인 분석 프로젝트에 대한 큰 방향을 잡았습니다!

그래서 제가 정한 프로젝트 명은…

“나도 이제 디지털 마케터!”

물론 디지털 마케터가 실제로 하는 일에 대해서는

실무를 해보지 않았기 때문에 정답이 아닐 수 있습니다!

실제로 데이터 분석이 어떻게 사용되는지에 대해서 찾아보다가

다음 글을 발견했습니다.

https://platum.kr/archives/133978

데이터 분석을 통해서 마케팅 가설, 주장에 대해서

설득력을 높일 수 있다는 것이죠!

단순히 데이터 분석 뿐만 아니라

데이터 분석을 토대로, 그 데이터 안에서 인사이트를 도출해내는 것!

이번 개인 분석 프로젝트에서

물론 데이터 분석에 대해서 열심히 공부하겠지만,

마케팅에서 데이터 분석이 이렇게 쓰일 수 있구나 하는

그 과정에 대해서 자세히 포스팅하고자 합니다!

[프로젝트 목적]

위에서 언급했던 것처럼

데이터 분석을 마케팅에 어떻게 쓸 수 있는지에 대해서

공부하고 그 과정을 자세히 이야기하고자 하는데요.

목적을 간단하게 정리하자면 다음과 같습니다.

마케팅 가설을 설정한 후, 데이터 분석으로 가설을 검증해보는 과정을 실습해본다.

누구나 볼 수 있는 채널에서 소비자 데이터를 수집하여 데이터의 추이를 보며 가설을 주장에 설득력을 높여주고, 가설을 보완하는 방법을 배울 수 있다.

마케팅 가설을 설정하고, 그 가설을 데이터 분석을 통해 검증하려고 합니다!

간단하게 예를 들자면, 포스트 코로나 시대에서 온라인 쇼핑몰이 성장할 것이니 쇼핑몰을 만들어야 한다!

(조금 허접한 가설이지만..)

이런 식으로 마케팅 가설이나 주장을 설정하고

이에 대해 뒷받침할만한 근거로 분석한 데이터를 제시하는거죠!

예를 들어, 년도별 온라인 쇼핑몰 성장 추이 데이터 등이 있을 것 같습니다.

그래서 이러한 이유로 디지털 마케터가 되었다고 생각하고,

가상의 시나리오(내가 만약 ~라면)와 가설 등을 설정해서

그에 맞게끔 데이터 분석을 진행하고

분석 결과를 시각화하고, 나름 제안서? 분석 리포트를 작성해보고자 합니다!

[프로젝트 개요]

그래서 프로젝트는 간단하게 다음과 같이 진행될 예정입니다.

1. 설득력 있는 마케터 : 데이터 분석, 가설 검증이 필요한 이유

2. 분석 시나리오 설정 : ‘내가 만약 삼성SDS 마케팅 담당자라면?’

3. 제안을 위한 근거 만들기, 데이터 분석

4. 데이터 분석 결과 시각화

5. 결과 분석 및 인사이트 도출

여기서 2번의 분석 시나리오 설정에 대해서

조금 이야기해보겠습니다..!

가능한 시나리오가 여러 가지 있고, 정말 많이 고민해보았습니다..

사실 어느 기업에 소속된 마케터라면,

해당 기업에서 수집한 판매 데이터, 구매 전환 데이터 등과 같은

소비자 데이터가 있기 때문에 그와 관련된 가설을 세울 수 있겠지만

제가 수집할 수 있는 데이터에는 한계가 있기 때문에

많은 가설들을 포기했습니다.. ㅠ_ㅠ

그래서 공개되어 있는 데이터들 중에서 얻을 수 있는

소비자 데이터를 생각해보니,

네이버 데이터랩, 구글 트렌드 등과 같은

많은 사용자들이 이용하는 채널에서 제공하는 소비자 데이터가 있더라구요!

그런데 어떤 기업에 소속되어 있는 마케터라는 설정은 포기한거 아닌가요?

할 수도 있겠지만!

제가 설정한 시나리오는

‘내가 만약 삼성SDS 마케팅 담당자라면?’

이겁니다!

내가 만약 삼성SDS 마케팅 담당자라면!

Brightics 서포터즈를 모집해서, Brightics를 홍보하자는 전략에 대해서

어떠한 근거를 통해서 이야기하고,

그 근거를 어떤 데이터를 어떻게 분석해서 제안했을까?

라는 생각을 했습니다!

물론 진짜 담당자님께서는.. 저보다 높은 퀄리티의 제안서(?)를 작성하셨겠지만..

일단 한번 제안서(라고 부르는건지 모르겠지만) 작성 과정을

실습해보고자 합니다!

자세하게 어떤 데이터를 사용해서 어떻게 할건지에 대해서는

나중에 포스팅할 때 자세하게 이야기할 예정입니다..!

궁금하셔도 참아주세요!

٩( ᐛ )و

그럼 다음 포스팅에서는

좀 더 자세한 내용으로 만나요~!

안녕!

٩( ᐛ )و

* Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다. *

반응형

공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1)

본 포스팅은 elice의 2021 NIPA AI 온라인 교육을 듣고 개인 공부를 위해 정리한 것입니다.

1. 국내 코로나 환자 데이터를 활용한 데이터 분석

학습방법

파일 목록에 업로드 되어 있는 [p1]_코로나_데이터_분석_프로젝트.ipynb 파일을 클릭 해설 영상과 함께 코드 셀을 실행해보며 코로나 데이터 분석 프로젝트 진행 실행 하는 중간 중간 quiz를 풀고 하단의 채점까지 완료해야 이수 가능

나는 elice에서 제공하는 쥬피터 노트북뿐만아니라 PyCharm을 이용해서 직접 코드를 입력해 볼 계획이다.

프로젝트 목표

서울시 코로나19 확진자 현황 데이터를 분석하여 유의미한 정보 도출

탐색적 데이터 분석을 수행하기 위한 데이터 정제, 특성 엔지니어링, 시각화 방법 학습

프로젝트 목차

데이터 읽기: 코로나 데이터를 불러오고 Dataframe 구조를 확인

1.1. 데이터 불러오기 데이터 정제: 비어 있는 데이터 또는 쓸모 없는 데이터를 삭제

2.1. 비어있는 column 지우기 데이터 시각화: 각 변수 별로 추가적인 정제 또는 feature engineering 과정을 거치고 시각화를 통하여 데이터의 특성 파악

3.1. 확진일 데이터 전처리하기

3.2. 월별 확진자 수 출력

3.3. 8월 일별 확진자 수 출력

3.4. 지역별 확진자 수 출력

3.5. 8월달 지역별 확진자 수 출력

3.6. 월별 관악구 확진자 수 출력

3.7. 서울 지역에서 확진자를 지도에 출력

데이터 출처

프로젝트 개요

2020년 초에 발생한 코로나19 바이러스는 세계적으로 대유행하였고 이에 대한 많은 분석이 이루어지고 있습니다. 유행 초기엔 이를 분석할 데이터가 충분하지 않았지만 6개월 이상 지난 지금은 다양한 데이터 기관에서 코로나 관련 데이터를 공공으로 제공하고 있습니다.

이번 프로젝트에서는 국내 공공데이터 포털에서 제공하는 서울시 코로나19 확진자 현황 데이터를 바탕으로 탐색적 데이터 분석을 수행해보겠습니다. 국내 데이터 중 확진자 비율이 제일 높고 사람이 제일 많은 서울시의 데이터를 선정하였으며, 이를 바탕으로 코로나19의 확진 추이 및 환자 특성에 대해서 데이터를 바탕으로 알아봅시다.

1. 데이터 읽기

1.1 데이터 불러오기

필요한 패키지 설치 및 import한 후 pandas를 사용하여 데이터를 읽고 어떠한 데이터가 저장되어있는지 확인하기

seaborn은 Matplotlib을 기반으로 다양한 색상 테마와 통계용 차트 등의 기능을 추가한 시각화 패키지로 matplotlib 보다 다양하고 다채로운 시각화 모듈이다. seaborn에서만 제공되는 통계 기반 plot

특별하게 꾸미지 않아도 깔끔하게 구현되는 기본 color

더 아름답게 그래프 구현이 가능한 palette 기능

pandas 데이터프레임과 높은 호환성

hue 옵션으로 bar 구분이 가능하며, xtick, ytick, xlabel, ylabel, legend 등이 추가적인 코딩 작업없이 자동으로 세팅된다.

😱😱😱 Error 주의 😱😱😱

elice에서 제공하는 쥬피터 노트북을 사용하면 에러가 없으나 파이참을 이용했더니 Error 발생😂

UnicodeDecodeError: ‘utf-8′ codec can’t decode byte 0xbf in position 1: invalid start byte

pandas에서 read_csv, read_excel 등 파일을 불러올 때, 한글이 포함된다면 위와 같은 에러가 날 때가 있다.

이는 인코딩의 문제로 encoding=’cp949′ 또는 encoding=’eun-kr’ 를 파라미터로 추가하면 해결된다.

👉 corona_all = pd.read_csv(“./data/서울시 코로나19 확진자 현황.csv”, encoding=”cp949″)

그런데! 나는 이게 문제가 아니었다😫!!! 그래서 공공 데이터 csv 파이썬 인코딩을 검색해서 아래와 같은 강같은 포스팅을 찾아 냈다.

https://teddylee777.github.io/pandas/%EA%B3%B5%EA%B3%B5%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%95%9C%EA%B8%80%EA%B9%A8%EC%A7%90%ED%98%84%EC%83%81-%ED%95%B4%EA%B2%B0%EB%B0%A9%EB%B2%95

그래서 엑셀에서 파일을 연 뒤 다른 이름으로 저장 – 파일 형식을 CSV UTF-8(쉼표로 분리) 로 지정해주었다.

이 과정을 거쳤더니 인코딩 에러는 떠나가고 딱 한 줄의 다른 에러가 등장했다.

sys:1: DtypeWarning: Columns (10) have mixed types.Specify dtype option on import or set low_memory=False.

dtype option으로 타입을 명시해주거나 low_memory = False로 지정해 주면 경고 메시지가 출력되지 않는다고 하여 나는 후자를 택했더니 드디어 더 이상의 에러는 발생하지 않았다.

corona_all = pd.read_csv(“./data/서울시 코로나19 확진자 현황.csv”, low_memory=False)

PyCharm

import numpy as np import pandas as pd import matplotlib . pyplot as plt import seaborn as sns corona_all = pd . read_csv ( “./data/서울시 코로나19 확진자 현황.csv” , low_memory = False ) print ( corona_all . head ( ) , ”

” ) print ( corona_all . info ( ) , ”

” )

👉 나는 최신 데이터 파일을 다운받아서 elice에서 제공하는 데이터와 내용이 조금 다르다.

👉 non-null을 통해 비어있지 않은 데이터의 개수를 알 수 있고, Dtype으로 데이터타입을 알 수 있다.

👉 여행력 1965는 무슨 뜻일까? 총 144647명 중 해외에서 온 사람이 1965명이라는 것

2. 데이터 정제

결측값(missing data), 이상치(outlier)를 처리해보기

2.1. 비어있는 column 지우기

corona_all.info() 를 통하여 국적, 환자정보, 조치사항 에 해당하는 데이터가 존재하지 않는 것을 알 수 있다. (0 non-null)

.drop() 를 사용하면 column의 데이터를 삭제할 수 있다!

비어있는 국적, 환자정보, 조치사항의 column 데이터를 삭제하고 이 dataframe을 corona_del_col에 저장해보자

필요한 정보만 남기기 위해 데이터를 지울 때는 원본에서 삭제하는 것이 아니라 반드시 새로운 변수로 정의하고 저장하는 것이 좋다!!

corona_del_col = corona_all . drop ( columns = [ “국적” , “환자정보” , “조치사항” ] ) print ( corona_del_col . info ( ) , ”

” )

😢 파이참으로 최신 데이터를 이용해 따라하다보니 다른 부분이 많아 파이참은 개인적으로

실습해보고 포스팅은 elice 쥬피터 노트북에서 한 걸 올려야겠다.

3. 데이터 시각화

데이터 정제를 완료한 corona_del_col 데이터를 바탕으로 각 column의 변수별로 어떠한 데이터 분포를 하고 있는지 시각화하기

3.1. 확진일 데이터 전처리하기

corona_del_col [ ‘확진일’ ]

0 10.21. 1 10.21. 2 10.21. 3 10.21. 4 10.21. … 5743 1.31. 5744 1.30. 5745 1.30. 5746 1.30. 5747 1.24. Name: 확진일, Length: 5748, dtype: object

👉 확진일 데이터가 월.일. 형태의 날짜 형식임을 확인할 수 있다.

월별, 일별 분석을 위해 문자열 형식의 데이터를 숫자로 변환해보자.

확진일 데이터를 month, day 데이터로 나누기

확진일에 저장된 문자열 데이터를 나누어 month, day column에 int64 형태로 저장

month = [ ] day = [ ] for data in corona_del_col [ ‘확진일’ ] : month . append ( data . split ( ‘.’ ) [ 0 ] ) day . append ( data . split ( ‘.’ ) [ 1 ] ) corona_del_col [ ‘month’ ] = month corona_del_col [ ‘day’ ] = day corona_del_col [ ‘month’ ] . astype ( ‘int64’ ) corona_del_col [ ‘day’ ] . astype ( ‘int64’ )

결과 (corona_del_col[‘day’]출력)

0 21 1 21 2 21 3 21 4 21 .. 5743 31 5744 30 5745 30 5746 30 5747 24 Name: day, Length: 5748, dtype: int64

❓ 파이참에서도 corona_del_col[‘month’].astype(‘int64’) 이렇게 데이터 타입을 바꿔줬는데도 dtype: object라고 나온다. 뭐가 문제인걸까? 데이터의 문제일까 싶어서 elice의 csv를 받아서 똑같이 코드를 짰는데도 dtype: object라고 나온다.

❕❕ 해당 컬럼에 저장을 안해서 생긴 문제다!

corona_del_col[‘month’] = corona_del_col[‘month’].astype(‘int64’) 이라고 저장을 해줘야 데이터 타입이 변환된다!!

3.2. 월별 확진자 수 출력

나누어진 month의 데이터를 바탕으로 월별 확진자 수를 막대그래프로 출력

참고로 데이터가 20년도 1월부터 10월까지의 데이터를 담고 있어서 order list는 1~10까지🙄

seaborn의 countplot : sns.countplot(x, data, palette, order)

데이터의 개수를 확인할 수 있다. x축은 month, 월별로 data를 count하는데 이 data가 corona_del_col, palette는 그래프의 색깔 타입, order는 순서!

order = [ ] for i in range ( 1 , 11 ) : order . append ( str ( i ) )

plt . figure ( figsize = ( 10 , 5 ) ) sns . set ( style = “darkgrid” ) ax = sns . countplot ( x = “month” , data = corona_del_col , palette = “Set2” , order = order )

파이참에서 그래프가 안뜨길래 계속 코드를 여기저기 건드려보다 알게된 사실🙄

dtype이 object가 아니면 시각화가 되지 않는 것을 발견했다! 아까 앞에서 month의 dtype을 int64로 저장해줬는데 이렇게 되니 그래프가 그려지지 않고 빈 박스가 나왔다.

이 부분을 다시 원래 dtype = object 로 돌려준 후 plt.show() 를 했더니 그래프가 나왔다.

그러나 그것도 10월에만!! 이건 또 무슨 문제일까 고민을 했더니 x축의 문제였다!

최신 데이터 파일은 2021-03-21 이런식으로 월(month)이 01, 02, 03,… 이렇게 저장되어있어서 for i in range(1,11) 로 얻은 order 리스트 1, 2, 3, … 와 다르다.

그래서 order = [“01”, “02”, “03”, …. ,”12″] 를 하니 내가 원하던 예쁜 그래프가 나왔다.

Pandas 모듈에서 series의 plot 함수를 사용한 출력

corona_del_col [ ‘month’ ] . value_counts ( ) . plot ( kind = ‘bar’ )

👉 내림차순으로 출력되네? value_counts() 가 각 데이터를 세어서 내림차순으로 정리하는 함수!

value_counts()

corona_del_col [ ‘month’ ] . value_counts ( )

8 2416 9 1304 6 460 10 425 3 391 7 281 5 228 4 156 2 80 1 7 Name: month, dtype: int64

👉 dtype : int64 주의하기

3.3. 8월 일별 확진자 수 출력

월별 확진자 수를 살펴보니 8월에 확진자가 가장 많았다!! 8월의 일별 확진자 수를 확인해보자🙄

8월 일별 막대그래프

data=corona_del_col[corona_del_col[“month”]==”8″] 8월 확진자 데이터

order2 = [ ] for i in range ( 1 , 32 ) : order2 . append ( str ( i ) )

plt . figure ( figsize = ( 20 , 10 ) ) sns . set ( style = “darkgrid” ) ax = sns . countplot ( x = “day” , data = corona_del_col [ corona_del_col [ “month” ] == “8” ] , palette = “rocket_r” , order = order2 )

✍ quiz 1. 8월 평균 일별 확진자 수를 구하세요. (8월 총 확진자/31일)

corona_del_col [ corona_del_col [ ‘month’ ] == ‘8’ ] [ ‘day’ ] . count ( ) / 31 corona_del_col [ corona_del_col [ ‘month’ ] == ‘8’ ] [ ‘day’ ] . value_counts ( ) . mean ( )

77.93548387096774

3.4. 지역별 확진자 수 출력

지역 데이터를 간단히 출력해보면 oo구 형태의 문자열 데이터임을 알 수 있다.

이번에는 지역별로 확진자가 얼마나 있는지 막대그래프로 출력해보자🙄

지역별 확진자 수 막대그래프로 출력하기

한글 깨짐 방지를 위한 폰트 지정하기

rc={“axes.unicode_minus”:False} 코드는 축의 값이 마이너스 값이면 마이너스 부호가 깨질 수 있어서 이를 방지하기 위해 False로 설정해주는 것

import matplotlib . font_manager as fm font_dirs = [ ‘/usr/share/fonts/truetype/nanum’ , ] font_files = fm . findSystemFonts ( fontpaths = font_dirs ) for font_file in font_files : fm . fontManager . addfont ( font_file ) plt . figure ( figsize = ( 20 , 10 ) ) sns . set ( font = “NanumBarunGothic” , rc = { “axes.unicode_minus” : False } , style = ‘darkgrid’ ) ax = sns . countplot ( x = “지역” , data = corona_del_col , palette = “Set2” )

파이참에서는 한글 폰트 설정이 아무리해도 안된다… 경로를 다르게 설정해주었는데도… 언젠가는 방법을 찾겠지?

지역 이상치 데이터 처리

위의 출력된 데이터를 보면 종랑구라는 잘못된 데이터와 한국이라는 지역과는 맞지 않는 데이터가 있다. 종랑구 → 중랑구, 한국 → 기타로 데이터를 변경해보자🙄

drop 함수로 삭제하지말고 replace 함수를 사용하여 해당 데이터를 변경하고, 새로운 Dataframe으로 저장하자! (원본은 소중하게..💚)

corona_out_region = corona_del_col . replace ( { ‘종랑구’ : ‘중랑구’ , ‘한국’ : ‘기타’ } )

👉 replace 함수의 ({}) 소괄호, 중괄호 사용한 거 꼭 명심하기!!

plt . figure ( figsize = ( 20 , 10 ) ) sns . set ( font = “NanumBarunGothic” , rc = { “axes.unicode_minus” : False } , style = ‘darkgrid’ ) ax = sns . countplot ( x = “지역” , data = corona_out_region , palette = “Set2” )

3.5. 8월달 지역별 확진자 수 출력

감염자가 가장 많았던 8월에는 지역별로 확진자가 어떻게 분포되어 있는지 확인해보자🙄

논리연산을 이용한 조건에 맞는 데이터 출력

corona_out_region [ corona_del_col [ ‘month’ ] == ‘8’ ]

그래프 출력

data=corona_out_region[corona_del_col[‘month’] == ‘8’] 로 했지만 data=corona_out_region[corona_out_region[‘month’] == ‘8’] 도 상관없을 듯

plt . figure ( figsize = ( 20 , 10 ) ) sns . set ( font = “NanumBarunGothic” , rc = { “axes.unicode_minus” : False } , style = ‘darkgrid’ ) ax = sns . countplot ( x = “지역” , data = corona_out_region [ corona_del_col [ ‘month’ ] == ‘8’ ] , palette = “Set2” )

3.6. 월별 관악구 확진자 수 출력

확진자가 가장 많았던 관악구 내의 확진자 수가 월별로 어떻게 증가했는지 확인해보자🙄

corona_out_region [ ‘month’ ] [ corona_out_region [ ‘지역’ ] == ‘관악구’ ]

3 10 4 10 6 10 7 10 8 10 .. 5630 3 5661 2 5674 2 5695 2 5711 2 Name: month, Length: 452, dtype: object

👉 관악구의 총 확진자는 452명임을 알 수 있다.

plt . figure ( figsize = ( 10 , 5 ) ) sns . set ( style = “darkgrid” ) ax = sns . countplot ( x = “month” , data = corona_out_region [ corona_out_region [ ‘지역’ ] == ‘관악구’ ] , palette = “Set2” , order = order )

3.7. 서울 지역에서 확진자를 지도에 출력

지도를 출력하기 위한 라이브러리로 folium을 사용해보자🙄

folium : open street map(osm)과 같은 지도 데이터에 ‘Leaflet.js’를 이용하여 위치정보를 시각화하는 파이썬 라이브러리

folium.map 을 이용한 지도 출력

import folium map_osm = folium . Map ( location = [ 37.529622 , 126.984307 ] , zoom_start = 11 ) map_osm

지역마다 지도에 정보를 출력하기 위해서는 각 지역의 좌표정보가 필요하다.

이를 해결하기 위해서 서울시 행정구역 시군 정보 데이터를 불러와 사용할 것이다.

데이터 출처: https://data.seoul.go.kr/dataList/OA-11677/S/1/datasetView.do

데이터 저장

CRS = pd . read_csv ( “./data/서울시 행정구역 시군구 정보 (좌표계_ WGS1984).csv” ) CRS

“중구” 데이터 찾기

CRS [ CRS [ ‘시군구명_한글’ ] == ‘중구’ ]

for 문을 사용하여 지역마다 확진자를 원형 마커로 지도에 출력

corona_seoul = corona_out_region . drop ( corona_out_region [ corona_out_region [ ‘지역’ ] == ‘타시도’ ] . index ) corona_seoul = corona_seoul . drop ( corona_out_region [ corona_out_region [ ‘지역’ ] == ‘기타’ ] . index ) map_osm = folium . Map ( location = [ 37.557945 , 126.99419 ] , zoom_start = 11 ) for region in set ( corona_seoul [ ‘지역’ ] ) : count = len ( corona_seoul [ corona_seoul [ ‘지역’ ] == region ] ) CRS_region = CRS [ CRS [ ‘시군구명_한글’ ] == region ] marker = folium . CircleMarker ( [ CRS_region [ ‘위도’ ] , CRS_region [ ‘경도’ ] ] , radius = count / 10 + 10 , color = ‘#3186cc’ , fill_color = ‘#3186cc’ , popup = ‘ ‘ . join ( ( region , str ( count ) , ‘명’ ) ) ) marker . add_to ( map_osm ) map_osm

👉 radius = count/10 + 10 → 해당 지역의 확진자 수(count)에 비례해서 원의 크기를 만들어 줌, +10은 원의 크기가 너무 작을까봐 더해준 것!

👉 각 지역구의 확진자 인원을 가시적으로 나타내기 위해 popup 설정!

✍ quiz 2. 6월에 확진자가 가장 많이 나온 지역을 구하세요.

corona_out_region [ corona_del_col [ ‘month’ ] == ‘6’ ] [ ‘지역’ ] . value_counts ( )

관악구 59 구로구 45 도봉구 43 양천구 43 강서구 33 영등포구 29 타시도 23 은평구 18 금천구 17 서초구 15 중랑구 14 노원구 13 동작구 13 용산구 12 마포구 12 강동구 11 강북구 10 성동구 9 서대문구 8 강남구 7 송파구 7 성북구 4 동대문구 4 광진구 3 종로구 3 중구 3 기타 2 Name: 지역, dtype: int64

답안

가볍게 떠먹는 데이터 분석 프로젝트

하지만 이러한 핵심 자원인 데이터는 그 자체로서는 아무런 의미가 없다. 소비 내역을 보여주는 카드 내역, 구글 맵 검색 내역을 통해 수집된 사람들의 이동 경로, 아마존의 상품 판매 내역 등의 빅데이터가 의미 있고 가치를 가지기 위해서는 인간의 사고와 판단에 의해 적절하게 정리, 변환, 분석되는 절차가 필요하다.

— p.xi

이번 장에서 본격적으로 데이터 분석 프로젝트 수행 절차에 대해서 알아보자. 많은 기업과 조직이 IT 기술을 적극적으로 활용하면서 자체 데이터를 축적하게 되었고, 활용 가능한 내/외부 데이터가 폭증하면서 이를 바탕으로 한 데이터 분석 프로젝트 요구가 급증하였다. 이로 인해 많은 이들이 사용자, 이해관계자 또는 분석 수행자의 자격으로 데이터 분석 프로젝트에 참여할 기회가 늘고 있다.

— p.21

데이터를 확보한 후 가장 처음으로 수행해야 하는 업무는 데이터가 완전하고 유효한지 확인하는 것이다. 즉, 무결성 테스트(Integrity Test)를 수행해야 한다. 데이터 무결성은 여러 방법으로 평가할 수 있는데, 우선 데이터 무결성이 무엇인지 알아보자.

— p.68

그렇다면 데이터의 시각화를 위해서 어떠한 차트를 선택해야 할까? 자주 쓰는 차트들을 의도에 따라 네 가지 그룹으로 나눌 수 있다. 그림 6.1은 청중에게 전달하고자 하는 의도에 따라 집단 간의 데이터 비교 분석, 데이터 집합의 구성 분석, 변수들 간의 관계 분석, 데이터의 분포 분석의 네 가지 항목으로 분류한 것이다. 지금부터는 각 항목과 관련된 차트에 대해 좀 더 자세히 알아보자.

— p.101

그렇다면 진행 중인 데이터 분석 프로젝트에 어떤 테마의 대시보드를 적용하는 것이 효과적일까? 이를 이해하기 위해서는 대시보드의 종류와 각각의 차이점을 먼저 살펴봐야 할 것이다. 대시보드는 크게 전략적 대시보드, 분석 대시보드, 운영 대시보드로 분류할 수 있다.

— p.126

혜원은 태블로 라이선스가 없는 이해관계자들도 쉽게 접속할 수 있도록 태블로 퍼블릭 서버를 사용하여 대시보드의 링크 주소를 공유하도록 설정하였다. 이를 통해 해당 주소로 들어가면 실시간으로 업데이트되는 대시보드를 이해관계자들이 쉽게 접근할 수 있었다.

— p.157

Top 31 데이터 분석 프로젝트 Trust The Answer

[프로젝트발표영상] 배달 매출 예측 분석

[프로젝트발표영상] 배달 매출 예측 분석

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)

Article author: magicode.tistory.com

Reviews from users: 4800 Ratings

Ratings Top rated: 3.9

Lowest rated: 1

Summary of article content: Articles about 내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제) 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고 … …

Most searched keywords: Whether you are looking for 내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제) 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고 … 이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보..

Table of Contents:

데이터세트 구하기

프로젝트 주제

태그

‘빅데이터 프로젝트’ Related Articles

티스토리툴바

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)

Read More

실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기 | 코멘토

Article author: comento.kr

Reviews from users: 29039 Ratings

Ratings Top rated: 4.8

Lowest rated: 1

Summary of article content: Articles about 실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기 | 코멘토 실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기. 현직자와 함께하는 데이터직무 5주 인턴 · 직접 경험하는 것보다 · 데이터 1~3년차 현직자 안네스 멘토입니다. …

Most searched keywords: Whether you are looking for 실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기 | 코멘토 실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기. 현직자와 함께하는 데이터직무 5주 인턴 · 직접 경험하는 것보다 · 데이터 1~3년차 현직자 안네스 멘토입니다. 과제 소개과제의 핵심은 자신만의 가설을 기반으로 데이터를 분석하고, 서비스 개선을 위한 Action Item 기획안을 작성하는 것이에요. 총 4개의 과제는 앞에서 언급한 목표를 달데이터: 실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기 – 코멘토 직무부트캠프 5주 인턴

Table of Contents:

실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기

현직자와 함께하는 데이터직무 5주

인턴

자주 묻는 질문

코멘토

서비스

기관 제휴 문의

고객센터

코로나19로 전화상담이 제한됩니다

실무에도 통하는 데이터 분석 프로젝트 포트폴리오 만들기 | 코멘토

Read More

가볍게 떠먹는 데이터 분석 프로젝트 | 윤영진 | 제이펍 – 교보문고

Article author: www.kyobobook.co.kr

Reviews from users: 10116 Ratings

Ratings Top rated: 3.1

Lowest rated: 1

Summary of article content: Articles about 가볍게 떠먹는 데이터 분석 프로젝트 | 윤영진 | 제이펍 – 교보문고 이 책은 데이터를 활용한 분석 프로젝트 수행을 위한 방법론, 실전 기술, 그리고 예상되는 문제 해결을 다룹니다. 즉, 데이터 분석 업무의 시작에서 보고서 작성법까지 … …

Most searched keywords: Whether you are looking for 가볍게 떠먹는 데이터 분석 프로젝트 | 윤영진 | 제이펍 – 교보문고 이 책은 데이터를 활용한 분석 프로젝트 수행을 위한 방법론, 실전 기술, 그리고 예상되는 문제 해결을 다룹니다. 즉, 데이터 분석 업무의 시작에서 보고서 작성법까지 … 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정 | 4차 산업혁명 시대의 핵심은 데이터이고, 데이터를 분석하는 능력이 이 시대의 생존 무기가 되었습니다. 이 책은 데이터를 활용한 분석 프로젝트 수행을 위한 방법론, 실전 기술, 그리고 예상되는 문제 해결을 다룹니다. 즉, 데이터 분석 업무의 시작에서 보고서 작성법까지…가볍게 떠먹는 데이터 분석 프로젝트, 윤영진,, 제이펍, 9791191600162

Table of Contents:

키워드 Pick

가격정보

이 상품의 이벤트 3건

배송정보

이 책을 구매하신 분들이 함께 구매하신 상품입니다 KOR (개인)

이 책의 이벤트

책소개

상세이미지

목차

책 속으로

북카드

Klover 리뷰 (0)

북로그 리뷰 (3)

전체보기

쓰러가기

문장수집 (0) 문장수집 쓰기 나의 독서기록 보기

※구매 후 문장수집 작성 시 리워드를 제공합니다

안내

문장수집 안내

문장수집은 고객님들이 직접 선정한 책의 좋은 문장을 보여주는 교보문고의 새로운 서비스입니다

마음을 두드린 문장들을 기록하고 좋은 글귀들은 좋아요하여 모아보세요

도서 문장과 무관한 내용 등록 시 별도 통보 없이 삭제될 수 있습니다

1 리워드 안내

구매 후 90일 이내에 문장수집 작성 시 e교환권 100원을 적립해 드립니다

e교환권은 적립일로부터 180일 동안 사용 가능합니다

리워드는 작성 후 다음 날 제공되며 발송 전 작성 시 발송 완료 후 익일 제공됩니다

리워드는 한 상품에 최초 1회만 제공됩니다

주문취소반품절판품절 시 리워드 대상에서 제외됩니다

교환반품품절안내

기프트 BEST

이 분야의 베스트

이 분야의 신간

가볍게 떠먹는 데이터 분석 프로젝트 | 윤영진 | 제이펍 – 교보문고

Read More

[2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 – DATA ON-AIR

Article author: dataonair.or.kr

Reviews from users: 24637 Ratings

Ratings Top rated: 3.5

Lowest rated: 1

Summary of article content: Articles about [2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 – DATA ON-AIR [2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 … …

Most searched keywords: Whether you are looking for [2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 – DATA ON-AIR [2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 …

Table of Contents:

[2021 빅데이터 아카데미 우수 프로젝트 사례(분석)] 머신러닝, 딥러닝 방법을 활용한 중고차 시세예측 – DATA ON-AIR

Read More

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성)

Article author: soa-park.tistory.com

Reviews from users: 42645 Ratings

Ratings Top rated: 3.8

Lowest rated: 1

Summary of article content: Articles about [Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성) 원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요? 그럼 이번을 기회로,. 마케팅 가설이나 주장에 대해서 힘을 실어줄 수 … …

Most searched keywords: Whether you are looking for [Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성) 원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요? 그럼 이번을 기회로,. 마케팅 가설이나 주장에 대해서 힘을 실어줄 수 … 안녕하세요, Soa입니다! ٩( ᐛ )و 이제 개강도 했고.. (공부하기싫어병) 홍보 ucc 제작 때문에 분석 포스팅이 조금 없었습니다.. 아직 홍보 ucc 제작은 끝나지 않았지만..! 운영국에서 메일이 왔습니당……..

Table of Contents:

태그

‘Data Analysis ‘◡’✿삼성SDS Brightics AI & Studio’ Related Articles

티스토리툴바

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성)

Read More

데이터 분석 프로젝트

Article author: hyukstory.oopy.io

Reviews from users: 40118 Ratings

Ratings Top rated: 4.1

Lowest rated: 1

Summary of article content: Articles about 데이터 분석 프로젝트 빅데이터 분석 및 시각화 project. 참여자 : 김수연, 이혁수, 김경주. @8/28/2020 → 9/13/2020. 주제 : 공공데이터 활용한 뉴노멀 시대 맞춤 야외 데이트 지역 추천. …

Most searched keywords: Whether you are looking for 데이터 분석 프로젝트 빅데이터 분석 및 시각화 project. 참여자 : 김수연, 이혁수, 김경주. @8/28/2020 → 9/13/2020. 주제 : 공공데이터 활용한 뉴노멀 시대 맞춤 야외 데이트 지역 추천.

Table of Contents:

데이터 분석 프로젝트

Read More

가볍게 떠먹는 데이터 분석 프로젝트 – YES24

Article author: www.yes24.com

Reviews from users: 35857 Ratings

Ratings Top rated: 4.4

Lowest rated: 1

Summary of article content: Articles about 가볍게 떠먹는 데이터 분석 프로젝트 – YES24 가볍게 떠먹는 데이터 분석 프로젝트. : 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정. 윤영진,황재진 저 | 제이펍 | 2021년 11월 19일 저자/출판사 … …

Most searched keywords: Whether you are looking for 가볍게 떠먹는 데이터 분석 프로젝트 – YES24 가볍게 떠먹는 데이터 분석 프로젝트. : 기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정. 윤영진,황재진 저 | 제이펍 | 2021년 11월 19일 저자/출판사 … 쉽게 배워 바로 써먹는 데이터 분석 입문서!이 책은 데이터 분석 목적 수립, 데이터 취득 방법, 관련 부서 및 인원과 커뮤니케이션하는 방법, 그리고 분석 후 보고서 작성을 위한 대시보드 사용까지 전체 분석 프로젝트 사이클을 설명하고 있으며, 이어서 서울시 버스…가볍게 떠먹는 데이터 분석 프로젝트,기초가중요해,기초 이론과 케이스 스터디로 배우는 데이터 분석의 전 과정, 윤영진 |황재진, 제이펍, 9791191600162, 11916001659791191600162,1191600165

Table of Contents:

YES24 카테고리 리스트

YES24 유틸메뉴

어깨배너

빠른분야찾기

윙배너

슈퍼특가

이책아나!

오승훈 아나운서가 추천하는 인생 도서

마이 예스24

최근 본 상품

단독 판매

마케팅 텍스트 배너

웹진채널예스

가볍게 떠먹는 데이터 분석 프로젝트

가볍게 떠먹는 데이터 분석 프로젝트

가볍게 떠먹는 데이터 분석 프로젝트 – YES24

Read More

공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1)

Article author: velog.io

Reviews from users: 21416 Ratings

Ratings Top rated: 3.6

Lowest rated: 1

Summary of article content: Articles about 공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1) 프로젝트 1. 국내 코로나 환자 데이터 분석하기 ‍⚕️ seaborn 으로 countplot, 그리고 folium 으로 지도에 확진자 marker까지. …

Most searched keywords: Whether you are looking for 공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1) 프로젝트 1. 국내 코로나 환자 데이터 분석하기 ‍⚕️ seaborn 으로 countplot, 그리고 folium 으로 지도에 확진자 marker까지. 프로젝트 1. 국내 코로나 환자 데이터 분석하기👩‍⚕️ seaborn 으로 countplot, 그리고 folium 으로 지도에 확진자 marker까지😫

Table of Contents:

2021 NIPA AI 온라인 교육

1 국내 코로나 환자 데이터를 활용한 데이터 분석

공공 데이터를 활용한 파이썬 데이터 분석 프로젝트(1)

Read More

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1

Article author: jerrys-ai-lab.tistory.com

Reviews from users: 11026 Ratings

Ratings Top rated: 3.0

Lowest rated: 1

Summary of article content: Articles about [ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1 이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 … …

Most searched keywords: Whether you are looking for [ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1 이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 … 기억보단 기록을

-향로-

-향로- Table of Contents:

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석 – 1

Read More

데이터 분석 í”„ë¡œì íŠ¸ 작성

Article author: www.ibm.com

Reviews from users: 33847 Ratings

Ratings Top rated: 4.1

Lowest rated: 1

Summary of article content: Articles about 데이터 분석 í”„ë¡œì íŠ¸ 작성 데이터 분석 프로젝트 를 작성하여 데이터 분석 모델, 대상 모델및 데이터 분석 도구를 작성, 포함 및 개발하십시오. 프로시저. IBM® 통합 툴킷에서 파일 > 새로운 … …

Most searched keywords: Whether you are looking for 데이터 분석 í”„ë¡œì íŠ¸ 작성 데이터 분석 프로젝트 를 작성하여 데이터 분석 모델, 대상 모델및 데이터 분석 도구를 작성, 포함 및 개발하십시오. 프로시저. IBM® 통합 툴킷에서 파일 > 새로운 … 데이터 분석 í”„ë¡œì íŠ¸ 를 작성하여 데이터 분석 모델, 대상 모델및 데이터 분석 도구를 작성, 포함 및 개발하십시오.데이터 분석, 데이터 분석 í”„ë¡œì íŠ¸ 작성

Table of Contents:

í”„ë¡œì‹œì €

ê²°ê³¼

다음에 ìˆ˜í–‰í• ìž‘ì—

ê´€ë ¨ ê°œë 

ê´€ë ¨ 태스크

ê´€ë ¨ 참조

데이터 분석 í”„ë¡œì íŠ¸ 작성

Read More

See more articles in the same category here: https://toplist.pilgrimjournalist.com/blog.

내가 하려고 정리한 빅데이터 프로젝트 주제 (= 데이터분석 프로젝트 주제 = 머신러닝 프로젝트 주제)

이전에 학원에서 데이터 분석을 배울 때 포스팅했던 프로젝트 주제 회의 글이 있는데 이제는 어엇한 새내기 데이터분석가로 좀 더 의미있고 해볼만한 데이터 분석 주제를 가져와봤다. 프로젝트 회의하는 과정이 보고싶다면 아래 글을 참고하면 된다. [빅데이터 프로젝트] – 빅데이터 프로젝트 1. 주제 선정 회의 데이터세트 구하기 학생때 머신러닝프로젝트를 하면서 가장 어려움을 겪는 부분은 주어지는 공공데이터가 매우 제한적이라는 점이다. 공공데이터 포털에 있는 데이터를 이용하는것도 좋은 방법이고, 특허처럼 특정 홈페이지에서 엑셀로 다운받을 수 있는 데이터가 있다면 그것을 이용하는 것도 좋은 방법이지만 다른 사람들과 데이터가 겹치지 않았으면 좋겠다면 kaggle을 이용하는것도 하나의 방법이 될 수 있다. kaggle은 머신러닝, 딥러닝을 하는 사람들이 이용하는 사이트다. 캐글에 구글아이디로 로그인을 하면 현재 경합중인 머신러닝 프로젝트 주제들을 확인할 수 있다. 물론 경합이 끝난 주제들도 볼 수 있다. 이곳에서 마음에 드는 주제를 골라 데이터를 다운받고 직접 코드를 작성해보는것도 좋다. 뻔한 주제들도 있지만 뻔하지 않은 주제들도 있기 때문에 공공데이터만 활용하는 것보다 더 다양한 주제를 접할 수 있다. 캐글에서 주제를 확인하고 데이터를 다운받는 방법을 아래와 같다. Overview에 있는 Description을 통해 주제가 무엇인지, 원하는 결과물은 어떤건지, 데이터는 어떻게 수집되었는지를 확인할 수 있다. 데이터분석을 할 때 이 배경지식들은 은근히 중요한 부분이기 때문에 꼼꼼히 읽어봐야한다. 영어로 되어있어도 당황하지 말고 구글 번역기를 이용하면 된다. Data에 들어가서 데이터세트에 대한 설명을 확인할 수 있고, 대부분 빨간박스에 있는 .csv파일을 다운받아서 사용하면 된다. 다만 주제에 따라 csv파일이 아니라 다른 파일들이 주어지는 경우도 있기 때문에 어떤 파일을 사용해야할지 모르겠을 때는 Download All버튼을 눌러 모두 다운로드 해주면 된다. 내가 진행할 머신러닝 프로젝트 주제를 kaggle에서 가져오면 또 다른 좋은 점은 다른사람들이 올려둔 완성된 코드를 볼 수 있다는 점이다. 사실 프로젝트를 진행하면서 다른 사람의 코드를 보며 복사 붙여넣기를 하는 것은 실력향상에 큰 도움은 안되지만 마감이 빡빡한 경우에는 유용하게 참고할 수 있다. Code 탭에 들어가서 우측 정렬을 Most Votes로 두면 가장 많은 좋아요를 받은 코드를 확인할 수 있다. 이 코드보기는 현재 경합이 진행중인 주제로 했을 경우에도 확인할 수 있다. 정말 친절하게 모든 코드가 나와있으니 참고하면 좋을 것 같다. 프로젝트 주제 1. 물류센터용 택배박스 분류 모델 목표 : 주소지가 섞여있는 택배를 배달하기 좋은 최적의 그룹으로 자동분류하는 모델 데이터 : 공공데이터 중에 전국 주소지를 포함하고 있는 데이터 아무거나 (굳이 집주소가 아니여도 되기 때문에 상가 주소여도 가능) 결과 : 자동 분류 된 번호 및 시각화(분류번호별 개수 / 지역별 분포도 등) 2. 특허데이터 분석을 통한 기업분석 목표 : 특허를 보유하고 있는 기업 분석을 통해 우리가 몰랐던 강소기업 발굴 데이터 : 특허청에서 특정 특허를 보유하고 있는 회사 리스트 결과 : 특정 특허를 보유하고 있는 회사 발견. 취준생, 투자자 등에게 기업정보 제공 가능 >> 이 프로젝트는 내가 직접 해본 프로젝트로 당시 빅데이터 수업을 듣는 모든 취준생들에게 빅데이터 관련 회사를 추천해주는 것이 목적이었고, 빅데이터 특허를 보유하고 있는 기업을 분석해본 결과 기업 업종이 IT산업뿐만 아니라 교육, 의료, 화학 등 다양한 업종에서도 빅데이터 특허를 출원했고 관련 기술자가 필요할것이라는 인사이트를 얻었다. 3. 물건판매 매장의 다음달 총 매출 예측 목표 : 물건판매 매장의 다음달 총 매출 예측 데이터 : https://www.kaggle.com/c/competitive-data-science-predict-future-sales 캐글에서 확인 가능 결과 : 과거 판매 데이터를 가지고 예측모델을 만들어 매월 변경되는 제품목록에 대해 총 매출액 예측 4. 코로나가 디지털학습에 미치는 영향 분석 목표 : 1) 디지털 학습 현황 분석 2)지역, 정책, 인구밀집에 따른 디지털 학습 차이 분석 데이터 : https://www.kaggle.com/c/learnplatform-covid19-impact-on-digital-learning 캐글에서 확인 가능 결과 : 디지털 학습 현황은 어떤가? 코로나가 디지털학습에 미치는 영향은? 인종, 민족, 지역, 인구밀집별 온라인 플랫폼 참여학생간의 차이? 정책 및 정부의 개입이 디지털학습에 미치는 영향?

가볍게 떠먹는 데이터 분석 프로젝트 – 교보문고

데이터 분석과 관련된실무 프로젝트를 진행하기 위한 방법론과 실제 케이스를 다룬 책이다.이 책은 분석과 관련된 기술이나 알고리즘을 다루기 보다는 분석과 관련된 실무 프로젝트를 원할히 수행하기 위한 가이드로써 데이터 과학자보다는 실무 프로젝트 총괄 책임자, PM, 팀장, 기획자, CEO에게 적합한 책이다.국내외에서 주로 활용되는 데이터 분석 방법론 중 하나인 CRISP-DM 표준 방법론을 중심으로 이론을 펼치되 이를 최대한 쉽게 이해할 수 있도록 구성한 것이 특징이며 마지막장에서 케이스 스터디 2가지 사례를 다루고 있어 데이터 분석 경험이 적은 초보자가 이해하기에도 적합한 책이다.책에서 제시하는 데이터 분석의 뼈대는6단계로 구성된다. 아래 그림과 같이 목표를 이해하고 이를 기반으로 한 계획을 수립한 후 수집 및 전처리를 진행한다. 이어 본격적인 분석에 돌입한 후 결과를 검증하며 시각화를 통해 의사결정과 당초 목표에 대한 솔루션을 제시하는 것이 큰 흐름이다.비유하자면 프로그래밍에 S/W공학론이 존재하듯 데이터 분석계의S/W공학론 같은 느낌이다. 전적으로 프로젝트를 원할히 운영할 수 있는 전체 그림을 제시하는 것이 책의 차별화된 부분이며 각 단계의 세부 업무 수행은 데이터 사이언티스트나 엔지니어 혹은 분석가들이 수행하게 될텐데 이를 위한 알고리즘 수준의 기술은 극히 일부를 제외하고는 다루지 않는다.AI, 알파고가 이슈가 된 이후 이 분야에 뛰어드는 사람들은 주로 딥러닝의 성능개선 혹은 알고리즘 기술이나 적어도 머신러닝의 알고리즘에 집중하는 경향이 많은데 어쨌든 이런 기술 또한 수익 혹은 가치 창출과 연결되어야 할 피치 못할 숙명에 처해있기에 프로젝트를 진행하지 않을 수 없다. 이는 이 책이 필요한 이유이기도 하다.책은 전반적으로 앞서 소개한 6단계의 구성을 차례차례 짚어 나간다. 전체적인 큰 흐름은 2장에 자세히 소개되어 있으며 1장은 주로 데이터 분석의 필요성과 개요를 다루고 있으므로 가볍게 읽으면 된다.본격적인 내용은 3장부터 진행되는데 데이터수집혹은 취득을 다루는 것으로 시작한다. 책을 읽으며 데이터의 수집처가 생각보다 매우 다양하다는 것을 알게 되었다.내부 데이터 출처원으로는 사내 ERP, CRM, POS, 문서, 기타 애플리케이션이 해당된다. 외부데이터로는 SNS, 공공 데이터, 포털데이터 등 매우 다양한 데이터 출처원이 존재한다. 책에서 이런 부분들이 꼼꼼하게 잘 정리되어 있어 실무 프로젝트에 있어 단계별 누락요소는 없는지체크리스트로 활용해도 괜찮겠다는 생각이 들었다.4장에서는 검증 및 전처리를 다룬다. 데이터의 유형별 모든 검증을 다루고 있진 않지만 적어도 Tabular 성격의 데이터에서 빈번하게 활용되는 검증 방법을 꽤 자세하게 다루고 있다.이어 전처리로 이상치, 결측치에 대한 처리 방법이 나오는데 적어도 빈번히 활용되는 MCAR, MAR, NMAR 등의 통계적 데이터 성격에 따른 결측치 처리 방법도 소개되고 있어 기본은 잘 갖추고 있다 판단된다.5장은 데이터 분석을 위한10가지 분석도구의 특징 및 장단점을 소개한다. 엑셀을 시작으로 가장 핫한 R, Python 등 그 외에도 태블로와 같은 BI 도구들도 다룬다. 다만 분석 기법이나 알고리즘에 관한 설명은 생략되어 있어 조금 아쉽기도 하다. 철저히 프로젝트와 관련된 거시적 흐름에 집중하는 구성이다.6장은 시각화를 다룬다. 특히 시각화 시 실무에서유의해야 할 유형과 함정에 대해 잘 정리되어 있다. 시각화 전체를 다루고 있는 것은 아니지만 적어도 가장 중요한 부분들이 잘 정리되어 있어 이 책에서 다루는 내용만 잘 이해해도 파레토 법칙의 80%는 달성할 수 있다고 본다.7장은대시보드를 구성하는 전략이 소개된다. 전략적, 분석, 운영 대시보드별 특징이 소개되고 사내에서 중요시 여겨지는 지표 등을 직관적으로 파악하기에 어떤 대시보드의 구성을 가져가는 것이 좋을지 방법이 소개된다.마지막 8장과 9장에서는케이스스터디로 실무 분석 사례를 다룬다. 8장은 서울시 버스 승하차 인원을 분석하여 교통 혼잡 비용을 줄이려는 프로젝트로 매우 기초적인 엑셀을 통한 기술 통계 위주의 분석을 다루고 있다.매우 기초적인 내용이기에 분석이 묘를 얻기는 어렵지만 대학 학부 수준의 프로젝트에 적용해보고 분석 프로젝트의 큰 흐름을 잡기에는 나쁘지 않은 입문 예제로 보인다.9장은 온라인 쇼핑몰의 블랙컨슈머를 파악하기 위한 분석을 시도하는데 8장보다는 약간 난이도가 있다. 시나리오나 가설이 등장하며 SQL을 도구로 활용하고 이를 검증하는 절차도 있다.하지만 역시 매우 기초적인 수준이다. 적어도 통계적으로 분포를 다루는 문제나 귀무 가설 정도 다루는 예제가 추가로 소개되었다면 더욱 좋겠다는 생각이 들었다. 혹은 머신러닝 기법으로 추론, 예측을 진행하는 프로젝트가 같이 소개되었다면 유익했을텐데 독자층을 철저히 입문 수준으로 제한한 것 같다.어쨌든 이 책은 데이터 분석 프로젝트를 처음으로 임하는 이에게 가장 적합한 책이라는 생각이 든다. 또, 깊숙한 실무를 진행할 필요가 없는 기획자나 총괄 책임자가 프로젝트의 큰 흐름을 빠르게 이해하고자 할 때 좋은 가이드가 될 것이다.책소개 – 가볍게 떠먹는 데이터 분석 프로젝트

[Brightics 서포터즈] 나홀로 분석 프로젝트 (1) 분석 주제 선정 (+ 계획서 작성)

안녕하세요, Soa입니다! ٩( ᐛ )و 이제 개강도 했고.. (공부하기싫어병) 홍보 ucc 제작 때문에 분석 포스팅이 조금 없었습니다.. 아직 홍보 ucc 제작은 끝나지 않았지만..! 운영국에서 메일이 왔습니당…….^^! (우는거 아님) 무려 10주간, 개인 분석 프로젝트를 A부터 Z까지 진행해야 한다는 사실…! 그래서 고민했습니다.. 사실 분석 프로젝트를 진행했던 경험이 없기 때문에, 어떻게 10주간의 분석 프로젝트를 해야하나 막막했어요… 그러면서 든 생각이 원래 저는 마케팅에서 데이터 분석을 사용하는 방법에 대해 포스팅하고 싶었잖아요? 그럼 이번을 기회로, 마케팅 가설이나 주장에 대해서 힘을 실어줄 수 있게끔 하는 데이터 분석을 진행해봐야겠다고 생각했습니다! 반응형 나홀로 분석 프로젝트 (1) 분석 주제 선정 개인 분석 프로젝트에 대한 큰 방향을 잡았습니다! 그래서 제가 정한 프로젝트 명은… “나도 이제 디지털 마케터!” 물론 디지털 마케터가 실제로 하는 일에 대해서는 실무를 해보지 않았기 때문에 정답이 아닐 수 있습니다! 실제로 데이터 분석이 어떻게 사용되는지에 대해서 찾아보다가 다음 글을 발견했습니다. https://platum.kr/archives/133978 데이터 분석을 통해서 마케팅 가설, 주장에 대해서 설득력을 높일 수 있다는 것이죠! 단순히 데이터 분석 뿐만 아니라 데이터 분석을 토대로, 그 데이터 안에서 인사이트를 도출해내는 것! 이번 개인 분석 프로젝트에서 물론 데이터 분석에 대해서 열심히 공부하겠지만, 마케팅에서 데이터 분석이 이렇게 쓰일 수 있구나 하는 그 과정에 대해서 자세히 포스팅하고자 합니다! [프로젝트 목적] 위에서 언급했던 것처럼 데이터 분석을 마케팅에 어떻게 쓸 수 있는지에 대해서 공부하고 그 과정을 자세히 이야기하고자 하는데요. 목적을 간단하게 정리하자면 다음과 같습니다. 마케팅 가설을 설정한 후, 데이터 분석으로 가설을 검증해보는 과정을 실습해본다. 누구나 볼 수 있는 채널에서 소비자 데이터를 수집하여 데이터의 추이를 보며 가설을 주장에 설득력을 높여주고, 가설을 보완하는 방법을 배울 수 있다. 마케팅 가설을 설정하고, 그 가설을 데이터 분석을 통해 검증하려고 합니다! 간단하게 예를 들자면, 포스트 코로나 시대에서 온라인 쇼핑몰이 성장할 것이니 쇼핑몰을 만들어야 한다! (조금 허접한 가설이지만..) 이런 식으로 마케팅 가설이나 주장을 설정하고 이에 대해 뒷받침할만한 근거로 분석한 데이터를 제시하는거죠! 예를 들어, 년도별 온라인 쇼핑몰 성장 추이 데이터 등이 있을 것 같습니다. 그래서 이러한 이유로 디지털 마케터가 되었다고 생각하고, 가상의 시나리오(내가 만약 ~라면)와 가설 등을 설정해서 그에 맞게끔 데이터 분석을 진행하고 분석 결과를 시각화하고, 나름 제안서? 분석 리포트를 작성해보고자 합니다! [프로젝트 개요] 그래서 프로젝트는 간단하게 다음과 같이 진행될 예정입니다. 1. 설득력 있는 마케터 : 데이터 분석, 가설 검증이 필요한 이유 2. 분석 시나리오 설정 : ‘내가 만약 삼성SDS 마케팅 담당자라면?’ 3. 제안을 위한 근거 만들기, 데이터 분석 4. 데이터 분석 결과 시각화 5. 결과 분석 및 인사이트 도출 여기서 2번의 분석 시나리오 설정에 대해서 조금 이야기해보겠습니다..! 가능한 시나리오가 여러 가지 있고, 정말 많이 고민해보았습니다.. 사실 어느 기업에 소속된 마케터라면, 해당 기업에서 수집한 판매 데이터, 구매 전환 데이터 등과 같은 소비자 데이터가 있기 때문에 그와 관련된 가설을 세울 수 있겠지만 제가 수집할 수 있는 데이터에는 한계가 있기 때문에 많은 가설들을 포기했습니다.. ㅠ_ㅠ 그래서 공개되어 있는 데이터들 중에서 얻을 수 있는 소비자 데이터를 생각해보니, 네이버 데이터랩, 구글 트렌드 등과 같은 많은 사용자들이 이용하는 채널에서 제공하는 소비자 데이터가 있더라구요! 그런데 어떤 기업에 소속되어 있는 마케터라는 설정은 포기한거 아닌가요? 할 수도 있겠지만! 제가 설정한 시나리오는 ‘내가 만약 삼성SDS 마케팅 담당자라면?’ 이겁니다! 내가 만약 삼성SDS 마케팅 담당자라면! Brightics 서포터즈를 모집해서, Brightics를 홍보하자는 전략에 대해서 어떠한 근거를 통해서 이야기하고, 그 근거를 어떤 데이터를 어떻게 분석해서 제안했을까? 라는 생각을 했습니다! 물론 진짜 담당자님께서는.. 저보다 높은 퀄리티의 제안서(?)를 작성하셨겠지만.. 일단 한번 제안서(라고 부르는건지 모르겠지만) 작성 과정을 실습해보고자 합니다! 자세하게 어떤 데이터를 사용해서 어떻게 할건지에 대해서는 나중에 포스팅할 때 자세하게 이야기할 예정입니다..! 궁금하셔도 참아주세요! ٩( ᐛ )و 그럼 다음 포스팅에서는 좀 더 자세한 내용으로 만나요~! 안녕! ٩( ᐛ )و * Brightics 서포터즈 활동의 일환으로 작성된 포스팅입니다. * 반응형

So you have finished reading the 데이터 분석 프로젝트 topic article, if you find this article useful, please share it. Thank you very much. See more: 파이썬 데이터분석 프로젝트, 데이터 분석 프로젝트 예시, 데이터 분석 주제, 데이터 분석 주제 추천, 대학생 빅데이터 프로젝트, 데이터 분석 프로젝트 주제, 데이터 분석 주제 선정, 공공데이터 분석 프로젝트

[ 빅데이터의 이해 ] 공공 데이터를 이용하여 지하철 이용객 데이터 분석

제리

2021년 1학기에 진행한 프로젝트인데, 그동안 다사다난하여 이제야 프로젝트 로그를 적는다.

이 프로젝트는 학교 기말과제로 제출하였고, 제목에도 있듯이 ‘빅데이터의 이해’라는 과목이었다.

해당 기말과제는 자유로운 주제로 데이터를 분석하는 것이었다.

단, 공공데이터를 이용해야 된다.

이 과목은 프로그래밍 언어를 가르치는 것은 아니다.

주로 빅데이터 이론에 대해서 배웠고, 분석 방법도 이론만 배웠다.

교양 과목이었지만, python 언어를 활용할 수 있기 때문에

다른 수강생들과 차이점을 두기 위해 python을 이용해서 분석하기로 마음을 먹었다.

참고문헌 포함하여 10페이지 안으로 보고서를 작성해야 되기 때문에

많은 내용을 담지는 못하지만, 대충 하는 성격은 못되어서 보고서에 담지 못한 내용까지 포함하여

블로그에 정리를 하려고 한다.

결과부터 말하자면 기말과제는 만점을 받았고, 학점은 A+을 받았다.

보고서에 적은 순서로 포스팅을 할 예정이다.

1. Project 목적

2. 배경 및 필요성

3. 데이터 수집 및 전처리

4. 데이터 분석

5. 결론

언어 : Python

사용 라이브러리 : pandas, folium, googlemaps

# 필요 라이브러리 import import pandas as pd import folium import folium.plugins as plugins import googlemaps

참고로 해당 프로젝트는 2021년 6~7월에 진행한 것이라서 지금이랑 코로나 상황이 많이 다르다.

500~1500명 정도로 지금보다는 확연히 적은 수이지만, 물론 이때도 심각하였고 거리두기를 강화해서 저녁 10시 제한이 걸려있는 상황이다.

[ Project 목적 ]

중학생 때부터 지겹도록 서울 지하철을 많이 타고 다녔다. 물론 지금도 지겹도록 타고 있다.

아침 출근시간, 저녁 퇴근시간을 보면 유동인구가 많은 역에는 역무원들이 추가로 배치되어 있는 것을 볼 수 있다.

구토나 음식물로 인하여 전철이 오염되거나 갑작스러운 상황을 미리 대비하기 위해 적은 직원들을 효율적으로 배치하고 집중 분배를 시킬 필요가 있다.

집중분배를 하기 위해 승·하차 인원 정보 데이터를 이용하여 언제, 어디에 사람들이 제일 많이 모이는지 확인한다.

특히 거리두기 강화로 저녁 10시에 승·하차인원이 급증하게 되는데 이때 어느 지하철역의 사람이 제일 많이 모이는지 확인한다.

이 프로젝트를 통해서 서울 지하철의 직원을 효율적으로 배치하기 위해 데이터 분석을 통하여 언제, 어디에 승객들이 가장 많이 모이는지 미리 예측할 수 있도록 도움을 주고자 한다.

(물론, 이미 데이터 분석을 통해서 효율적으로 배치하고 있을 것이다.)

[ Project 배경 및 필요성 ]

옛날에도 자주 겪었고, 최근에 또 겪었던 일이 있다.

학교를 다닐 때 지하철 마지막 차를 많이 탔었는데 술을 먹고 타는 사람들이 굉장히 많았다.

그래서 마지막 차를 타면 높은 확률로 구토를 자주 본다.🤮🤮

이제는 사회적 거리두기 강화로 인하여 저녁 10시가 되면 식당 문을 닫아서 저녁 10시까지 빠르게 먹고 지하철을 타는 사람들이 많다. (이때는 저녁 10시였다.)

마지막 차처럼 술에 취한 사람도 많지만, 사람도 많아서 구토를 발견하면 너무 큰 피해를 준다.

지하철 안에서 구토를 하거나 음식물을 흘린 사람들은 휴지 같은 닦을 것이 없어서 못 치워서 주변 사람들에게 휴지가 있는지 물어봐서 치우는 게 정상이지만, 대부분은 다른 칸으로 가던가 그냥 나가버린다.

객실 내부의 청소는 보통 종착역에 도착했을 때 하기 때문에, 종착역 도착하기 전에 오염이 되면 좌석에 앉지도 못하고 냄새로 인하여 주변에 여러모로 피해가 많기 때문에 신속한 처리가 필요하다고 본다.

목적에도 말하였듯이 출퇴근 시간에 사람들이 많이 몰리는 지하철역에는 직원이 앞뒤로 1명씩 배치가 되어있는 것을 종종 본다. 하지만, 그렇지 않은 역이 대부분이고 지하철 운행하는 기관사분이 마이크를 통해 말을 하여도 통제가 전혀 되지 않는다. 이러면 다음 열차부터 계속 지연되어서 몇 백에서 몇 천이 피해를 보는 것이다.

이런 피해를 자주 당해서 언제 어디에 승객들이 많이 몰리는지 알려주어야겠다는 필요성을 느꼈다.

해결하기 위해서 직원을 더 뽑는 방안도 있다.

하지만 2021년 코로나19와 우대권 등의 관한 문제로 인하여 서울교통공사의 예상 적자가 1조 넘게 발생하였고, 적자는 점점 늘어나고 있다.

관련 뉴스 : https://www.news1.kr/articles/?4332941

큰 폭으로 적자가 증가하고 있다.

덩달이 직원도 감축하기 때문에 더 채용하거나 근무시간을 늘리는 것은 불가능하다.

그래서 남은 직원을 이용하여 효율적으로 운영시키는 것이 필요하다.

이것에 대해서 여러 조사를 하다가 서울교통공사가 적자라는 것에 대해 크게 와닿은 영상이 있었다.

인형을 팔았다는 사실을 이 영상 보고 알았지만, 적자가 심각하다는 것을 각인시킨 영상이었다.

[ 데이터 수집 및 전처리 ]

데이터 수집

데이터는 [서울시 지하철 호선별 역별 시간대별 승·하차 인원 정보]를 이용하였고, [서울 열린 데이터 광장]에서 수집하였다.

이 데이터는 티머니로부터 제공받았다고 한다.

http://data.seoul.go.kr/dataList/OA-12252/S/1/datasetView.do

2015.01부터 2021.05까지의 승·하차 인원 수가 적혀 있는 데이터이다.

데이터는 정형 데이터로 되어있고, 속성은 [사용 월, 호선명, 지하철역, 시간별 승·하차인원]으로 총 52개로 구성되어있다.

# 승하차 인원정보 (2021.05~2015.01) station_people = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # info station_people.info()

컬럼이 너무 많아서 짤렸지만 03시~04시까지 있다.

# size station_people.shape

행은 44730개가 있고 총 52개의 열로 구성되어있다.

데이터 전처리 1 – 지하철역 위치

역 위치를 파악하여 지도를 통해 시각화를 하기 위해 folium라이브러리를 사용하였고, 지하철역 위경도를 뽑기 위해 googlemaps 라이브러리를 사용했다.

후에 설명을 하겠지만, 이런 식으로 시각화를 도와주는 라이브러리들이다.

시각화를 위해서는 우선적으로 지하철역의 위경도를 알아야 한다.

해당 데이터셋에 위경도 관련 정보를 없기 때문에 위경도가 있는 데이터셋을 찾아보려고 했으나, 마땅한 데이터가 없어서 포기하고 googlemaps 라이브러리를 이용해 위경도를 추가하였다.

※ 관련 내용은 밑 블로그 게시글을 참고

https://eunjin3786.tistory.com/304

# data read address_station = pd.read_csv(‘서울시 지하철 호선별 역별 시간대별 승하차 인원 정보.csv’,encoding=’EUC-KR’) # 호선명이랑 지하철 역 정보만 추출 address_station=address_station.loc[address_station[‘사용월’]==202105,:] address_station=address_station[[‘호선명’,’지하철역’]]

서울 지하철역이 새로 생기는 것도 있고, 없어지는 것도 있기 때문에 제일 최근 값인 21년 5월에 승·하차 데이터가 발생한 지하철역을 가지고 왔다.

호선명은 역 이름이 같은 경우 구분하기 위해서 가져왔다. (양평 – 중앙선, 5호선)

# 정확한 위도와 경도를 얻기위해 역 추가 for i in address_station.index: station=”.join(list(address_station.loc[i,[‘지하철역’]])) if station[-1] != ‘역’: address_station.loc[i,[‘지하철역’]] = station+’역’

구글맵에서 위경도 값을 가져오기 때문에 검색을 위해서 정확한 지하철역 이름으로 했다.

my_key = “******************************************” maps = googlemaps.Client(key=my_key) lat = [] #위도 lng = [] #경도 # 위치를 찾을 장소나 주소를 넣어준다. places = list(address_station[‘지하철역’]) i=0 for place in places: i = i + 1 try: geo_location = maps.geocode(place)[0].get(‘geometry’) lat.append(geo_location[‘location’][‘lat’]) lng.append(geo_location[‘location’][‘lng’]) except: lat.append(”) lng.append(”) print(“%d번 인덱스 위치를 찾는데 실패했습니다.”%(i)) # 데이터프레임만들어 출력하기 df = pd.DataFrame({‘위도’:lat, ‘경도’:lng}, index=places) print(df)

위 코드 결과

208번 인덱스를 제외하고 나머지의 위·경도는 잘 찾은 모습이다.

address_station[‘위도’]=lat address_station[‘경도’]=lng # 동일한 역 처리 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘위도’]]= 37.526226 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’5호선’),[‘경도’]]= 126.8844202 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘위도’]]= 37.4927357 address_station.loc[(address_station[‘지하철역’]==’양평역’)&(address_station[‘호선명’]==’중앙선’),[‘경도’]]= 127.4896358 # 위도 경도 못찾는 역 삽입 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘위도’]]= 37.5819884 address_station.loc[(address_station[‘지하철역’]==’증산(명지대앞)역’),[‘경도’]]= 126.9101305

이름이 동일한 역의 위·경도를 수정하고 208번 인덱스(‘증산(명지대앞)역’) 위·경도를 추가했다.

# 서울시 중심부의 위도, 경도 입니다. center = [37.541, 126.986] # 맵이 center 에 위치하고, zoom 레벨은 11로 시작하는 맵 m을 만듭니다. m = folium.Map(location=center, zoom_start=10) # 컬러 딕셔너리 (6호선 색깔이 없어서 검정으로 대체) c_dic = {‘1호선’:’darkblue’,’2호선’:’green’,’3호선’:’orange’,’4호선’:’lightblue’,’5호선’:’darkpurple’,’6호선’:’black’,’7호선’:’darkgreen’,’8호선’:’pink’,’9호선’:’beige’,’중앙선’:’blue’, ‘9호선2~3단계’:’beige’,’경강선’:’cadetblue’,’경부선’:’cadetblue’,’경원선’:’cadetblue’,’경의선’:’cadetblue’,’경인선’:’cadetblue’,’경춘선’:’blue’,’공항철도 1호선’:’cadetblue’,’과천선’:’cadetblue’,’분당선’:’lightred’ ,’수인선’:’lightred’,’안산선’:’red’,’우이신설선’:’cadetblue’,’일산선’:’red’,’장항선’:’cadetblue’} # Choropleth 레이어를 만들고, 맵 m에 추가합니다. for i in address_station.index: folium.Marker( location = list(address_station.loc[i,[‘위도’, ‘경도’]]), popup = address_station.loc[i, ‘지하철역’], icon=folium.Icon(color=c_dic[address_station.loc[i, ‘호선명’]],icon=’star’) ).add_to(m) # 맵 m을 저장 m.save(‘map.html’)

folium 라이브러리를 이용해서 지하철역마다 위·경도가 제대로 들어갔는지 확인했다.

호선 색깔을 최대한 현실 반영해서 만들었다.

지하철역위치.html 0.61MB

결괏값은 이런 식으로 나오고 확대·축소도 가능하다.

서울 지하철이 얼마나 많은지 한눈에 확인이 가능하다.

앞으로 위·경도 정보는 시각화할 때마다 사용하기 때문에 저장

# csv 저장 address_station.to_csv(“서울교통공사_역주소_위경도.csv”,index=False)

데이터 전처리 2 – 날짜 지정

해당 데이터는 2015.01부터 2021.05까지의 승하차 인원수가 있다.

그래서 코로나 상황이랑 그전에 있었던 상황이 많이 다르기 때문에,

코로나가 급격히 유행이 되면서 사회적 거리두기가 2단계로 격상된 2020년 8월부터 2021년 5월까지의 데이터만 가지고 왔다.

# 2020.08 그 전 데이터는 제외 for i in station_people.index: if int(station_people.loc[i,[‘사용월’]])==202007: break station_people = station_people.loc[:6041,:] station_people.shape # csv 저장 station_people.to_csv(“서울시 지하철 호선별 역별 시간대별 승하차 인원 정보_202008까지.csv”,index=False)

공공데이터라서 null값도 없고, 정형이기 때문에 전처리는 여기까지 했다.

이제 승차인원이 많은 곳은 어디인지, 하차인원이 많은 곳은 어디인지, 시각화를 통해서 분석을 할 예정이다.

다음 포스팅에서 이어짐..

키워드에 대한 정보 데이터 분석 프로젝트

다음은 Bing에서 데이터 분석 프로젝트 주제에 대한 검색 결과입니다. 필요한 경우 더 읽을 수 있습니다.

이 기사는 인터넷의 다양한 출처에서 편집되었습니다. 이 기사가 유용했기를 바랍니다. 이 기사가 유용하다고 생각되면 공유하십시오. 매우 감사합니다!

사람들이 주제에 대해 자주 검색하는 키워드 [프로젝트발표영상] 배달 매출 예측 분석

  • 동영상
  • 공유
  • 카메라폰
  • 동영상폰
  • 무료
  • 올리기
[프로젝트발표영상] #배달 #매출 #예측 #분석


YouTube에서 데이터 분석 프로젝트 주제의 다른 동영상 보기

주제에 대한 기사를 시청해 주셔서 감사합니다 [프로젝트발표영상] 배달 매출 예측 분석 | 데이터 분석 프로젝트, 이 기사가 유용하다고 생각되면 공유하십시오, 매우 감사합니다.

Leave a Comment