'Development/Data mining' 카테고리의 글 목록

Development/Data mining

전국 행정동별 행정코드, 중심좌표, 행정시설좌표 합본 2024.01.11
머신러닝 : 텍스트 벡터화 2022.08.02
데이터분석 1주차 - kaggle, jupyter 2022.07.18

전국 행정동별 행정코드, 중심좌표, 행정시설좌표 합본

nissyy 2024. 1. 11. 17:45

2024. 1. 11. 17:45

1. 행정동 코드

통계청에서 제공하는 한국 행정구역분류 코드표를 활용

2021.7.1 기준 테이블 이용하였으며, 법정동코드 연계 자료분석용 시트에서

1) 시도, 시군구, 행정구역명, 행정동(행정기관명)

2) 행정기관코드

를 기준점으로 활용함.

통계청 제공의 한국 행정구역분류 코드표를 기준으로 해야 향후 공식적으로 업데이트될때 활용하기 좋을 것으로 생각하여 이를 기준점으로 삼았다.

법정동코드나 법정동 기준을 제외한것은 ....

사실 법정동이 기준 변동이 거의 없어 더 좋을 것 같긴 하나 외부에서 행정동 코드를 기준으로 제공되는 자료가 많아서

나는 행정동 코드를 기준으로 가공을 하였다.

나중에 법정동 기준으로 만들어도 좋을 것 같다는 생각이 문득.... (To be continued...)

혹시 모르니 내가 활용한 자료를 첨부

한국행정구역분류_행정동코드(7자리)_20210701기준 (2).xlsx

8.06MB

2. 중심좌표 출처

https://torrms.tistory.com/55

3. 행정시설 기준 좌표 출처

https://skyseven73.tistory.com/23

대한민국 행정구역별 위경도 좌표 파일

다 필요없고 파일부터 내놔 잘가세요. ㅂㅂ (22.04.11 파일 수정되었습니다.) 이 파일이 뭐고 왜 필요한데? 말 그대로 대한민국의 행정구역별로 위도/경도 좌표를 모아 놓은 엑셀이다. 모두 합치면

skyseven73.tistory.com

4. 자료

Korea_coordinates.xlsx

0.29MB

몇가지 좌표 정보가 누락된 부분이 있으니 주의할 것!

'Development > Data mining' 카테고리의 다른 글

머신러닝 : 텍스트 벡터화 (0)	2022.08.02
데이터분석 1주차 - kaggle, jupyter (0)	2022.07.18

머신러닝 : 텍스트 벡터화

nissyy 2022. 8. 2. 14:52

2022. 8. 2. 14:52

1. 텍스트 벡터화

텍스트를 숫자로 만들어서 머신러닝이 학습할 수 있도록 만들어주는 것

1) 문서 단어 행렬(Document-Term Matrix, DTM)

문서를 행으로 하고, 각 문서에서 등장하는 각 단어들의 등장 횟수를 행렬로 표현한 것

예시)

문서1 : 먹고 싶은 사과

문서2 : 먹고 싶은 바나나

문서3 : 길고 노란 바나나 바나나

문서4 : 저는 과일이 좋아요

단점: 단어가 전부 빈도수가 높다고 해서 이 문서들이 유사한 문서라고 판단해서는 안되나, DTM은 빈도수로만 판단하기 때문에 단어의 중요도를 반영하지 못한다.

2) TF-IDF(Term Frequency-Inverse Document Frequency)

단어의 빈도와 문서의 빈도의 역수를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법.

> 우선 DTM을 만든 후, TF-IDF 가중치를 부여해야 한다.

TF-IDF 가중치 부여한 결과)

3) 파이썬 코드

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfTransformer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

① DTM

vector = CountVectorizer() # DTM 벡터화를 위한 객체 생성
x_train_dtm = vector.fit_transform(corpus) # 해당 단어들을 벡터화 진행
print(x_train_dtm.toarray()) # 벡터가 어떻게 생겼는지 확인

② TF-IDF

tfidf_transformer = TfidfTransformer() # tfidf 벡터화를 위한 객체 생성
tfidfv = tfidf_transformer.fit_transform(x_train_dtm) # x_train_dtm에 대해서 벡터화 진행
print(tfidfv.toarray()) # 벡터가 어떻게 생겼는지 확인

4) 번외 - fit_transform 과 transform

fit_transform()

생성한 객체 (vector, tfidf_transformer) 에다가 해당 문서 혹은 단어들의 벡터값을 저장하면서 벡터화를 진행하는 함수.

>> 학습시킬 때 사용

transform()

훈련 데이터를 통해서 만들어진 벡터값을 보고, 그것에 따라 벡터화를 진행하는 함수.

>> 훈련시킬 때 사용!

'Development > Data mining' 카테고리의 다른 글

전국 행정동별 행정코드, 중심좌표, 행정시설좌표 합본 (0)	2024.01.11
데이터분석 1주차 - kaggle, jupyter (0)	2022.07.18

데이터분석 1주차 - kaggle, jupyter

nissyy 2022. 7. 18. 14:52

2022. 7. 18. 14:52

스파르타코딩클럽에서 데이터분석종합반 강의를 신청했다.

강의를 신청한 이유이자... 학습 목표는

1. 파이썬을 이용하여 빅데이터를 다룰 수 있다.

2. 파이썬을 이용하여 빅데이터 시각화를 할 수 있다.

3. 약간의 머신러닝을 사용할 수 있다.

결국은 1) 파이썬에 익숙해지기, 2) 빅데이터 다루기 가 주된 목표라고 할 수 있겠다.

5주차의 강의로, 빡세게 들은 후 머신러닝 기초 강의까지 이번 방학~9월 초/중순까지 들어보는 것이 목표쓰.

1주차 강의는 파이썬과 웹, 크롤링의 기초 강의로 사실 웹개발 종합반에서 들었던 내용과 거의 똑같..

대신, 1주차에서 얻은 몇 가지 정보를 공유한다 (●'◡'●)

1. 오픈 데이터 사이트, kaggle

https://www.kaggle.com/datasets

Find Open Datasets and Machine Learning Projects | Kaggle

Download Open Datasets on 1000s of Projects + Share Projects on One Platform. Explore Popular Topics Like Government, Sports, Medicine, Fintech, Food, More. Flexible Data Ingestion.

www.kaggle.com

데이터분석을 조금이라도 해본 사람들은 다 느끼겠지만, 좋은 결과값을 위해서는 분석 스킬이나 방법론도 중요하지만

'데이터 수집'이 어쩌면... 조금 더 중요할지도 모른다.

왜냐하면 좋은 데이터나, 실습용 데이터를 쉽게 얻기가 쉽지 않기 때문...!

수업 초반에 kaggle이라는 사이트를 알려주셨는데 깜짝 놀랐음 （⊙ｏ⊙） 머 이런 좋은 사이트가 다 있다냐...

신기한 데이터도 많고 유용한 데이터도 꽤 많은 것 같다. 연구논문에 (가능하다면) 이용할 수도 있을테지만, 대부분은 데이터 분석 실습용으로 사용하는 것 같다.

2. jupyter 설치

사실 데이터분석 종합반에서는 jupyter를 이용하지 않는다. google에서 나온 Colab을 이용하는데...

Colab에 대한 정의는 이렇게 하셨다.

앞으로의 강의에서는 구글에서 제공하는 Colab(코랩)이라는 개발 환경을 사용합니다. Colab은 인터넷과 구글 ID만 있다면 따로 개발 환경을 위한 셋팅을 하지 않고도 언제든 파이썬을 사용할 수 있게 해줍니다. 🙂

조금 살펴보니 인터페이스가 jupyter과 유사한 것 같았다? 그래서 나는 그냥 jupyter를 사용해보기로 했다.

내가 앞으로 실제적으로 코드를 짜거나 개발을 할 때 colab보다는 jupyter를 이용할 경우가 많을 것 같아서 익숙해지는 겸 하여서 jupyter를 사용하기로 하였고, 1주차 강의를 따라가보니 전혀 무리가 없었다.

jupyter notebook을 이용하기 위해서는 아나콘다를 설치하면 된다.

https://hogni.tistory.com/15

[파이썬] 파이썬 아나콘다 설치 방법, 파이썬 설치 방법

오늘은 파이썬 아나콘다를 설치하는 방법을 알아보겠습니다. 파이썬은 공식 홈페이지인 python.org에서 무료로 다운로드할 수 있지만 업무 자동화, 데이터 분석 등과 같은 일을 하기 위해서는 많

hogni.tistory.com

https://hogni.tistory.com/29

[파이썬] 주피터 노트북(jupyter notebook) 사용법

1. 주피터 노트북 창 띄우기 작업을 저장할 폴더를 열고 경로 창을 클릭해서 jupyter notebook을 입력합니다. - 주피터 노트북을 실행하기 위해서는 아나콘다가 설치되어있어야 합니다. 설치 방법은

hogni.tistory.com

아나콘다, 주피터 설치 및 실행법은 위 블로그들을 참고했다.

2주차 정도부터 내가 원하는 공부를 할 수 있을 것 같다. 열심히 달려봐야징 ~

'Development > Data mining' 카테고리의 다른 글

전국 행정동별 행정코드, 중심좌표, 행정시설좌표 합본 (0)	2024.01.11
머신러닝 : 텍스트 벡터화 (0)	2022.08.02

PREV 이전 1 NEXT 다음

Simulation& Optimization