본문 바로가기

Python52

[Python] 맥OS 가상환경 설정하기 :: 마이자몽 Python 가상환경 설정 Python 가상환경은 여러 버전의 Python과 각각 프로젝트별 다른 라이브러리와 설정들을 사용하기 위해 사용된다. 여러 PC에서 다른 환경을 세팅하여 작업을 하는 것을 하나의 PC에서 여러개의 환경을 설정하여 사용하는 방법이다. Virualenv & VirtualenvWrapper 가상환경을 세팅해주기 전에 python설치는 완료되어있어야한다. 맥은 기본으로 파이썬2버전이 설치되어 있고 파이썬3버전을 설치하여 가상환경 세팅을 해줄것이다. pip3 install virtualenv virtualenvwrapper Virtualenv와 VirtualenvWrapper는 바이너리 파일과 그 바이너리파일을 실행해주는 배치파일 정도?의 관계로 표현하고 싶다. Virtualenv를 통.. 2019. 3. 31.
[Python] 웹으로 코딩 하자 Jupyter Notebook :: 마이자몽 출처 : https://en.wikipedia.org/wiki/Project_Jupyter Jupyter NotebookJupyter 홈페이지(https://jupyter.org/)의 주피터 노트북(Jupyter Notebook) 정의는 아래와 같다.라이브 코드, 등식, 시각화 및 서술 텍스트가 포함된 문서를 작성하고 공유 할 수있는 오픈 소스 웹 애플리케이션이다. 주로 데이터 정리 및 변환, 수치 시뮬레이션, 통계 모델링, 데이터 시각화, 기계학습 등을 할수 있다. 저는 Jupyter Notebook에 대한 최대 장점은 교육의 편의라고 생각합니다. 특히, 향후 직업과 무관하게 경험을 해보고 싶다거나, 비전공자들을 대상으로 하는 대학교 강의에서 단순 실습 목적으로 교육을 한다면 첫 에디터로 Jupyter.. 2019. 3. 7.
[TensorFlow] 로지스틱 회귀분석 Logistic Regression Classification :: 마이자몽 출처 : https://www.tensorflow.org로지스틱 회귀분석 Logistic Regression Classification선형 회귀분석으로 학습데이터로 특정 수치를 얻었다면, 로지스틱 회귀분석으로는 분류 데이터를 얻을 수 있다. 필자가 올렸던 선형 회귀분석 글에서 예시로 1,2,3 번째 시험 점수로 최종시험점수를 예측하는 작업을 했다. 로지스틱 회귀분석으로는 1,2,3 번째 시험 점수로 최종시험의 합격 불합격 기준을 분류할 수 있다. 이외에 실생활에서는 질병의 유무를 파악, 스팸메일 구분, SNS 글 추천, 쇼핑 관심사 추천 등 각종 데이터를 기반으로 분류를 해주는 작업을 할 수 있다. 선형 회귀분석 VS 로지스틱 회귀분석로지스틱 회귀분석으로 분류 작업을 한다. 종속변수 Y의 값을 Binar.. 2019. 3. 3.
[TensorFlow] 다중 선형 회귀분석 multi-value linear regression :: 마이자몽 출처 : https://www.tensorflow.org다중 선형 회귀(Multi-Value Linear Regression)단순 선형 회귀분석에서는 하나의 독립변수 x값에 대해 하나의 종속변수 y값을 찾는 작업을 했었다. 하지만, 실제로 사용하는 데이터에서 독립변수가 하나인 경우는 매우 드물다. 예를 들어 총 4번의 시험을 보는데 1, 2, 3번째 시험점수를 기반으로 4번째 시험점수를 예측해볼 수 있는 것 처럼 여러개의 독립변수로 결과값을 예측하기 위해 다중 선형회귀를 사용해보자. 단순 선형 회귀에서 사용하던 가설에 x값을 여러개 추가하여 위와 같은 식으로 가설을 세울수 있다. 독립변수가 추가되어 변경된 가설을 사용하면 cost function식 또한 위와같이 가술 부분만 변경된다. tensorflow.. 2019. 3. 3.
[TensorFlow] 회귀분석 비용함수(Cost Function) 최소화 :: 마이자몽 출처 : https://www.tensorflow.org 비용함수(Cost Function) 최소화회귀분석의 목표는 Cost Function을 최소화하는 것이다. 선형 회귀식에서 학습데이터가 주어지면 W와 b의 값을 조정하여 Cost Function의 값을 최소화한다. cost function을 구하는 식을 쉽게 풀어주기 위해 b 값을 정리하면 위와 같은 식이 나온다.cost(W) 값을 Y축, W값을 X 축으로 지정하고 x, y 데이터에 각각 1,2,3 데이터를 넣고x y 1 1 2 2 33 W값을 조금씩 수정해주면서 그래프를 그려본다.W = 0 일때 -> ((0 * 1 - 1)^2 + (0 * 2 - 2)^2 + (0 * 3 - 3)^2)/3 = 4.67W = 1 일때 -> ((1 * 1 - 1)^2 .. 2019. 3. 2.
[TensorFlow] 선형 회귀분석 linear regression : 마이자몽 참조: https://www.tensorflow.org 선형 회귀분석(Linear Regression) 주어진 데이터를 기반으로 모델을 생성하여 새로운 값이 들어왔을때 결과값을 예측하는 지도학습 예측 알고리즘이다. 일반적으로 어떠한 값을 예측할때 몇가지 고려요소(독립변수:노동시간)를 기준으로 결과(종속변수:수입)를 예측하기 위해 가설(Hypothesis)를 세워야한다. 고려요소를 x, 결과를 y로 두고 식을 세워보면 직선 모양의 1차방정식이 만들어진다. 독립변수가 여러가지라고 해도 직선모양의 1차방정식이다. 위 식을 회귀식이라하고 노동시간과 수입의 관계 그래프 회귀선을 만들어 보자. 선형 회귀 그래프육안으로도 확인이 가능할 정도로 규칙이 보이는 데이터는 회귀식도 만들기 쉽기 때문에 기울기(W)와 x값에 .. 2019. 3. 2.
[TensorFlow] 텐서플로우 기본 이해 :: 마이자몽 출처 : https://www.tensorflow.org 텐서플로우 기본 이해 텐서플로우를 사용한 머신러닝 공부 내용을 정리하는 차원에서 블로그 카테고리를 만들어 글을 남겨볼려고한다. 해당 카테고리의 글들은 여러 사이트 및 영상을 참고하여 정리한 내용이다. -참고 사이트 https://www.tensorflow.org/?hl=ko https://www.youtube.com/channel/UCML9R2ol-l0Ab9OXoNnr7Lw 텐서플로우(TensorFlow)란? 텐서플로우는 텐서(Tensor)들이 흐른다는 의미를 갖고 있다. 우리가 작성한 텐서들이 돌아 다니면서 기계가 학습하는 그림을 머리속에서 그리면 조금 더 쉽게 이해 할 수 있을 것이다. 텐서플로우는 -구글에서 만든 오픈소스 라이브러리다. -데이.. 2019. 3. 1.
[Python 분류] 로지스틱 회귀분석 sklearn 데이터 분류 :: 마이자몽 로지스틱 회귀분석 로지스틱 회귀분석은 종속변수(Y)와 독립변수(X) 간의 관계를 나태내어 예측모델을 생성한다는 점에서 선형회귀 분석과 비슷하지만, 종속변수(Y)의 결과가 범주형으로 분류 분석에 해당된다. 조금더 상세한 이해를 위해 예시를 들어 보겠다. 연구내용 : 연봉, 야근 횟수, 복지 만족도, 업무 적합도가 퇴사에 미치는 영향연속형 자료(연봉, 야근 횟수, 복지 만족도, 업무 적합도)가 범주형 자료(퇴사한다 안한다)에 미치는 영향을 분류한다. 로지스틱 회귀 분석은 종속변수(Y)에 로짓 변환을 실시하여 로지스틱 회귀분석이라고 한다. 위 로지스틱 모형식은 독립변수(X)의 값에 관계 없이 종속변수(Y)의 값이 항상 0 - 1 사이에 있도록 한다. 로지스틱 회귀 분석에 대한 통계학적 설명은 아래 링크를 참조.. 2019. 2. 12.
[Python 분류] 랜덤포레스트(Random Forest) iris 데이터 예측 :: 마이자몽 의사결정 트리(Decision Tree) 랜덤포레스트를 공부하기 전에 의사결정트리에 대해서 알아야한다. 말그대로 의사를 결정하는데 이진형 답변의 연속 모델이다. 쉬운 예시를 하나 들어보면 '스무고개' 와 비슷하게 예 아니오의 대답으로 최종 답변이 결정되는 구조이다. 위 의사 결정 트리는 사망 생존 여부를 결정하는 트리이다. 처음 남자 인지 여부를 확인하고, 나이를 확인 하고, sibsp 지수를 확인하여 사망인지 생존인지 시각적이고 명시적인 방법으로 의사 결정을 내릴 수 있다. 랜덤포레스트(Random Forest)랜덤포레스트는 수많은 의사결정 트리가 모여 만들어진 숲으로 표현한다. 위 의사결정 트리에서는 성별, 나이, sibsp 지수 딱 3가지 요소로 생존여부를 결정하였다. 하지만, 생존 여부는 이 세가.. 2019. 2. 10.
[Python 감정분석] 영어 데이터 벡터화 :: 마이자몽 데이터 벡터화이번 글에서는 이전 전치리 작업한 텍스트 데이터를 벡터화시키는 작업을 진행할 것이다.전처리 과정은 아래 링크 참조https://myjamong.tistory.com/77 텍스트를 컴퓨터가 알아보기 쉽게 사전작업을 진행해주는 것이다.문장의 단어를 counting해서 배열안에 count된 수를 넣어주는 작업Bag Of Words Model 참조 데이터 전처리 작업 코드12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758from multiprocessing import Poolimport pandas as pdimport reimport timeimport n.. 2019. 2. 9.