목록PYTHON (60)
도찐개찐
통계 분석하고자 하는 집단과 관련해 조사나 실험의 결과로 얻는 자료 또는 이의 요약된 형태를 의미 통계학 : 좀더 효과적인 의사결정을 할 수 있도록 수치자료를 수집,정리,표현,분석하는 학문 통계는 항상 반례 가능성을 가지고 있음 관련 통계 분야 : 사회과학통계, 자연과학통계, 수학학통계 통계학의 유형 1. 기술통계학 자료중심 통계 수집한 데이터를 요약, 묘사, 설명하는 통계기법 그래프,표,수치를 이용해서 집단의 특성 파악 예) 대표값, 분산 2. 추론통계학 예측 중심 통계 (중요도높음) 수집된 데이터를 바탕으로 예측하는 통계기법 관측된 자료를 이용해서 모집단 특성 추측 모수통계 빈도분석 상관분석 ✩✩✩✩✩ 세 집단이상 평균분석 회귀분석(!!!) ✩✩✩✩✩ 비모수통계 적합도검증 변수간 상관분석 자료의 종류..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ot5PT/btrUyh1qlBX/GNc75bMbmk3ZBYncwQw4lk/img.png)
선형회귀 기본 개념 함수란 두 집합 사이의 관계를 설명하는 수학 개념입니다. 변수 x와 y가 있을 때, x가 변하면 이에 따라 y는 어떤 규칙으로 변하는지 나타냅니다. 일차 함수는 y가 x에 관한 일차식으로 표현된 경우를 의미 일차 함수식 y = ax + b에서 a는 기울기, b는 절편이라고 합니다. 기울기는 기울어진 정도를 의미하는데, x 값이 증가할 때 y 값이 어느 정도 증가하는지에 따라 정해짐 절편은 그래프가 축과 만나는 지점을 의미 x가 주어지고 원하는 y 값이 있을 때 적절한 a와 b를 찾는 것 - 머신러닝 핵심 이차 함수란 y가 x에 관한 이차식으로 표현되는 경우를 의미 - 𝑦=𝑎𝑥2y=ax2 y = ax2의 그래프를 x축 방향으로 p만큼, y축 방향으로 q만큼 평행 이동시키면 점 p와 q를..
튜링 테스트 기계가 인간과 얼마나 비슷하게 대화할 수 있는지를 기준으로 기계에게 지능이 있는지를 판별하고자 하는 시험 1950년, 앨런 튜링이 제안한 시험 - 이미테이션 게임 영국 케임브리지 대학(1931 ~ 1936년)과 미국의 프린스턴 대학(1936 ~ 1939년)에서 수학을 공부 제2차 세계대전(1940 ~ 1945년) 동안 독일의 군사 암호 기계인 에니그마(Enigma)의 해독에 핵심적인 역할 담당 오늘날 인공지능이라 볼 수 있는 기계 지능에 관심을 두고 “과연 기계도 생각할 수 있는가?”에 대한 연구를 진행 2014년 6월 영국의 런던 왕립학회가 주최한 ‘튜링 테스트 2014’에서 튜링 테스트를 통과한 첫 번째 인공지능 컴퓨터가 탄생 영국 레딩대학교(University of Reading)에서 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bxfDXU/btrUxpZpE1C/rhjykai81tJFLVrpK8Sz5k/img.png)
지도위에 데이터를 interactive하게 표현해 주는 대표적인 파이썬 지도 시각화 라이브러리 folium에 대해서 알아보고 그 사용법을 파헤쳐보도록 하겠습니다. folium 개요 folium은 leaflet.js 기반으로 만들어진 Python 지도 시각화 라이브러리 입니다. 도큐먼트 folium을 사용하여 인터랙티브한 지도를 생성하고 마커를 추가하여 시각화하거나 원으로 범위를 표기하고 html 파일로 내보내기 등을 수행할 수 있습니다. folium 설치 pip install folium으로 라이브러리를 설치할 수 있습니다. !pip install folium 모듈 import import folium 기본 좌표 설정 location에 위도, 경도 정보를 입력하여 입력한 위,경도 좌표를 기준으로 지도를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yFv7q/btrUuRikhMU/8Ye70EzQbkQjQEF6ERNJuK/img.png)
matplotlib는 대표적인 데이터 시각화를 위한 파이썬 라이브러리입니다. 특히 pandas나 numpy 패키지를 자주 사용하시는 분들은 아주 유용하게 사용할 수 있는 시각화 라이브러리입니다. 오늘은 한국인이 matplotlib를 쓰다 보면 필연적으로 만나게 될 에러에 대해서 다루도록 하겠습니다. matplotlib를 이용해서 플롯(plot)을 그릴 때, 제목, x라벨, y라벨 등에 영어가 아닌 한글을 사용하면, 한글이 제대로 표현되지 않고 깨집니다. 1 2 3 4 5 6 7 8 import matplotlib.pyplot as plt plt.scatter([0, 1, 2, 3, 4, 5], [0, 1, 2, 3, 4, 5]) plt.title('산점도') plt.xlabel('변수1') plt.yla..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cgAGg7/btrUurqqG3I/VraTV4OLWlKYyoLUukGKsk/img.png)
데이터 분석 환경 분석 환경은 주로 엔지니어 및 회사 고유의 상황에 따라 결정된다. 분석가는 환경적/구조적 특성과 제한점 등 여러 사항을 고려하여 분석을 진행한다. 특히 데이터 수집 과정을 분석 목적에 맞게 최적화 하는 등의 목적을 위해 분석가가 환경 및 구조에 관여하기도 한다. 물론, 분석가가 주도적으로 처음부터 환경을 설정하고 구조를 쌓아올라가는 경우도 있지만 이는 일반적인 상황이라고 보기 어렵다. 분석가가 좋은 성과를 내기 위해서는 분석 환경을 잘 이해/활용하고 때로는 (분석 관점에 맞게) 개선점을 엔지니어에게 전달하는 등 역할이 필요하다. 따라서 (실무는 엔지니어가 진행하더라도) 환경/시스템적 요소에 대한 이해와 지속적인 관여 역시 분석가의 역할이기도 하다. 스파크 소개 최근 비정형 데이터의 생성..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/dGHsK3/btrUyhfW2hz/B0sVft9mvd6tKgLWx5K8N1/img.png)
Python Pandas Pyrhon으로 데이터분석을 접해본다면 Python Pandas는 절대로 빠질 수 없는 모듈입니다. 모든 데이터 처리가 Pandas의 Dataframe과 Series로 이루어지기 때문에 데이터분석을 하고 싶다면 꼭 알아두어야할 모듈입니다. 오로지 데이터 분석 뿐만 아니라 다른 사람들이 만들어 놓은 모듈에서 데이터를 Dataframe으로 주는 경우도 많기 때문에 어쩌면 Python 사용자라면 필수로 알고 넘어가야하는 부분이라고 생각합니다. Python은 자료구조가 없는게 장점이자 단점인 언어라고 하는데... Python에서 다루는 자료형이 다른 언어들과는 달리, 제약이 많이 없고 자유로워서 다른 언어를 사용하던 분들에게 혼동을 줄수도 있지만, 새로운 방식이기 때문에 혁신적으로 바라..