목록PYTHON (59)
도찐개찐
교차표 범주형 데이터 분석시 사용하는 분석도구 crosstab(인덱스, 컬럼, 행이름, 컬럼이름, 총합여부, 정규화여부) import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns data = pd.DataFrame({'id': ['id1', 'id1', 'id1', 'id2', 'id2', 'id3'], 'col1': ['a', 'a', 'a', 'b', 'b', 'b'], 'col2': ['d', 'd', 'd', 'c', 'c', 'd']}) print(data.id) 0 id1 1 id1 2 id1 3 id2 4 id2 5 id3 Name: id, dtype: object # 교차표 생성 1..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns 박스플롯 box-and-whisker plot (상자수염 그래프) 데이터의 대략적인 분포와 개별적인 이상치들을 동시에 보여줄 수 있으며 서로 다른 데이터 뭉치를 쉽게 비교할 수 있도록 도와주는 시각화 기법 통계학자 존 튜키(John Tukey)가 1977년 저서 "탐색적 데이터 분석(Exploratory Data Analysis)"에서 처음 제시 범위 막대에서는 수염의 양 끝이 최대값과 최소값을 나타내고, 상자는 사분위수범위를 나타내며, 상자 안에 중앙값을 표현하는 방식으로 "5가지 요약 수치" 를 표현 boxplot(값, 옵션) kings..
import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 산점도 scatter graph n개의 짝으로 이루어진 자료(컬럼이 2개 이상)를 x, y 평면에 점으로 나타낸 그래프 자료의 분포정도를 파악하는데 사용 주로 상관/회귀분석에 사용 scatter(x축, y축, 옵션) # 약물 투여에 따른 환자 반응 age = [23, 30, 40, 45, 60] drugA = [16, 20, 27, 40, 60] drugB = [15, 18, 25, 31, 40] plt.scatter(age, drugA, color='b') plt.show() 회귀계수를 이용한 ..
선그래프 시간의 따른 데이터의 변화를 시각화하는데 유용하게 사용 지난 10년 간 경유 가격의 평균값 지난 두 달간 몸무게 변화 시계열 데이터를 시각화하는데 주로 사용 plot(x, y, 옵션) import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns 항공기 이용승객 데이터 airs = pd.read_csv('../data/airpassengers.csv') plt.figure(figsize=(25,8)) plt.plot(airs.Month[:60], airs.Passengers[:60]) plt.xticks(rotation=90, fontsize=15)..
conda create -n ipywidgets_problem jupyterlab ipywidgets -y# 명목형 데이터 시각화 빈도에 따른 막대그래프 빈도비율에 따른 원그래프 빈도는 value_counts 또는 crosstab를 이용 import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns # fontpath = '/usr/share/fonts/NanumGothic.ttf' fontpath = '/home/bigdata/py39/lib/python3.9/site-packages/matplotlib/mpl-data/fonts/ttf/NanumGothi..
!conda install -y matplotlib Collecting package metadata (current_repodata.json): done Solving environment: done ## Package Plan ## environment location: /opt/miniconda3 added / updated specs: - matplotlib The following packages will be downloaded: package | build ---------------------------|----------------- brotli-1.0.9 | h5eee18b_7 18 KB brotli-bin-1.0.9 | h5eee18b_7 19 KB cycler-0.11.0 | pyh..
import numpy as np import pandas as pd import scipy.stats as sp 변동성 이해하기 값들이 서로 얼마나 다른지 여부 파악 nums1 = [7,6,3,3,1] nums2 = [3,4,4,5,4] nums3 = [4,4,4,4,4] print(np.mean(nums1) ,np.mean(nums2) ,np.mean(nums3)) nums_df = pd.DataFrame({'a':nums1, 'b':nums2, 'c': nums3}) nums_df.mean() 4.0 4.0 4.0 a 4.0 b 4.0 c 4.0 dtype: float64 분산경향 기술통계의 또 다른 관점 - 분산, 산포 데이터가 어떻게 분포되어 있는지 설명하는 통계치 자료의 흩어지거나 밀집되는 정..
통계 분석하고자 하는 집단과 관련해 조사나 실험의 결과로 얻는 자료 또는 이의 요약된 형태를 의미 통계학 : 좀더 효과적인 의사결정을 할 수 있도록 수치자료를 수집,정리,표현,분석하는 학문 통계는 항상 반례 가능성을 가지고 있음 관련 통계 분야 : 사회과학통계, 자연과학통계, 수학학통계 통계학의 유형 1. 기술통계학 자료중심 통계 수집한 데이터를 요약, 묘사, 설명하는 통계기법 그래프,표,수치를 이용해서 집단의 특성 파악 예) 대표값, 분산 2. 추론통계학 예측 중심 통계 (중요도높음) 수집된 데이터를 바탕으로 예측하는 통계기법 관측된 자료를 이용해서 모집단 특성 추측 모수통계 빈도분석 상관분석 ✩✩✩✩✩ 세 집단이상 평균분석 회귀분석(!!!) ✩✩✩✩✩ 비모수통계 적합도검증 변수간 상관분석 자료의 종류..