python 데이터분석 예제

By Dave Sanasack, on Aug, 02 2019

이 함수는 데이터의 개수, 평균, 표준 편차, 최소 값 및 최대값 및 쿼터수를 반환합니다. 물론 파이썬에서 팬더 자체를 포함하여 이러한 통계를 제공 할 수있는 많은 패키지가 있습니다. 이 함수를 사용하는 것은 이 정보를 얻는 방법 중 하나일 뿐입니다. 예를 들어 방금 본 요인 예제를 생각해 보십시오. 우리는 다음과 같이 한 단계로 할 수 있습니다 : 이러한 목표를 달성하는 많은 방법이 있습니다 : 당신은 데이터에 대한 기본 설명을 얻을 수 있습니다, 시각화, 그 안에 패턴을 식별, 데이터 사용의 문제를 식별, 기타. 표준 편차 및 중앙값과 함께 데이터를 사용할 수 있는 방법, 의미, 최소 및 최대값에 대한 그림을 얻고 있습니다. 백분위수도 있습니다. 표준 편차는 데이터가 평균 위 또는 아래로 어떻게 분산되는지 파악하는 데 매우 유용한 도구입니다. 값이 높을수록 신뢰성이 낮거나 그 반대의 경우도 마찬가지입니다. 예를 들어 금액의 std는 183.5, 평균은 약 35입니다.

반면 단위의 평균은 12.7이고 std는 17.85입니다. 아, 그냥 std표준 편차의 짧은 형태임을 명확히하기 위해, 성병이 아닌, 그냥 당신이 우리의 데이터가 일부 질병을 잡은 생각하지 않도록 명확히 생각했다. 기능 엔지니어링을 사용하여 학습 프로세스에 도움이 되는 원시 데이터에서 기능을 만들어 학습 알고리즘의 예측 능력을 높일 수 있습니다. 데이터의 기존 원시 피쳐에서 추가 관련 기능을 만들어 이 작업을 수행합니다. 파이썬을 시작하기 전에 파이썬에서 데이터 분석을 수행하기 위해 파이썬 프로그래밍에 능숙해야한다는 오해가 있었습니다. 그래서 Udacity의 인트로 파이썬 프로그래밍 과정을 수강하고 코드 아카데미 파이썬 자습서를 완료하고 여러 파이썬 프로그래밍 책을 읽었습니다. 3 개월 동안 (하루에 3 시간을 소비) 나는 작은 소프트웨어 프로젝트를 완료하여 파이썬 프로그래밍을 배우고 있었다. 코딩은 재미있었지만, 저의 목표는 파이썬 개발자가 되는 것이 아니라 파이썬을 사용하여 데이터 분석을 하는 것이었습니다. 그런 다음 데이터 분석을 하기보다는 파이썬에서 소프트웨어를 개발하는 방법을 배우는 데 더 많은 시간을 할애하고 있다는 것을 깨달았습니다. 몇 시간의 연구 끝에 광범위한 데이터 분석 문제를 효과적으로 해결하기 위해 5 개의 Python 라이브러리를 배워야한다는 것을 알게되었습니다. 그런 다음 이 라이브러리를 차례로 배우기 시작했습니다.

제 생각에, 데이터 분석을 생산적으로 수행 할 수 있도록 Python에서 좋은 소프트웨어를 구축하는 데 능숙할 필요는 없습니다. 이렇게 하면 10개의 행이 인쇄됩니다. 또는 데이터 집합을 인쇄하여 더 많은 행을 볼 수도 있습니다. 이제 우리는 분포가 이전보다 훨씬 낫다는 것을 알 수 있습니다. 성별, 기혼, 부양가족, Loan_Amount_Term, Credit_History에 대한 누락된 값을 부추기도록 여러분에게 맡기겠다. 또한 데이터에서 파생 될 수있는 가능한 추가 정보에 대해 생각해보시기 좋습니다. 예를 들어, 신청자가 자신의 대출을 상환하기에 얼마나 적합한지에 대한 아이디어를 제공하기 때문에 대출 금액 / 총 소득에 대한 열을 만드는 것이 합리적 일 수 있습니다. 파이썬을 설치하면 환경을 선택하는 다양한 옵션이 있습니다.

다음은 3 가지 가장 일반적인 옵션입니다 : 당신은 `복합`과 `참여`는 플로트 유형이어야한다는 것을 볼 수 있습니다. 좋은 방법은 일관되게 비교하려는 수치 데이터의 유형을 유지하는 것이므로 데이터의 무결성을 손상시키지 않고 `Total`을 float 유형으로 변환하는 것이 좋습니다(정수 = 1166, float = 1166.0).