텐서플로우 선형회귀 예제

이 예제에서는 1994년과 1995년의 미국 인구 조사 소득 데이터 집합을 사용합니다. 우리는 데이터를 다운로드하고 약간의 정리를 수행하기 위해 인구 조사_dataset.py 스크립트를 제공했습니다. 이 문서에서는 그라데이션 하강 알고리즘을 사용하여 선형 회귀 문제를 해결하는 방법을 소개했습니다. 선형 회귀의 한 가지 문제는 데이터에 적합하지 않은 경향이 있으며 이 문제를 해결하는 한 가지 방법은 로컬에 가중치가 있는 선형 회귀라고 하는 기술입니다. 이 기술에 대한 자세한 내용은 [1]에서 확인할 수 있습니다. 입력 데이터를 처리하고 모든 피쳐 열을 정의한 후 이를 함께 배치하고 로지스틱 회귀 모델을 작성할 수 있습니다. 이전 섹션에서는 예측하려는 대상 변수가 연속적인 경우 학습 문제를 회귀 문제라고 하는 등 여러 유형의 기본 및 파생 기능 열을 보여 주어 있습니다. y가 소수의 불연속 값만 사용하면 분류 문제라고 합니다. 우리는 비용을 최소화하기 위해 w를 선택하고 싶습니다F(w). 이렇게 하려면 그라데이션 하강 알고리즘을 사용합니다. 이러한 방식으로, 우리는 반복적으로 훈련 세트를 통해 실행하고, 우리가 훈련 예제를 발생할 때마다, 우리는 단지 그 단일 훈련 예에 대한 오류의 그라데이션에 따라 가중치를 업데이트합니다.

선형 회귀에서 최적의 그라데이션을 검색하는 이 주제에 있으므로 손실 함수는 W초기화 위치에 관계없이 항상 최소 손실 값을 하나씩 생성한다는 점을 지적해야 합니다. 이것은 우리가 이와 같은 차트에 그들을 플롯 할 때 우리의 손실 함수, W와 b의 볼록하기 때문입니다. 즉, 이 그릇 모양 그림은 우리가 시작하는 위치에 관계없이 가장 낮은 지점을 식별 할 수 있습니다. 가장 간단한 피쳐_열은 숫자_열입니다. 이는 피쳐가 모델에 직접 입력해야 하는 숫자 값임을 나타냅니다. 예를 들어 이 run() 함수에서는 generate_dataset() 및 linear_regression()을 호출하여 x_batch, y_batch, x, y, y, y_pred 및 손실을 가져옵니다. 위로 스크롤하여 이 두 함수에 대한 설명을 확인합니다. 각 기본 피처 열을 별도로 사용하면 데이터를 설명하기에 충분하지 않을 수 있습니다. 예를 들어 교육과 레이블(수입 50,000달러)의 상관관계는 직업마다 다를 수 있습니다. 따라서 교육=”학사”와 교육=”석사”에 대한 단일 모델 가중치만 학습하는 경우 모든 교육-직업 조합을 캡처하지 는 않습니다(예: 교육=”학사” 및 직업=”Exec-managerial” AND 교육=”학사” 및 직업=”공예 수리”).

열의 가능한 모든 기능 값 집합을 알고 있고 그 중 몇 개만 있는 경우 범주_column_with_어휘_목록을 사용합니다. 목록의 각 키에는 0부터 자동 증분 ID가 할당됩니다.

Geplaatst in Geen categorie