
모집단에서 추출한 표본(샘플)에 대해서, 또 사디 재표본(샘플)을 여러번 추출하여 모델을 평가하거나 데이터의 분포를 파악하는 재표본추출 방법이다.
샘플링을 할 때는 단순랜덤 복원추출법을 사용하여 동일한 크기의 표본을 여러개 생성하므로, 특정 데이터가 여러 샘플에 포함될수도 있고 혹은 어떠한 샘플에도 포함되지 않을 수 있다.
bootstrap 을 통해 100개의 샘플을 추출했을 때, 샘플에 한번도 선택되지 않는 원데이터가 발생할 확률은 36.8%이다. 이러한 데이터를 OOB (Out-Of-Bag) 데이터라고 하며, OOB 데이터의 실제값과 예측값 사이의 오차로 정의되는 값을 OOB-Error 라고 한다.
bootstrap 은 주어진 자료에서 단순랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러번 생성하는 샘플링 방법이다. bootstap 을 통해 100개의 샘플을 추출해도 샘플에 한번도 선택되지 않는 원데이터가 발생할 수 있는데, 이는 전체 샘플의 약 36.8%가 여기 해당한다.