Малые выборки применяют когда исследуется число единиц. Смотреть страницы где упоминается термин малая выборка

Выборки, при которых наблюдением охватывается небольшое число единиц (n < 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Предельная ошибка малой выборки определяется по формуле:

Средняя ошибка малой выборки:

где - дисперсия малой выборки:

где - среднее значение признака по выборке;

Число степеней свободы

Коэффициент доверия малой выборки, зависящей не только от заданной доверительной вероятности, но и от численности единиц выборки.

Вероятность того, что генеральная средняя находится в определенных границах, определяется по формуле

где - значение функции Стьюдента.

Для расчета коэффициента доверия определяют значение функции по формуле:

Затем по таблице распределения Стьюдента (см. приложение 4) в зависимости от значения функции и числа степеней определяют значение .

Функция используется также для определения вероятностей того, что фактическое нормированное отклонение не превзойдет табличное значение.


Тема 7. Статистическое изучение взаимосвязи : Понятие статистической связи. Виды и формы статистической связи. Задачи статистического изучения взаимосвязи явлений. Особенности связей социально-экономических явлений. Основные методы статистического изучения связей.

Корреляционная связь –связь, проявляющаяся не в каждом отдельном случае, а в массе случаев в средних величинах в форме тенденции.

Статистическое исследование ставит своей конечной целью получение модели зависимости для ее практического использования. Решение этой задачи осуществляется в следующей последовательности.

1. Логический анализ сущности изучаемого явления и причинно-следственных связей. В результате устанавливаются результативный показатель (у), факторы его изменения, характеризуемые показателями (х { , х 2 , х 3 , ..., х„). Связь двух признаков и х) называется парной корреляцией . Влияние нескольких факторов на результативный признак называется множественной корреляцией .

По общему направлению связи могут быть прямые и обратные . При прямых связях с увеличением признака x увеличиваетcя и признак у, при обратных - с увеличением признака х признак у уменьшается.

2. Сбор первичной информации и проверка ее на однородность и нормальность распределения. Для оценки однородности совокупности используется коэффициент вариации по факторным признакам

Совокупность считается однородной, если коэффициент вариации не превышает 33%. Проверка нормальности распределения исследуемых факторных признаков (х { , х 2 , х 3 , ..., х„) проводится с помощью правила «трех сигм». Результаты проверки на нормальность распределения следует представлять в табличной форме.

При контроле качества товаров в экономических исследованиях эксперимент может проводиться на основе малой выборки.

Под малой выборкой понимается несплошное статистическое обследование, при котором выборочная совокупность образуется из сравнительно небольшого числа единиц генеральной совокупности. Объем малой выборки обычно не превышает 30 единиц и может доходить до 4-5 единиц.

В торговле к минимальному объему выборки прибегают, когда большая выборка или невозможна, или нецелесообразна (например, если проведение исследования связано с порчей или уничтожением обследуемых образцов).

Величина ошибки малой выборки определяется по формулам, отличным от формул выборочного наблюдения со сравнительно большим объемом выборки (n>100). Средняя ошибка малой выборкиu(мю)м.в. вычисляется по формуле:

uм.в = корень(Gквадрат(м.в.) . /n),

где Gквадрат(м.в.) – дисперсия малой выборки.*это сигма*

По формуле (там номер стоит) имеем:

G0квадрат=Gквадрат *n/ (n-1).

Но поскольку при мало выборке n/(n-1) имеет существенное значение, то вычисление дисперсии малой выборки производится с учетом так называемого числа степеней свободы. Под числом степеней свободы понимается количество вариантов, которые могут принимать произвольные значения, не меняя величины средней. При определении дисперсииGквадрат число степеней свободы равноn-1:

Gквадрат(м.в.) = сумма (xi–x(cволнистой чертой))/(n-1).

Предельная ошибка малой выборки Дм.в.(знак- треугольник) определяется по формуле:

При этом значение коэффициента доверия tзависит не только от заданной доверительной вероятности, но и от численности единиц выборкиn. Для отдельных значенийtиnдоверительная вероятность малой выборки определяется по специальным таблицам Стьюдента, в которых даны распределения стандартизованных отклонений:

t= (x(cволнистой чертой) –x(с чертой)) /Gм.в.

Таблицы Стьюдента приводятся в учебниках по математической статистике. Вот некоторые значения из этих таблиц, характеризующие вероятность того, что предельная ошибка малой выборки не превзойдет t-кратную среднюю ошибку:

St=P[(x(cволнистой чертой) –x(с чертой)

По мере увеличения объема выборки распределение Стьюдента приближается к нормальному, и при 20 оно уже мало отличается от нормального распределения.

При проведении малых выборочных обследований важно иметь в виду, что чем меньше объем выборки, тем больше различие между распределением Стьюдента и нормальным распределением. При минимальном объеме выборки (n=4) это различие весьма существенно, что указывает на уменьшение точности результатов малой выборки.

Посредством малой выборки в торговле решается ряд практических задач, прежде всего установление предела, в котором находится генеральная средняя изучаемого признака.

Поскольку при проведении малой выборки в качестве доверительной вероятности практически принимается значение 0,95 или 0,99, то для определения предельной ошибки выборки Дм.в. используются следующие показания распределения Стьюдента.

Свои способности человек может узнать, только попытавшись приложить их. (Сенека)

Бутстреп, малые выборки, применение в анализе данных

Основная идея

Метод бутстрепа предложен Б. Эфроном как развитие метода складного ножа в 1979 году.

Опишем основную идею бутстрепа.

Цель анализа данных – получить максимально точные выборочные оценки и распространить результаты на всю популяцию.

Технический термин, которым обозначаются численные данные, построенные по выборке, это выборочная статистика.

Основные описательные статистики это выборочные среднее, медиана, стандартное отклонение и т.д.

Итоговая статистика, например, выборочное среднее, медиана, корреляция будут меняться от выборки к выборке.

Исследователю требуется знать размер этих отклонений в зависимости от популяции. На основании этого рассчитывается предел погрешности.

Исходная картина всех возможных значений выборочной статистики в форме распределения вероятностей называется выборочным распределением.

Ключевым является размер выборки. Что делать, если размер выборки небольшой? Один из разумных подходов состоит в том, чтобы случайным образом извлекать данные из имеющейся выборки.

Идея бутстрепа в том, чтобы использовать результаты вычислений по выборкам как “фиктивную популяцию” с целью определить выборочное распределение статистики. Фактически, при этом анализируется большое число “фантомных” выборок, называемых бутстреп-выборками.

Обычно случайным образом генерируется несколько тысяч выборок, из этого набора можно найти бутстреп-распределение интересующей нас статистики.

Итак, пусть имеем выборку выберем на первом шаге случайным образом один из элементов выборки, возвратим этот элемент в выборку, вновь случайным образом выберем элемент и тд.

Повторим описанную процедуру случайного выбора n раз.

В бутстрепе проводится случайный выбор с возвращением, выбранные элементы исходной выборки возвращается в выборку и далее могут быть снова выбраны.

Формально на каждом шаге мы выбираем элемент исходной выборки с вероятностью 1/n .

Всего имеем n элементов исходной выборки, вероятность получить выборку с номерами (N 1 … Nn ), где Ni меняется от 0 до n описывается полиномиальным распределением.

Таких выборок генерируется несколько тысяч, что вполне достижимо для современных компьютеров.

Для каждой выборки строится оценка интересующей величины, далее оценки усредняются.

Так как выборок много, можно построить эмпирическую функцию распределения оценок, далее рассчитать квантили, вычислить доверительный интервал.

Ясно, что бутстреп метод является модификацией метода Монте-Карло.

Если выборки генерируются без возвращения элементов, то получается известный метод складного ножа.

Вопрос: зачем это делать и когда метод разумно использовать в реальном анализе данных?

В бутстрепе мы не получаем новой информации, но разумно используем имеющиеся данные, исходя из поставленной задачи.

Например, бутстреп можно использовать для малых выборок, для оценок медианы, корреляций, построения доверительных интервалов и в других ситуациях.

В исходной работе Эфрона рассматривались оценки парной корреляции для размера выборки n = 15.

Генерируется B = 1000 бутстреп выборок (bootstrap replication ).

На основе полученных коэффициентов ro 1 … ro В строится общая оценка коэффициента корреляции и оценка стандартного отклонения.

Стандартная ошибка выборочного коэффициента корреляции, вычисленная с помощью нормального приближения, имеет вид:

где коэффициент корреляции равен 0.776, размер исходной выборки n = 15.

Бутстреп оценка стандартной ошибки равна 0.127, см. Efron , Gall Gong , 1982.

Теоретический бэкграунд

Пусть - целевой параметр исследования, например, средний доход в выбранном обществе.

По произвольной выборке размера получаем набор данных Пусть соответствующая выборочная статистика -

Для большинства выборочных статистик при большом значении (>30) выборочное распределение представляется из себя нормальную кривую с центром и стандартным отклонением , где положительный параметр зависит от популяции и вида статистики

Этот классический результат известен как центральная предельная теорема.

Зачастую при оценке требуемого стандартного отклонения по данным возникают серьезные технические трудности.

Например, если медиана или выборочная корреляция .

Метод бутстрепа позволяет обойти эти трудности.

Идея простая: обозначим через произвольную величину, представляющую собой такую же статистику, вычисленную по бутстреп-выборке, которая получена из исходной выборки

Что можно сказать про выборочное распределение , если “исходная” выборка фиксирована?

В пределе выборочное распределение также является колоколообразным с параметрами и

Таким образом, бутстреп-распределение хорошо аппроксимирует выборочное распределение

Заметим, что когда мы переходим от одной выборки к другой, в выражении меняется только , так как вычислена по

По сути это является бутстреп версией центральной предельной теоремы.

Также было установлено, если предельное выборочное распределение статистической функции не включает в себя неизвестные по популяции, бутстреп-распределение позволяет получить более хорошее приближение к выборочному распределению, чем центральная предельная теорема.

В частности, когда статистическая функция имеет вид где через обозначена истинная, или выборочная оценка стандартной ошибки при этом предельное выборочное распределение обычно стандартное нормальное.

Этот эффект получил название коррекции второго порядка с помощью бутстреппинга.

Пусть т.е. среднее по популяции, и т.е. среднее по выборке; - стандартное отклонение в популяции, - выборочное стандартное отклонение, вычисленное по исходным данным, а - вычисленное по бутстреп-выборке.

Тогда выборочное распределение величины где , будет аппроксимироваться бутстреп-распределением , где - среднее по бутстреп-выборке, .

Аналогично, выборочное распределение будет аппроксимироваться бутстреп-распределением , где .

Первые результаты по коррекции второго порядка были опубликованы Бабу и Сингхом в 1981-83 годах.

Приложения бутстрепа

Аппроксимация стандартной ошибки выборочной оценки

Предположим, что для популяции известен параметр

Пусть - оценка сделанная на основе случайной выборки размера т.е. это функция от Так как выборка меняется на множестве всех возможных выборок, то для того, чтобы оценить стандартную ошибку используется следующий подход:

Вычислим используя ту же формулу, что использовалась для но на этот раз на основе различных бутстреп-выборок размера каждая. Грубо говоря, можно принять если только не сильно велико. В этом случае можно сократить до n lnn . Тогда можно определить исходя, собственно, из сути бутстреп-метода: популяция (выборка) заменяется эмпирической популяцией(выборкой).

Байесовская коррекция с помощью бутстреп метода

Среднее выборочного распределения часто зависит от обычно как для больших То есть, Байесовская аппроксимация:

где - это бутстреп-копии . Тогда скорректированное значение будет -

Стоит отметить, что предыдущий метод ресэмплинга(замен выборки), называемый методом складного ножа, является более популярным.

Доверительные интервалы

Доверительные интервалы (ДИ) для заданного параметра это основанные на выборке диапазоны .

Этот диапазон обладает тем свойством, что значение с очень высокой (заранее установленной) вероятностью принадлежит ему. Это называется уровнем значимости. Конечно, эта вероятность должна относиться к любой выборке из возможных, т.к. каждая выборка привносит свой вклад в определение доверительного интервала. Два наиболее часто используемых уровня значимости это 95% и 99%. Здесь мы ограничимся значением 95%.

Традиционно ДИ зависят от выборочного распределения величины точнее в пределе . Есть два основных вида доверительных интервалов, которые могут быть построены с помощью бутстрепа.

Метод процентилей

Этот метод уже упоминался во введении, он очень популярен благодаря своей простоте и естественности. Предположим, что у нас есть 1000 бутстреп копий обозначим их через Тогда в доверительный интервал попадут значения из диапазона Возвращаясь к теоретическому обоснованию метода, стоит отметить, что в нем требуется симметрия выборочного распределения вокруг Причина этого заключается в том, что в методе аппроксимируется выборочное распределение с помощью бутстреп-распределения , хотя по логике получается, что оно должно аппроксимироваться значением то есть противоположным по знаку.

Центрированный метод бутстреп-процентилей

Предположим, что выборочное распределение аппроксимируется с помощью бутстреп распределения то есть как изначально и предполагалось в бутстреппинге. Обозначим 100-й процентиль (в бутстреп-повторениях) через Тогда предположение, что значение лежит в диапазоне от до будет верным с вероятностью 95%. Это же выражение легко преобразуется в аналогичное для диапазона от до Этот интервал и называется центрированным доверительным интервалом по бутстреп-процентилям (при уровне значимости 95%).

Бутстреп-t критерий

Как уже было отмечено, в бутстрепе используется функция вида где есть выборочная оценка стандартной ошибки

Это дает дополнительную точность.

В качестве основного примера возьмем стандартную t-статистику (отсюда название метода): то есть частный случай, когда (популяционное среднее), (выборочное среднее) и - выборочное стандартное отклонение. Бутстреп аналогом такой функции является где вычисляется также, как и только по бутстреп-выборке.

Обозначим 100-й бутстреп-процентиль через и будем полагать, что значение лежит в интервале

Используя равенство можно переписать предыдущее утверждение, т.е. лежит в интервале

Этот промежуток называется бутстреп t-доверительным интервалом для при уровне 95%.

В литературе он используется для достижения большей точности, чем предыдущий подход.

Пример реальных данных

Возьмем для первого примера данные из работы Холландера и Вольфе 1999 года, стр. 63, которые представляют собой эффект влияния света на скорость вылупления цыплят.

Стандартный бокс-график предполагает отсутствие нормальности по данным популяции. Мы провели бутстреп анализ медианы и среднего.

Отдельно стоит отметить отсутствие симметрии на бутстреп t-гистограмме, которая отличается от стандартной предельной кривой. 95%-е доверительные интервалы для медианы и среднего (вычисленные с использованием бутстреп метода процентилей), грубо говоря, покрывают диапазон

Этот диапазон представляет общую разницу (нарастание) в результатах скорости вылупления цыплят в зависимости от подсветки.

В качестве второго примера рассмотрим данные из работы Девора (Devore) 2003 г., стр 553, в которой рассматривалась корреляция между показателем биохимической потребности в кислороде (БПК, BOD) и результатами гидростатического взвешивания (HW) профессиональных спортсменов - футболистов.

Двумерные данные состоят их пар и пары можно произвольно выбирать во время бутстреп ресэмплинга. Например, сначала взять затем и т.д.

На рисунке график ящики-усы показывает отсутствие нормальности для основных популяций. Гистограммы корреляций, вычисленные на основе бутстреп двумерных данных, являются асимметричными (сдвинутыми влево).

По этой причине, центрированный метод бутстреп процентилей является в данном случае более подходящим.

В результате анализа выяснилось, что измерения скоррелированы для как минимум 78% популяции.

Данные для примера 1:

8.5 -4.6 -1.8 -0.8 1.9 3.9 4.7 7.1 7.5 8.5 14.8 16.7 17.6 19.7 20.6 21.9 23.8 24.7 24.7 25.0 40.7 46.9 48.3 52.8 54.0

Данные для примера 2 :

2.5 4.0 4.1 6.2 7.1 7.0 8.3 9.2 9.3 12.0 12.2 12.6 14.2 14.4 15.1 15.2 16.3 17.1 17.9 17.9

8.0 6.2 9.2 6.4 8.6 12.2 7.2 12.0 14.9 12.1 15.3 14.8 14.3 16.3 17.9 19.5 17.5 14.3 18.3 16.2

В литературе часто предлагаются различные схемы для бутстреппинга, которые могли бы давать достоверные результаты в различных статистических ситуациях.

То, что обсуждалось выше - лишь самые базовые элементы, и других вариантов схем на самом деле очень много. Например, какой метод лучше использовать в случае двухступенчатой выборки или стратифицированной выборки?

Естественную схему в этом случае нетрудно придумать. Бутстрэппинг в случае данных с моделями регрессии вообще привлекает много внимания. Есть два основных метода: в первом ковариации и переменные отклика ресэмплируются вместе (парный бутстреппинг), во втором - бутстреппинг производится по остаткам (остаточный бутстреппинг).

Парный метод остается корректным (в смысле результатов при ) даже если дисперсии ошибок в моделях не равны. Второй метод в этом случае некорректен. Этот недостаток компенсируется тем, что такая схема дает дополнительную точность в оценке стандартной ошибки.

Гораздо сложнее применять бутстреппинг для данных временных рядов.

Анализ временных рядов, однако, является одной из ключевых областей в эконометрике. Здесь можно выделить две основные трудности: во-первых, данные по временным рядам обладают свойством быть последовательно зависимыми. То есть, зависит от , и т.д.

Во-вторых, статистическая популяция со временем меняется, то есть появляется нестационарность.

Для этого разработаны методы, которые переносят зависимость в исходных данных на бутстреп-выборки, в частности, блоковая схема.

Вместо бутстреп выборки сразу строится блок данных, сохраняющий в себе зависимости из исходной выборки.

В области приложения бутстреппинга к разделам эконометрики в настоящий момент проводится довольно много исследований, в целом метод активно развивается.

В практике статистических исследований часто приходится сталкиваться с малыми выборками , которые имеют объем менее 30 единиц. К большим же обычно относят выборки объемом свыше 100 единиц.

Обычно малые выборки применяются в случаях, когда невозможно или нецелесообразно использовать большую выборку. Иметь дело с такими выборками приходится, например, при опросах туристов и посетителей гостиниц.

Величина ошибки малой выборки определяется по формулам, отличающимся от формул для сравнительно большого объема выборки ().

При малом объеме выборки n следует учитывать взаимосвязь между выборочной и генеральной дисперсией :

Так как при малой выборке дробь имеет существенное значение, то вычисление дисперсии производится с учетом, так называемого числа степеней свободы . Оно понимается как число вариантов , которые могут принимать произвольные значения, не меняя величины средней .

Средняя ошибка малой выборки определяется по формуле:

Предельная ошибка выборки для средней и доли находится аналогично случаю большой выборки:

где t – коэффициент доверия, зависящий от заданного уровня значимости и числа степеней свободы (Приложение 5).

Значения коэффициента зависят не только от заданной доверительной вероятности , но и от объема выборки n . Для отдельных значений t и n доверительная вероятность определяется по распределению Стьюдента, которое содержит распределения стандартизованных отклонений:

Замечание. По мере увеличения объема выбор­ки распределение Стьюдента приближается к нормальному распределению: при n =20 оно уже мало отличается от нормального распределе­ния. При проведении малых выборочных обследований следует учесть, что чем меньше объем выборки n , тем больше раз­личие между распределением Стьюдента и нормальным рас­пределением. Например, при п min . = 4 это различие весьма существенно, что говорит об уменьшении точности результатов малой выборки.

Статистической обработки данных на персональных компьютерах и больших ЭВМ. Есть специальные программы, предназначенные для обучения студентов, которые содержат подробные объяснения всех процедур и тесты для проверки их усвоения.  

Как уже отмечалось, в случае малой выборки только для нормально распределенной генеральной совокупности могут быть рассчитаны и доверительные вероятности , и доверительные пределы генеральной средней.  

При малых выборках расчет средней возможной ошибки основан на выборочных дисперсиях , поэтому  

Малые выборки широко используются для решения задач , связанных с испытанием статистических гипотез, особенно гипотез о средних величинах.  

Например, по выборке объемом 32 единицы получен парный коэффициент корреляции 0,319. Число степеней свободы для него равно 30, поскольку в расчете г участвуют две величины, значения которых закреплены - J и у. За счет этого мы теряем две степени свободы 32 - 2. Так как критическое значение для 30 степеней свободы равно (при уровне значимости 0,05) 0,3494, то полученное значение ниже критического по модулю. Соответственно, гипотеза о связи признаков надежно не доказана. Неверен вывод и об отсутствии связи - он также надежно не доказан. Из табл. 5 приложения видно, что при малой выборке надежно можно установить только тесные связи, а при большой численности совокупности, например, 102 единицы, надежно измеряются и слабые связи. Этот вывод важен для практической работы по корреляционному анализу.  

Это говорит о том, что в среднем фактическое число пациентов в 1.5 раза больше прогнозного значения означает, что используемая модель прогнозирования обычно недооценивает число обращающихся пациентов. В этом случае, возможно, стоит проанализировать примененную модель и внести в нее корректировки. В идеале средняя ошибка равна нулю, т. е. отрицательные и положительные значения ошибки компенсируют друг друга . Однако мы должны сказать, что в нашем примере значение средней получено по очень малой выборке. Больший объем выборки , например, данные за целый год, позволит нам определить вероятную точность прогнозирования с большей степенью достоверности.  

Средняя и предельная ошибки малой выборки определяются по формулам  

Для полного ряда из 15 значений критерий однородности (Var Проверка нормальности для усеченной совокупности данных (по 7 оставшимся магазинам) показывает, что все три ряда значений нормальны Правда, при этом вызывает сомнение правомочность использования статистических процедур на столь малой выборке. Однако если отвлечься от этого факта, то и в этом случае зависимость вида z = а + Ь х + Ь2у не даст аналитику значимой информации, поскольку между факторами хну наблюдается сильная взаимозависимость (мультиколлинеарность) - об этом свидетельствует высокое значение парного коэффициента корреляции (на усеченной выборке г = -0,88).  

После предварительного составления анкеты ее необходимо опробовать на малой выборке для выявления возможных ошибок. Опробование отличается от предварительного поиска. Поиск помогает уточнить план исследования при опробовании разработанный план подвергается испытанию и оценке стоимости его осуществления. Если результаты опробования признаются удовлетворительными, готовая анкета используется для проведения исследования на соответствующей выборке.  

По приведенным данным оценка регрессионной зависимости Рц(руп), о которой говорилось выше, может быть представлена в виде корреляционного уравнения , исходя из какой-либо установленной формы статистической связи для всего выделенного интервала времени в 26 лет. Построение регрессий для более коротких временных периодов было бы ненадежным именно из-за небольшого объема выборки (малая выборка).  

Распределение нормированных отклонений в малой выборке. Значения t, для которых вероятность)=р  

Если Ek> О, то кривая островершинная, при Ek Метод моментов, как правило, приводит к состоятельным оценкам . Однако при малых выборках оценки могут оказаться значительно смещенными и малоэффективными. Метод моментов достаточно эффективен для оценки параметров нормально распределенных случайных величин.  

В ряде случаев в качестве главного аргумента при определении объема выборки используется стоимость проведения обследования. Так, в бюджете маркетинговых исследований предусматриваются затраты на проведение определенных обследований, которые нельзя превышать. Очевидно, что ценность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.  

Если по результатам малой выборки можно однозначно заключить, что партия является годной или, наоборот, негодной, то контроль качества обходится очень небольшими затратами. Если же первая выборка не дает четкого ответа, можно взять другую выборку - единая большая выборка образцов даст более точный результат. Принцип контроля может быть следующим  

Исходя из предположения, что генеральная совокупность , из которой взята исследуемая выборка, имеет гладкую кривую распределения , естественно считать, что появляющиеся при группировании провалы и выбросы являются случайным "шумом", порождаемым случайностью попадания тех или иных значений в малую выборку. Укрупнение интервалов группирования - метод фильтрации этого случайного "шума". Однако при слишком протяженных интервалах "фильтруется" уже не "шум", а сам "сигнал", т. е. начинают сглаживаться особенности искомого закона распределения .  

По каждому из отмеченных видов и разновидностей документов собираются их копии, полученные изготовлением дополнительного экземпляра при подготовке соответствующего документа на пишущей или вычислительной машине . В собранной малой выборке порядка 30 копий документов по каждому виду или разновидности, охватывающих ос-  

Как поступать с малыми выборками  

Таким образом, двусторонний доверительный интервал для малой выборки будет представлен так  

Корень наших трудностей в выборке. Как Лейбниц когда-то напомнил Бернулли, природа столь разнообразна и столь сложна, что нам трудно делать правильные выводы из того, что мы наблюдаем. Нам доступны только крохи действительности, и это ведет нас к ошибочным выводам, или мы интерпретируем малые выборки как полноценное отражение характеристик большой совокупности.  

Качество действующих на предприятии норм по прогрессивности характеризуется уровнем их напряженности. Рассеяние численности рабочих по индивидуальной производительности труда обычно близко к так называемому нормальному распределению и почти симметрично (с некоторой асимметрией вправо) отклоняется в обе стороны от среднего уровня их выполнения. При этом с увеличением численности рабочих отклонения в индивидуальной производительности труда от средней все в большей мере компенсируются и погашаются. Исходя из формулы предельной ошибки выборки , можно с достаточной достоверностью утверждать, что если максимальное отклонение индивидуальной производительности труда отдельных рабочих от среднеотраслевого уровня не превышает М %, то по теории вероятностей предел отклонений средней производительности труда случайно-отобранных п рабочих от средней будет равен М/ п %, или с поправкой на малую выборку от большой N совокупности  

Последнюю причину иногда удается устранить введением соответствующих коррективов. Так, для интервальных оценок погрешности по малому (п нормального распределения (см. с. 50) используют квантили статистического распределения Стьюдента (табл. 6), характерного для малой выборки из нормальной совокупности (при неизвестных т и а).  

Поверхностный взгляд на проблему, малые выборки для исследования, когда отдельные части заменяют всю проблему.  

Однако способ вычисления yt, xt приводит к потере первого наблюдения (если мы не обладаем предшествующим ему наблюдением). Число степеней свободы уменьшится на единицу, что при больших выборках не так существенно, но при малых выборках может привести к потере эффективности . Эта проблема обычно преодолевается с помощью поправки Прайса-Выношена  

Для оценки малой выборки используются исправленное среднеквадратическое отклонение малой выборки и закон распределения вероятностей Стъюдента.  

Теория малых выборок разработана английским статистиком В. Госсетом (писавшим под псевдонимом Стьюдент) в начале XX в. В 1908 г. им построено специальное распределение, которое позволяет и при малых выборках соотносить / и доверительную вероятность F(t). При п > 100 таблицы распределения Стьюдента дают те же результаты, что и таблицы интеграла вероятностей Лапласа , при 30

Критерий правдоподобия является несмещенным и состоятельным, при больших выборках -2-log X имеет распределение хи-квадрат (hi-squared distribution) с г