Необходимость выборочных данных.

 

В науке для того, чтобы приблизиться к формулировке вопросов, в особенности самых важных, необходимо иметь большое количество данных, полученных в результате множества наблюдений и измерений. Вот лишь некоторые из интересующих ученых вопросов о качестве исходных данных.

 

Примеры вопросов, которые задают об исходных данных

 

Ученые, прежде всего, должны задать себе следующий вопрос: "А те ли данные мы собираем?" Они также должны спросить себя: "А относятся ли собранные данные к изучаемой проблеме?" Вероятно, собирать одни данные интересней, а, возможно, и легче, чем другие, которые могут показаться слишком формальными или трудными для представления, но именно эти, другие, данные могут содержать информацию, непосредственно относящуюся к изучаемой проблеме.

 

Ученые обязаны ответить и на ряд вопросы о качестве используемых ими приборов и измерительных методик. Данные могут зависеть от температуры, освещенности, времени дня, а, возможно, и быть искажены измерительными приборами, поэтому важен вопрос: "Какова повторяемость данных?" Научные данные являются по существу универсальным языком, на котором говорят ученые в попытке описать то, что происходит в мире. Ученые должны быть в состоянии интерпретировать полученные кем-то данные, повторить те же измерения и получить те же результаты. Необходимо, чтобы эксперименты и данные, полученные одними, могли быть повторены другими.

 

Ученые должны постоянно спрашивать себя: "Являются ли наши методы и средства анализа подходящими?" Возможно, при наблюдениях не были учтены какие-то очень важные факторы, оставшиеся не измеренными или неуказанными. Возможно, в методе содержатся неучтенные систематические ошибки. Внимательно понаблюдав за россиянами только в воскресенье и распространив полученные результаты наблюдения на другие дни недели, можно прийти к заключению, что каждый день россияне по несколько часов в день находятся в церкви, не ходят на работу и проводят время за игрой в шахматы.

 

Даже после положительного ответа на каждый из указанных вопросов, остается еще один общий вопрос: собраны данные всего лишь нескольких наблюдений. Конечно, хорошо иметь много данных, но нельзя сбрасывать со счетов время и стоимость эксперимента. Ученые всегда должны быть готовы к вопросу о том, насколько хорошо их данные характеризуют популяцию в целом, т. е. являются ли они репрезентабельными. "Представляют ли наблюдения за конкретным образцом более полную популяцию?" Последний вопрос является основой хороших научных исследований. Вы должны научиться задавать все эти вопросы и отвечать на них в ходе работы в Глобальной Лаборатории.

 

Для начала давайте выясним, представляют ли образцы более полную популяцию или нет. Рассмотрим следующий вопрос: "Какова доля людей во всем мире (или в России), у которых карие глаза и какова доля тех, у кого глаза голубые". Это вполне научный вопрос, и на него легко получить ответ, просто обсчитав всех людей в мире. Но это не реально сделать. Кроме того, это заняло бы слишком много времени и, более того, во время обсчета само население бы изменилось.

 

Сведение в таблицу данных для всех людей, живущих в России, задача более простая, но и тут мы сталкиваемся с теми же проблемами. Сбор данных занял бы слишком много времени, а население во время обсчета опять бы изменилось. Чтобы дать ответ на вопрос обо всех людях, живущих в России, имеет смысл начать с намного меньшей популяции, являющейся репрезентативной применительно к вопросу о цвете глаз всех россиян.

 

Выборки

Можно попытаться ответить на вопрос о доле россиян с карими глазами по выборке, состоящей, например, из учеников вашего класса, предположив, что ваш класс адекватно представляет всю Россию. Выборка представляет собой небольшую совокупность значительно большей по размеру группы, отобранную для измерений и рассматриваемую в качестве представителя большей группы с теми же характеристиками, что и вся группа. Выборка может быть как точным представителем большей по размеру популяции, так и нет. Если ученые случайным образом отбирают пробы для измерений, достаточно большая выборка, состоящая из таких проб, с большей вероятностью будет иметь те же характеристики, что и полная популяция. Выборочные данные широко используются при контроле пищевых продуктов, лекарств, воды и многих других продуктов и услуг. Выборочный метод применим только в случае, если выборка имеет те же характеристики, что и более полная популяция.

 

Приведем простой пример выборки. Ответим на первый вопрос, используя две различные выборки из числа учеников вашего класса. Спросите и ответьте: "Сколько учеников вашего класса имеют карие глаза?" и "Какова в вашем классе процентная доля учеников с карими глазами?" Теперь возьмите другую выборку из числа учеников вашего класса. Представьте, что сегодня отсутствуют все ребята с темными волосами. Посмотрите на цвет глаз учеников, пришедших в школу. Какова среди них процентная доля учеников с карими глазами? Совпадает ли это число с тем, что было получено для всего класса? Вторая выборка является искаженной; она не представляет весь класс в целом, поскольку включает только учеников со светлыми и рыжими волосами. Эта выборка не была отобрана случайным образом; в ней отсутствовали темноволосые ребята. Для того чтобы быть полезными при описании популяций или каких-либо природных зон, выборки должны быть репрезентативными, для чего они должны формироваться случайным образом.

 

Практическая польза выборок

Многие важные вопросы охраны окружающей среды должны основываться на анализе больших популяций посредством научно-обоснованных выборочных данных. Вот примеры:

 

- Леса подвергаются грибковым заболеваниям, каково процентное содержание зараженных деревьев?

- Меняется ли процентное соотношение лиственных и хвойных пород в местных лесах по отношению к данным двадцатилетней давности?

- Уменьшилось или увеличилось за последние двадцать лет количество млекопитающих в данной местности?

- Изменились ли виды, представленные на местных лугах, со времени последних наблюдений сорок лет назад?

 

Многократные выборки

Во всех этих задачах нужно аккуратно собрать данные, представить их в табличном виде и сравнить с результатами усилий предыдущих поколений ученых. Значительные проблемы имеются и при планировании сбора данных. Нужно ли обследовать на предмет заболевания каждое дерево в лесу? Нужно ли составлять каталог видов для каждого дерева, обследовать каждое млекопитающее или составлять каталог для каждого растения на участке луга? Это практически не выполнимая за ограниченное время задача. Составление каталогов для всех деревьев займет много лет, и за время составления каталогов данные изменятся. Эту проблему со временем и масштабом ученые решают с помощью техники, называемой выборочным анализом. Берется выборка или, возможно, несколько выборок, и по ним делается заключение обо всем лесе, луге, температуре или территории, занятой млекопитающими. Выборочные области должны отбираться очень тщательно и случайным образом, чтобы избежать возможного искажения данных. Если известно, что на каком-то конкретном участке много больных деревьев, выборка может включать часть этого участка, но только наряду с другими участками леса, чтобы в целом представлялась более точная картина состояния здоровья леса. Обычно берется несколько выборок, используя один и тот же метод отбора и различные группы, при этом выборки усредняются для того, чтобы их результаты более достоверно характеризовали изучаемую проблему.

 

Трансектные линии

Выборки на природных объектах осуществляются вдоль трансектных линий. Трансектная линия (полоса) Ð это прямолинейная траектория, вдоль которой наблюдатель регистрирует и/или подсчитывает изучаемые явления. Это своего рода система выборочного отбора, по которой наблюдатель изучает состояние здоровья деревьев, их виды, наличие животных или растений в этом направлении. Информация, собранная в процессе наблюдения вдоль трансектной линии, представляет собой выборку, характеризующую всю изучаемую область. Очень полезно использовать несколько трансектных линий. Начало и конец трансектной линии следует выбирать случайным образом, учитывая, что она должна пересекать представительные участки изучаемой области.

 

Подводя итог, можно отметить, что имеется четыре основных причины для использования выборочного анализа в качестве метода научного исследования:

 

- Выборка позволяет группе за короткое время получить точную картину изучаемого на природном объекте явления.

- Другие могут, используя ту же методику, повторить результаты выборочных измерений.

- Хорошо проведенные выборочные измерения, многократные и случайным образом отобранные, могут быть обобщены на всю изучаемую территорию.

- Выборочные данные можно сравнивать с результатами выборочного анализа предыдущих поколений ученых.

- Трансектные линии являются специальными видами выборок, при которых отбор проб на изучаемом объекте осуществляется вдоль определенных прямолинейных траекторий.