§22. Основные методы статистического анализа: введение в понятийный аппарат. Глава Y.Статистический анализ. Компьютер для историков философии. Введение в технологию квантитативных исследований и обучения. Учебное пособие для студентов философских факультетов ВУЗов. Архив публикаций. Манекин Роман Владимирович.
§22. Основные методы статистического анализа:введение в понятийный аппарат.
Главная| Философия| История| Аналитика| Литература| Литературоведен|Публицистика| Журналистика: РФ и СНГ| Журналистика: Украина| Информатика| Психология| Интервью| Конференции| Рецензии| Юмор| Ссылки| Инязпубликации| О себе| Почта| Гостевая книга

Вы, наверняка, заметили, что контент-анализ текстов, построения баз данных зачастую выступают в историко-философских исследованиях подготовительным этапом статистической обработки данных. Эта обработка достигается статистическим анализом.

Что же такое статанализ?

В математике широко применяется термин «функциональная зависимость переменных». Это такая зависимость «У» от «Х», когда каждому возможному значению «Х» соответствует строго определенное значение «У». Это, например, зависимость длины окружности от радиуса, площади квадрата от стороны, проч. В действительности, в реальном мире такая зависимость встречается редко. Жизнь, природа, наука, философия – элементы, присутствующие в контексте любого из этих процессов, находятся под влиянием многочисленных, как существенных, так и несущественных факторов. При этом, существенные факторы непосредственно формируют закономерности их развития (математик здесь сказал бы: «существенные факторы формируют закономерность распределения результативного признака»), а несущественные - определяют вероятные отклонения от них.

Встречаясь на практике с подобными связями, мы видим, что случайные изменения закона распределения одного признака влекут за собой изменения характера распределения второго признака. В свою очередь, изменения характера распределения второго признака обуславливают изменения закона распределения третьего. И так далее, до бесконечности. Так вот. Такого рода связь переменных именуют стохастической связью.

Частным видом стохастической связи является связь статистическая. Это такая связь двух или нескольких переменных, при которой изменение закона распределения одного признака вызывает изменение вероятности появления другого. Или, как сказали бы математики:«условное математическое ожидание одной переменной становится функцией другой». Это связь, скажем, между возрастом студентов и количеством студентов определенных возрастов в академической группе; связь между наиболее часто употребляемыми в некоторую эпоху философскими терминами и частотой употребления этих терминов в конкретном философском сочинении.

Именно эти связи – статистические связи переменных и конкретно: их наличие, форма и интенсивность - и отслеживаются методами статанализа.

Статистический анализ как исследовательская процедура имеет давнюю традицию применения. Теоретической разработкой методического аппарата статанализа занимается специальная научная дисциплина: математическая статистика. Нам сейчас нет нужды глубоко вникать в проблематику этой науки: она сложна, а проблематика ее - многообразна.(1) Для нас с Вами сегодня важнее уяснить логическое содержание основных методов статанализа; понять, как эти методы можно использовать в историко-философском исследовании.

Давайте этим и займемся!

Важнейшими видами статистического анализа являются корреляционный и регрессионный анализы.

В чем их важность?

Дело в том, что корректно отследить статистическую связь переменных очень трудно. Строгая теория матстатистики определяет, что репрезентативная (т. е. представительная, имеющая научный смысл, значение) оценка математического ожидания возможна лишь при числе наблюдений за поведением объектов, стремящимся к бесконечности. Очевидно, однако, что на практике такое условие соблюсти невозможно. Поэтому ученые исследуют выборочные,(2) то есть ограниченные в объеме совокупности данных. При этом они переходят от оценки условного математического ожидания величины признака переменной к вычислению ее условного среднего значения.

Иначе говоря, ученые, как правило, исследуют не статистическую, но корреляционную связь переменных.

В случае такой связи, при определенном изменении признака одной переменной случайные варианты признака второй группируются с различной степенью плотности около его среднего значения, а величина среднего значения признака второй переменной зависит от величины признака первой. Такова, например, связь между ростом человека и его весом, между понижением жизненного уровня населения и уменьшением количества опубликованных философских трудов.

Тесноту корреляционной связи, т.е. величину приближения фактического значения признака к его условной средней величине, определяют посредством корреляционного анализа. Ее форму - направление и величину изменения результативного признака под влиянием факторного - с помощью анализа регрессионного.

Как регрессионный, так и корреляционный анализ бывает двумерным и многомерным. Двумерным называют анализ связей двух признаков, один из которых - факторный (т.е. тот, который ОКАЗЫВАЕТ ВЛИЯНИЕ), второй – результативный (на который ОКАЗЫВАЕТСЯ влияние). Многомерным называется анализ связи между несколькими факторными признаками и одним результативным. Кроме того, применяют еще и так называемый частный корреляционный анализ. Это – подвид многомерного корреляционного анализа. Суть его состоит в том, что при измерении тесноты связи нескольких факторных и одного результативного признака (в случае, если определенный фактор по своему влиянию значительно превосходит остальные), исследователь измеряет тесноту связи одного факторного признака с результативным, пренебрегая всеми остальными.

Учёные различают два основных вида корреляции (от лат.: «соотношение») признаков: линейная и нелинейная. Отсюда - многомерный и двумерный, регрессионный и корреляционный анализы применяются при исследовании линейных и нелинейных корреляционных связей признаков.

Линейная корреляция – такое соотношение изучаемых признаков, графическое описание которого после выявления закономерной, т.е. не случайной, зависимости «У» от «Х» (выравнивание «У» от «Х» представляет собой прямую линию в декартовой системе координат (при многомерной корреляции - прямую линию в пространстве).

Нелинейная корреляция описывается немного видами кривых. Ее видами являются:

  • параболическая зависимость переменных - эта зависимость проявляется при ускоренном возрастании или убывании одного признака в сочетании с равномерным возрастанием другого;
  • гиперболическая зависимость - т. е., зависимость, аналитически описывающаяся формулой ЎY=a0+a1`/x , где «а» и «а1» – т. н. коэффициенты регрессии;
  • экспонатная зависимость - эта зависимость существует тогда, когда факторный признак изменяется с более или менее постоянным приростом, а результативный – по геометрической прогрессии.

Итогом корреляционного и регрессионного анализов является величины соответствующих коэффициентов.(3) При их соотнесении результатами, представленными в специальных таблицах, выявляются меры тесноты, форма и характер связи изучаемых объектов.

Труднейшей проблемой, с которой сталкивается исследователь при проведении многомерного корреляционного анализа, является выделение т.н. признаков мультиколлинеарности.

Мультиколлинеарность – это наличие тесной линейной связи между всеми или некоторыми факторами, действующими на результативный признак. Наличие этой связи приводит к искажению точности коэффициента прогрессии и корреляции, а в ряде случаев и невозможности даже их приблизительной оценки.(4) Мультиколлиниарность устраняется применением специальных аналитических процедур, простейшими из которых являются метод исключения факторов (устранение из репрессии высококоррелированных факторов) и линейное преобразование факторов (замена переменных, которым присуще коллинеарность их линейной комбинацией). Нередко, однако, выявить и устранить мультиколлинеарность бывает сложно. Поэтому Вы должны запомнить правило: корреляционный и регрессионный анализы проводятся только в тех случаях, когда вы уверены, что имеете дело с независимыми переменными.

Упомянутые выше виды статистического анализа обычно используются при работе с цифровыми данными. Например, с результатами контент-анализа. Однако в практике историко-философских исследований мы чаще сталкиваемся не с количественными, а качественными признаками объектов, т.е. с такими, которые не имеют конкретное количественное выражение в единицах измерения метрических шкал. В этих случаях исследователи прибегают к корреляционному анализу качественных признаков и используют его аппарат: эмпирические меры тесноты связи качественных признаков.

Основными приемами корреляционного анализа качественных признаков являются:

  • измерения коэффициентов контингенции - т.е. вычисление величины сопряженности признаков;
  • измерения коэффициентов ассоциаций - измерения тесноты связи двух качественных признаков, каждый из которых может принимать только альтернативные значения;
  • двухстрочечная корреляция - метод выявления тесноты и направленности связи признаков, один из которых может быть измерен по шкалам порядка, интервалов, отношений, а другой выражается в альтернативных вариантах: «хорошо-плохо», «мужчина-женщина», проч.;
  • корреляция рангов - сравнение признаков по принципу «больше-меньше»;
  • измерение коэффициента Фехнера - этот коэффициент характеризует количество совпадений и несовпадений знака отклонения вариантов от их средних арифметических, др.

В ряд случаев эти приемы оказываются весьма эффективными. Но не всегда. Дело в том, что теснота контингенции или ассоциации признаков оценивает не столько взаимозависимость, сколько вероятность прогноза значений одного признака по значениям другого. Такой подход не всегда отвечает задачам историко-философского исследования. Поэтому сегодня связь между фактором и результатом все чаще и чаще оценивается путем выявления т. н. степени энтропии признака, т.е. меры неопределенности связи признаков из аппарата теории информации. Вам следует обратить на него внимание, если Вы в дальнейшем займетесь квантитативными (т.е. ориентированными на использование ЭВМ) историко-философскими исследованиями.

Далее. В традиционной истории философии взаимосвязанные явления (признаки), как правило, рассматриваются синхронно, как будто они существуют в один и тот же момент времени, и диахронно, т.е. как бы отслеживающих связь сквозь время. В математической статистике количественную сторону синхронных и диахронных связей переменных отражают статистические и динамические совокупности данных. Иначе динамические совокупности данных называются динамическими рядами. Динамические ряды строятся по определенным правилам.(5) Эти ряды используют для выявления корреляционной связи между исследуемыми показателями.

Основные проблемы, с которыми сталкивается исследователь при анализе динамических рядов, таковы:

  • автокорреляция;
  • лаг;
  • циклические колебания.

Что означают эти термины?

Вы уже знаете, что обязательным условием корректного применения методов корреляционного анализа является независимость переменных друг от друга. Между тем, значительная часть данных, представленных динамическими рядами, не может удовлетворить этому требованию. Например, философская терминология конкретной эпохи определяется, прежде всего, степенью развитости философского языка эпохи предыдущей и только потом уже - всеми остальными факторами. Такая зависимость последующих членов временного ряда от предыдущих называется автокорреляцией, а преобладающая тенденция, вызванная ею, - трендом.

Другой пример. При изучении связи между содержанием понятийного аппарата некоего философского произведения и понятийным аппаратом конкретной философской эпохи обнаруживается временной разрыв, вызванный тем, что данное произведение писалось не в изучаемый, а в предстоящий изучаемому период времени. Такое несовпадение по времени анализируемых фактора и результата в матстатистике именуется лагом. И ясно, что наличие лага искажает результаты корреляционного анализа.

В некоторых динамических рядах наблюдается всевозможные, нередко необъяснимые периодические колебания. Так, скажем по циклам в пять и двенадцать лет рассчитывается восточный календарь, существуют и другие циклы, не поддающиеся рационалистическому истолкованию. Западные исследователи разработали даже специальную «теорию циклов», которая если не всегда удовлетворительно объясняет, то, по крайней мере, четко фиксирует наличие циклических колебаний наиболее часто встречающиеся при проведении статистических исследований. Так, например, американские экономисты сумели выявить такие циклы:

  • - «длинные» (40-60 лет);
  • - «строительные» (15-20 лет);
  • - «главные» (6-10);
  • - «второстепенные» (2-4 года).
Отечественные историки упоминают в своих работах т.н. «сезонные колебания» - результаты влияния смен времени года на те или иные и их показатели.(6) Наличие циклов также влияет на точность результатов корреляционного анализа.

Сущность методов статанализа динамических рядов состоит в устранении влияния автокорреляции, лага и временных циклов на результаты корреляционного анализа. Это достигается посредством различных исследовательских процедур, наиболее простыми их которых являются:

  • механическое сглаживание: использование средней для выравнивания показателей;
  • аналитическое выравнивание (для этого применяются специальные формулы);
  • метод скользящей средней, проч.

В целом необходимо отметить, что корреляционный анализ динамических рядов является одним из наиболее сложных разделов математической статистики. В тоже время, теория корреляции динамических рядов переживает ещё период своего становления. Однако некоторые методы, разработанные в контексте этого направления, находят свое применение в историко-филосовских исследованиях. В том числе и методы построения временных рядов по неполным данным, при применении которых, путем выявления закономерности, которой подчиняется ряд, и распространение ее на неизвестный уровень ряда, достигается реконструкция данных.

Как говорилось выше, методы статанализа используются для изменения тесноты, определения формы связи результативного и факторного (факторных) признаков. Но с этим возможности статанализа не исчерпываются. Важнейшей его функцией является выявление структуры совокупности историко-философских объектов. Средства её выявления нам предоставляют теория распознавания образов, методы автоматической классификации, кластерный анализ (таксономия), теория нечётких множеств и факторный анализ.

Сущность методов распознавания образов состоит в том, чтобы любой вводимый в компьютер объект с наименьшей вероятностью ошибки был отнесён им к одному из заранее сформированных классов. Для этого машине вначале предъявляют т.н. «обучающую последовательность объектов», о каждом из которых известно, к какому классу или «образу» он принадлежит. Затем, «обучившись», т.е. «вычислив» закономерность классификации образов, компьютер сам распознаёт, к каким классам относятся объекты из изучаемой совокупности.

Более общий подход к классификации образов включает не только отнесение объектов к одному из классов, но и одновременно формирование самих «образов», число которых может быть заранее не известно. Классификация последнего вида производится на основе собирания в одну группу сходных по тому или иному признаку объектов. Причем собираются они таким образом, чтобы объекты из разных групп (классов) были бы по возможности несхожими. Совокупность статистических процедур, посредством которых реализуется второй подход, получила название автоматическая классификация.

Отсутствие априорной информации о характере распределения объектов внутри каждой группы делает невозможным «обучение» ЭВМ. В этом случае обычно используется т.н. кластерный анализ. Основная идея, заложенная в основу кластерного анализа (точнее: даже группы методов) заключается в последовательном объединении группируемых объектов: сначала самых близких, затем - все более отдалённых друг от друга. Процедура классификации состоит из последовательных шагов, на каждом из которых производится объединение двух ближайших групп, объектов, кластеров (термин «кластер» переводится с английского, как «гроздь»; он обозначает группу объектов, обладающих общими свойствами). Результаты кластерного анализа удобно изображать в виде «дерева»- иерархической структуры ( дендрограммы), содержащей n-уровней, каждый из которых соответствует одному из шагов процесса последовательного укрупнения кластеров. В принципе, кластеров можно строить сколько угодно много. При этом, кластерный анализ позволяет не только «разбивать» совокупности объектов на группы, но и измерять меру близости этих групп.

Методы теории нечетких множеств применяются в особых случаях. А именно: когда изучаемые объекты, принадлежащие к одному из типов (классов) имеют еще и черты, характерные для других типов. Философское создание часто поставляет «материал», специфической чертой которого является наличие т.н. «промежуточных объектов», т.е. объектов характеризующих переход от одного типа объектов к другому.

Сложность, неоднородность структуры философского знания проявляется также и в том, что объекты, принадлежащие к одному условному типу, в разной мере могут обладать присущими ему свойствами. Так вот, аппарат теории нечетких множеств позволяет выявить «ядро» совокупности объектов (такую группу объектов, для которых характерно «концентрированное выражение всех специфических свойств типа, определяющих качественное отличие данного типа от всех иных»(7)) и его окружение. Это, в свою очередь, позволяет выяснить не только принадлежность объектов к тому или иному типу объектов, но и выявить «вес», с которым они относятся к данному типу. Кроме того, указанные методы позволяют определить степень сходства с объектами других типов, т.е. выявить «полосу размыва» между ними.

На решение задачи выявления и анализа структуры историко-философских явлений ориентирован еще один из методов статистического анализа: факторный анализ.

Основная идея этого метода состоит в предположении, что любое явление или процесс могут быть описаны небольшим числом некоторых скрытых, обобщенных характеристик, которые не поддаются непосредственному наблюдению, но воздействуют на «внешние» наблюдаемые показатели, определяют их изменения и обуславливают тем самым взаимосвязи между ними. Эти скрытые характеристики явления называются общими факторами. Так, например, общими факторами являются:

  • культурный уровень какой-то группы населения;
  • структура населения;
  • его мобильность;
  • уровень жизни, проч.
Очевидно, что все эти обобщенные показатели характеризуют реально существующие явления и процессы. Однако, в силу своей многосторонности, они не могут быть измерены непосредствен но.

Факторный анализ позволяет выявить общие факторы, дает ключ к их содержательному толкованию, оценивает их воздействие на отдельные показатели и на всё изучаемое явление в целом, количественно выражает их значения для каждого из рассматриваемых объектов и, на основании всего этого, открывает возможность решать целый ряд прикладных историко-философских задач. Результаты факторного анализа позволяют уточнить свои представления о структуре исследуемых объектов.

Далее. Методы статанализа находят применение и при проверке историко-философских гипотез (разумеется, только в том случае, если указанные гипотезы можно представить как статистическую). Этой цели служит теория статистической проверки гипотез или т.н статистический критерий.

Статистическим критерием называют совокупность строго определённых правил, указывающих, при каких результатах статистическая гипотеза (т.е., предположение о некоторых свойствах совокупностей данных) отклоняется, а при каких – считается допустимой.

В целом « технологию» историко - философского исследования, проводимого с использованием средств статанализа можно выразить в программе состоящей из пяти пунктов:

  1. Начальный этап исследования ориентирован на формулировку «эмпирической теории». На этом этапе исследователь систематизирует гипотезы, относящиеся к рассматриваемой проблеме. При этом, гипотезы подвергаются процедуре верификацию т.е,. проходят проверку на соответствие исходным данным. Верный выбор исходных гипотез предопределяет выбор методов статанализа.
  2. Второй этап указанного исследования можно назвать операциональным. Он создает основу для воспроизведения результатов и их соотнесения с фактическими данными. На этом этапе вводятся дефиниции (определения) используемых категорий анализа, даются точные толкования смысловых индикаторов и терминов.
  3. Третий этап связан с выбором источникового материала и проведением источниковедческого анализа. На этом этапе, большое значение предается процедурам выборочного метода, учитывающим специфику историко-философских источников.
  4. Этот этап является измерительным. На четвертом этапе, в результате проведенной на втором этапе операционализации, проводится построение переменных (признаков), т. е. таких характеристик объектов, которые имеют несколько уровней. При этом под термином «измерение» понимается присвоение чисел или символов соответствующих градациями-уровням каждой переменной. На этом этапе важно помнить, что данная процедура должна быть систематической, т.е. характеристики всех объектов должны быть измерены по одним и тем же правилам; процедура должна отвечать критериям единственности и полноты, согласно которому каждому объекту соответствует один и только один уровень по каждой переменной. В случаях, когда эти требования выполняются, обычно говорят, что процедура измерения задает «классификацию». В противном случае считается, что исследователь имеет дело с «типологией». Надёжность измерений на данном этапе достигается выполнением трех требований:
    • временная стабильность - повторные измерения должны давать те же результаты;
    • интерсубъективная стабильность - различные исследователи, использующие одинаковые средства измерения должны получать те же результаты для тех же объектов;
    • инструментальная стабильность - использование различных измерительных средств должно приводить к тем же результатам.
  5. Пятый этап - математический анализ данных. На этом этапе применяются статистические методы, ориентированные на решение изначально поставленных задач.

***

Нужно сказать, что большинство методов статанализа данных реализованны в пакетах прикладных программ. Наиболее приспособленными для использования в гуманитарных исследованиях являются пакеты программ SAS и SPSS, созданные американскими специалистами. Следует отметить также программу Kleio, разработанную немецкими учёнными. Некоторые методы статанализа реализованы в упоминавшихся выше программах отечественных исследователей.

Сегодня, пожалуй, в каждом университете есть пакеты прикладных программ. Испытайте их возможности!

Успеха Вам в этом!


  1. См. , напр.: Венецкий И. Г., Кильдишев Г. С. Основы теории вероятностей и математической статистики. - М.: СТАТИСТИКА, 1968. - 360 с., Вайну Я. Я. - Ф. Корреляция рядов динамики / Вайну Я. Я. - Ф. - М.: Статистика, 1977. - 120 с., Бородкин Л.И. Многомерный статистический анализ в исторических исследованиях. М.: Изд-во МГУ, 1986. - 188 с., др.
  2. Совокупности данных формируются по определенным правилам. Узнать о них вы сможете, напр.: Количественные методы в исторических исследованиях: Учеб. Пособие для студ. вузов, обуч-ся по спец. "История" /Гарскова И.М., Изместьева Т.Ф., Милов Л.В. и др. Под ред. И.Д. Ковальченко. - М.: Высш. шк., 1984. - 384 с., др.
  3. Надежность упомянутых коэффициентов проверяется с помощью определенных формул. Важнейшим элементом большинства этих формул является т.н. коэффициент Стьюдента - коэффициент достоверности. Пожалуйста, запомните названия коэффициентов, чаще всего используемых в историко-философских исследованиях: коэффициент регрессии, коэффициент линейной корреляции, коэффициент множественной корреляции, коэффициент частной корреляции, индекс корреляции, коэффициент Пирсона, бета-коэффициенты (стандартизированные). Кроме того, в матстатистике часто используют понятия: дисперсия, среднее квадратическое отклонение, коэффициент вариации. Подробнее об этом – см., в част.: Венецкий И. Г., Кильдишев Г. С. Основы теории вероятностей и математической статистики. – М.: Статистика, 1958 - 360 c.
  4. Подробнее об этом см.: Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа: Руководство для экономистов /Пер. с нем. и предисл. В.М. Ивановой. - М.: Финансы и статистика, 1983. - 302 с., Фостер Р . Обновление производства. - М.: Прогресс. 1987. - 24-222 c.
  5. Об этих правилах, - см, напр.: Количественные методы в исторических исследованиях: Учеб. Пособие для студ. вузов, обуч-ся по спец. "История" /Гарскова И.М., Изместьева Т.Ф., Милов Л.В. и др. Под ред. И.Д. Ковальченко. - М.: Высш. шк., 1984. - С.I77-204.
  6. См.: Количественные методы в исторических исследованиях: Учеб. Пособие для студ. вузов, обуч-ся по спец. "История" /Гарскова И.М., Изместьева Т.Ф., Милов Л.В. и др. Под ред. И.Д. Ковальченко. - М.: Высш. шк., 1984. - 384 с. - С.183.
  7. Елисеева И. И. И Рукавишников В. О. Группировка, корреляция, распознавание образов. Статистические методы классификации и измерения связей. М.: Статистика. 1977г. - С.10.

назад    вверх    вперед
Главная| Философия| История| Аналитика| Литература| Литературоведен|Публицистика| Журналистика: РФ и СНГ| Журналистика: Украина| Информатика| Психология| Интервью| Конференции| Рецензии| Юмор| Ссылки| Инязпубликации| О себе| Почта| Гостевая книга