3. Наш подход Выборки и шаги, эволюция параметра вдоль текста
3. Наш подход
Выборки и шаги, эволюция параметра вдоль текста
Пусть в нашем распоряжении оказалось какое-то количество произведений одного писателя. Для удобства упорядочим их хронологически (то есть в порядке написания) и для краткости назовем получившуюся совокупность — ТЕКСТОМ ДАННОГО АВТОРА. Таким образом, текст автора (в нашем определении) может состоять из нескольких его различных произведений — романов, повестей, рассказов и т. п.
Выделим теперь из этого текста отдельные фрагменты — выборки одинакового объема, то есть состоящие из одного и того же (фиксированного заранее) количества слов. Это количество слов естественно назвать ОБЪЕМОМ ВЫБОРКИ.
Эти равновеликие (равные по объему) выборки мы будем выделять из текста через равные интервалы, то есть таким образом, чтобы каждые две соседние выборки были отделены друг от друга примерно одним и тем же количеством слов. Это «расстояние», интервал между соседними выборками мы назовем ШАГОМ, рис. d3.1.
Рис. d3.1. Последовательные выборки одинакового объема, через равные шаги, вдоль всего исследуемого литературного текста
Объем выборок и их шаг можно варьировать в зависимости от поставленных задач.
Итак, последовательно двигаясь по тексту одного автора, мы через каждые, например, 10 страниц стандартного книжного текста будем делать выборки одного и того же объема, например, в 2000 слов. Чем длиннее исследуемый текст, тем больше выборок мы сможем сделать. Для коротких произведений число выборок невелико, что усложняет анализ, делает результаты не устойчивыми.
Пусть теперь мы избрали какой-либо лингвистический пара метр, например частоту употребления писателем предлога «в». Можно изучить эволюцию этого параметра вдоль всего текста, состоящего, быть может, из нескольких отдельных произведений, выстроенных нами в ряд. Для этого сделаем последовательные выборки и подсчитаем для каждой из них значение интересующего нас параметра. В результате для каждой выборки (порции) получим свое число. От выборки к выборке оно будет, вообще говоря, меняться. Построим график, отложив по горизонтали целые числа 1, 2, 3…, являющиеся номерами последовательных выборок, а по вертикали — значения изучаемой нами лингвистической характеристики.
В результате, эволюция данного параметра вдоль всего исследуемого текста изобразится некоторой ломаной линией. Следовательно, мы представили каждого писателя не точкой на плоскости или в пространстве, как это делалось, например, в работах [ф1], [ф2], а графиком — ломаной линией. Она наглядно показывает поведение исследуемого параметра вдоль произведений данного автора. Оказывается, такие графики очень удобны при поиске авторских инвариантов. В самом деле, теперь задачу можно переформулировать так.
Требуется найти такой лингвистический параметр и такой оптимальный объем выборок, чтобы соответствующие им графики изображались бы для каждого автора ПРАКТИЧЕСКИ ГОРИЗОНТАЛЬНЫМИ ЛИНИЯМИ — «ПРЯМЫМИ», то есть слабо колеблющимися ломаными.
Другими словами, это будет означать, что числовые значения найденного инварианта мало отклоняются от своего среднего значения вдоль произведений каждого отдельного автора. Это явление — сглаживание ломаной кривой и ее стремление к горизонтальной прямой — назовем СТАБИЛИЗАЦИЕЙ параметра.
Однако одного факта стабилизации еще недостаточно, чтобы можно было объявить данный параметр — авторским инвариантом. Совершенно необходимо, чтобы стабилизировавшиеся графики (то есть практически горизонтальные прямые), отвечающие разным группам писателей, ЗНАЧИТЕЛЬНО ОТЛИЧАЛИСЬ бы друг от друга по высоте. То есть, они должны лежать на существенно разных уровнях. Напомним еще раз, что иногда «горизонтальные прямые», отвечающие разным авторам, могут оказаться близкими, лежащими на одном уровне. В этих случаях значения авторских инвариантов близки. Мы отнесем к одной группе писателей с близкими значениями параметров. Чтобы авторский инвариант был действительно эффективен, он должен разделить совокупность всех писателей на несколько групп с существенно разными значениями инварианта.
Если значения авторского инварианта для двух сравниваемых текстов оказываются близкими, отсюда нельзя делать заключение об их принадлежности одному писателю.
Ясно, что априори само существование таких замечательных лингвистических инвариантов ниоткуда не следует. Для их выявления требуется обширный вычислительный эксперимент. И такой эксперимент был нами проведен на протяжении нескольких лет. Перейдем к изложению результатов.
Более 800 000 книг и аудиокниг! 📚
Получи 2 месяца Литрес Подписки в подарок и наслаждайся неограниченным чтением
ПОЛУЧИТЬ ПОДАРОКДанный текст является ознакомительным фрагментом.
Читайте также
Вдоль по Питерской
Вдоль по Питерской Когда я вышел из трамвая, направляясь на вокзал, меня остановил молодой человек.— Извиняюсь, я первый раз в Москве. Я студент. Меня интересует, почему станция на пустой площади у Садовой называется «Триумфальные ворота», а это — «Тверская застава», хотя
Геопоники, или Кассиана Басса Схоластика выборки о сельском хозяйстве Книга IV[15]
Геопоники, или Кассиана Басса Схоластика выборки о сельском хозяйстве Книга IV[15] В этой книге – четвертой по счету книге выборок о земледелии – содержатся сведения о посадке и работах, связанных с виноградом, вьющимся по деревьям, – анадендрадами, и об их пересадке;
3. Подъем дат «древних» затмений в Средние века устраняет загадки в поведении параметра D″
3. Подъем дат «древних» затмений в Средние века устраняет загадки в поведении параметра D? Затем автор настоящей книги заново пересчитал значения параметра D? на основе новых дат древних затмений, полученных применением описанной выше методики. Обнаруженный эффект
1. Загадочный скачок параметра D″ в теории движения Луны
1. Загадочный скачок параметра D? в теории движения Луны В настоящее время на основе теории движения Луны составлены расчетные таблицы, так называемые каноны, в которых для каждого затмения вычислены его дата, полоса прохождения тени, фаза и т. д. Если в древнем документе
3. Передатировка затмений древности устраняет загадки в поведении параметра D″
3. Передатировка затмений древности устраняет загадки в поведении параметра D? А.Т. Фоменко пересчитал значения D? на основе новых дат древних затмений, полученных в результате применения указанной выше методики. Обнаруженный эффект «переноса вверх» дат затмений показал,
1. Загадочный скачок параметра Д″ в теории движении Луны
1. Загадочный скачок параметра Д? в теории движении Луны В настоящее время на основе теории движения Луны составлены расчетные таблицы, так называемые каноны, в которых для каждого затмения вычислены его дата, полоса прохождения тени, фаза и т. д. Если в древнем документе
3. Передатировка затмений древности устраняет загадки в поведении параметра Д″
3. Передатировка затмений древности устраняет загадки в поведении параметра Д? А.Т. Фоменко пересчитал значения Д? на основе новых дат древних затмений, полученных применением методики [416]. Обнаруженный эффект «переноса вверх» дат затмений привел к тому, что многие
1.7. Гипотеза о возрастании параметра «формы» летописи стечением времени
1.7. Гипотеза о возрастании параметра «формы» летописи стечением времени Рассмотрим две разные исторические эпохи — с бедным начальным фондом информации, и с богатым начальным фондом. Во втором, богатом случае предположим, что объем этого фонда более или менее постоянен
1.13. Возрастание параметра формы с течением времени для русских летописей после XIII века
1.13. Возрастание параметра формы с течением времени для русских летописей после XIII века Если рассматривать русские летописи, распределенные на всем интервале якобы от IX до XVII веков н. э., то картина этого эффекта просматривается на рис. 3.11 недостаточно четко. Однако,
1.14. Возрастание усредненного параметра формы стечением времени для групп русских летописей XIII–XVI веков
1.14. Возрастание усредненного параметра формы стечением времени для групп русских летописей XIII–XVI веков В предыдущем пункте мы в некоторых случаях пытались, воз можно, «слишком точно» измерять достаточно грубые величины. Более естественно рассматривать, поэтому, не
Атлантика «вдоль»…
Атлантика «вдоль»… Горы и вулканы, каньоны и пропасти, котловины и холмы — все это есть и на суше, пусть порой и не в таких грандиозных масштабах, как под водой (где на материке найдем мы пропасти, подобные глубоководным желобам, уходящие на много километров в глубь Земли?).
Вдоль по Питерской
Вдоль по Питерской Когда я вышел из трамвая, направляясь на вокзал, меня остановил молодой человек.– Извиняюсь, я первый раз в Москве. Я студент. Меня интересует, почему станция на пустой площади у Садовой называется «Триумфальные ворота», а это – «Тверская застава», хотя
3. Подъем дат «древних» затмений в средние века устраняет загадки в поведении параметра D″
3. Подъем дат «древних» затмений в средние века устраняет загадки в поведении параметра D? Затем автор настоящей книги заново пересчитал значения параметра D? на основе новых дат древних затмений, полученных применением описанной выше методики. Обнаруженный «перенос