2. 7. Выделение лишь одной группы дубликатов внутри сложной летописи
2. 7. Выделение лишь одной группы дубликатов внутри сложной летописи
Выше были введены два локальных условия на пару имен списка Х: ui = uj (ui и uj – ровесники) и ui : uj (ui и uj – сопряжены).
Определим еще несколько условий этого типа и рассмотрим порожденные этими условиями гистограммы частот разнесений связанных имен.
Условия будем подбирать так, чтобы по соответствующим гистограммам частот определялись не все сдвиги между дубликатами в списке Х, а лишь те, которые присущи какой-то одной системе дубликатов в нем. Это позволит анализировать списки со сложной структурой дубликатов и большим количеством различных значений сдвигов между ними.
Пусть C – некоторое множество глав списка имен Х, состоящее из d глав, не обязательно идущих подряд в списке:
C = Xi1,…, Xid.
Определение. Будем говорить, что два имени ui и uj ровесники из С (обозначение: ui = uj), если они впервые появились в списке в одной и той же главе, которая принадлежит множеству глав С.
Определение. Будем говорить, что два имени ui и uj сопряжены в С (обозначение: ui : uj), если они попали вместе хотя бы в одну главу множества С.
По аналогии с локальными событиями А и В, рассмотренными выше, введем события:
Ac = w1 : b2 = b,
Bc = w1 : b2 : b.
Событие Bc является локальным, т. к. может быть определено составом, скажем первой главы из множества C.
Событие Ac локальным не является, но оно будет локальным, если рассматривать не весь список Х, а его часть, начинающуюся с первой главы множества C (все главы с меньшими номерами отбросить), и исключить из нее все имена, впервые появившиеся в предшествующих (отброшенных главах).
Так же, как и выше, по событиям Ac и Bc определяются условные распределения f2 (x) и f3 (x) случайной величины з при условии, что произошло событие Ac или Bc соответственно:
f2 (x) = Pз = x| A,
f3 (x) = Pз = x| B (x – целое).
Утверждение (Б) сформулированное выше, сохраняет силу и для гистограмм f2 (x) и f3 (x) при произвольном выборе подмножества глав C.
Таким образом, для равномерно плотных списков с правильной хронологией графики функций f2 (x) и f3 (x) должны совпадать (быть близки) на промежутке [е, N] с графиком линейно убывающей функции, равной нулю при x=N.
При этом, однако необходимо потребовать, чтобы количество связанных в C имен было достаточно велико. Иначе возникнут расхождения графиков, обусловленные малостью выборки.
Рассмотрим теперь случай, когда список Х содержит дубликаты, причем среди дубликатов есть некоторые главы из множества C. Тогда имена, связанные в этих главах, будут с повышенной вероятностью повторяться в их дубликатах.
Это приведет к появлению всплесков на гистограммах f2 (x) и f3 (x) на местах разнесений, равных сдвигам между дубликатами глав множества C. Сдвиги между дубликатами, которые не «зацеплены» с C, на этих гистограммах отражены не будут.
Таким образом, гистограммы f2 (x) и f3 (x) позволяют определять сдвиги, присущие подсистеме дубликатов в списке Х – а именно, множеству дубликатов, «зацепленных» с C (то есть содержащему, в числе прочих, и какие-то главы из C).
Определение. Гистограммы типа f2 (x) и f3 (x) мы будем называть частными гистограммами частот разнесений связанных имен, в отличие от общих гистограмм типа f2 (x) или f3 (x).
Сравнение частных гистограмм частот разнесений связанных имен при различном выборе множества глав C позволяет выяснить – содержит ли список Х лишь одну серию дубликатов, или же этих серий в нем несколько. Это сравнение позволяет также выяснять, в каких именно частях списка Х наиболее резко проявляются те или иные сдвиги, найденные по общей гистограмме.
Данный текст является ознакомительным фрагментом.