
Вывод из графиков документов
График 1. Закон Ципфа.
На этих графиках видно, как частота слов убывает с увеличением номера слова, что соответствует описанию закона Ципфа. Первые по списку слова имеют наивысшую частоту, и далее частота убывает экспоненциально, что типично для больших текстов.
Закон Ципфа утверждает, что частота появления слова в тексте обратно пропорциональна его позиции в рейтинге частотности слов. Это означает, что небольшое количество слов составляет большую часть текста, в то время как большинство слов встречаются редко.
График 2. Закон Ципфа-Мандельброта. Линейная линия тренда.
На этих графиках, представляющем Закон Ципфа-Мандельброта, мы можем видеть, что распределение частоты слов не является строго экспоненциальным, как это было бы в случае классического закона Ципфа. Вместо этого, оно ближе к степенной зависимости, где некоторые слова могут иметь частоту, отличную от четко экспоненциальной. И это отражает более реалистическую картину использования слов в текстах.
Линейная линия тренда на графиках используется для аппроксимации общей тенденции в данных. Например, она представляет собой линию, которая показывает общее убывание частоты слов с увеличением их позиции в рейтинге частотности. Эта линия помогает нам определить, насколько данные приближаются к степенной зависимости, характерной для Закона Ципфа-Мандельброта.
Исследование Закона Ципфа-Мандельброта и аппроксимация линейной линии тренда помогают лучше понять, как слова распределены в текстах, и могут быть полезными для анализа текстовых данных, выявления ключевых слов и исследования структуры языка.
График 3. Кумулятивная частота.
Закон Ципфа предполагает, что в тексте существует небольшое количество слов, которые встречаются очень часто, и большое количество слов, которые встречаются редко. Поэтому кумулятивная частота на графиках увеличивается быстро в начале, когда наиболее часто встречающиеся слова добавляются к накопленной частоте. Этот начальный быстрый рост кумулятивной частоты характеризует экспоненциальное убывание частоты слов.
Но другой стороны, когда в тексте больше уникальных слов с более низкой частотой, график кумулятивной частоты может стать менее крутым и ближе к линейному. Это происходит потому, что множество редких слов постепенно добавляется к накопленной частоте, и они не вносят такого большого вклада, как частые слова.
Таким образом, если график кумулятивной частоты стремится к экспоненциальному виду на начальных этапах и к линейному на более поздних этапах, это указывает на соблюдение закона Ципфа. Это явление отражает характер распределения частоты слов в тексте, где наиболее частые слова доминируют в начале, а менее частые слова добавляются по мере продвижения в тексте.
График 4. Нормализованная частота.
Графики нормализованной частоты представляет собой отношение частоты каждого слова к общему числу слов в тексте. В результате они позволяют учесть разные длины текстов и сравнивать их независимо от общего объема слов.
В основном наблюдение за этими графиками заключается в том, что график нормализованной частоты отражает, какие слова в тексте наиболее "важны" или "популярны" среди всех слов. Слова с наибольшей нормализованной частотой имеют большее влияние на структуру текста. Это помогает в выявлении ключевых слов или фраз, которые характеризуют содержание текста.