Точно Не проект 2 / Проект 2
.docx
Представление результатов обработки документа 1 “Искусственный интеллект” [1]
Таблица №1 Фрагмент таблицы терминов
Номер |
logN |
logF |
Термин |
Частота |
Fc |
Fcnorm, % |
1 |
0,000 |
2,901 |
функция |
797 |
797 |
1,778 |
2 |
0,301 |
2,895 |
правило |
786 |
1583 |
3,532 |
3 |
0,477 |
2,894 |
список |
784 |
2367 |
5,282 |
4 |
0,602 |
2,887 |
значение |
772 |
3139 |
7,004 |
5 |
0,698 |
2,854 |
система |
715 |
3854 |
8,600 |
6 |
0,778 |
2,783 |
вершина |
607 |
4461 |
9,955 |
7 |
0,845 |
2,775 |
поиск |
596 |
5057 |
11,285 |
8 |
0,903 |
2,748 |
рисунок |
561 |
5618 |
12,537 |
9 |
0,954 |
2,709 |
знание |
512 |
6130 |
13,679 |
.. |
…....... |
…....... |
…....... |
….. |
….. |
…....... |
1110 |
3,045 |
0,477 |
банк |
3 |
44811 |
100 |
Рис 1. Закон Ципфа.
Рис 2. Закон Ципфа-Мандельброта. Линейная линия тренда.
Рис 3. Кумулятивная частота.
Рис 4. Нормализованная частота.
Рис 5. Облако тегов.
Представление результатов обработки документа 2 “Цифровая экономика: проблемы и перспективы” [2]
Таблица №2 Фрагмент таблицы терминов
Номер |
logN |
logF |
Термин |
Частота |
Fc |
Fcnorm, % |
1 |
0,000 |
1,771 |
экономика |
59 |
59 |
12,854 |
2 |
0,301 |
1,204 |
вектор |
16 |
75 |
16,340 |
3 |
0,477 |
1,146 |
государство |
14 |
89 |
19,390 |
4 |
0,602 |
1,114 |
программа |
13 |
102 |
22,222 |
5 |
0,699 |
1,114 |
перспектива |
13 |
115 |
25,054 |
6 |
0,778 |
1,079 |
развитие |
12 |
127 |
27,669 |
7 |
0,845 |
1,079 |
управление |
12 |
139 |
30,283 |
8 |
0,903 |
1,000 |
товар |
10 |
149 |
32,462 |
9 |
0,954 |
1,000 |
федерация |
10 |
159 |
34,641 |
.. |
…....... |
…....... |
…....... |
….. |
….. |
…....... |
103 |
2,013 |
0,301 |
вызов |
2 |
459 |
100,000 |
Рис 6. Закон Ципфа.
Рис 7. Закон Ципфа-Мандельброта. Линейная линия тренда.
Рис 8. Кумулятивная частота.
Рис 9. Нормализованная частота.
Рис 10. Облако тегов.
Представление результатов обработки документа 3 “Терминология безопасности: кибербезопасность, информационная безопасность” [3]
Таблица №3 Фрагмент таблицы терминов
Номер |
logN |
logF |
Термин |
Частота |
Fc |
Fcnorm, % |
1 |
0,000 |
1,519 |
безопасность |
33 |
33 |
7,221 |
2 |
0,301 |
1,505 |
термин |
32 |
65 |
14,223 |
3 |
0,477 |
1,380 |
кибербезопасность |
24 |
89 |
19,475 |
4 |
0,602 |
1,255 |
понятие |
18 |
107 |
23,414 |
5 |
0,699 |
1,255 |
определение |
18 |
125 |
27,352 |
6 |
0,778 |
1,204 |
информация |
16 |
141 |
30,853 |
7 |
0,845 |
1,114 |
объект |
13 |
154 |
33,698 |
8 |
0,903 |
1,079 |
кибератака |
12 |
166 |
36,324 |
9 |
0,954 |
1,041 |
защищенность |
11 |
177 |
38,731 |
.. |
…....... |
…....... |
…....... |
….. |
….. |
…....... |
101 |
2,004 |
0,301 |
сфера |
2 |
457 |
100,000 |
Рис 11. Закон Ципфа.
Рис 12. Закон Ципфа-Мандельброта. Линейная линия тренда.
Рис 13. Кумулятивная частота.
Рис 14. Нормализованная частота.
Рис 15. Облако тегов.
Вывод из графиков документов
График 1. Закон Ципфа.
На этих графиках видно, как частота слов убывает с увеличением номера слова, что соответствует описанию закона Ципфа. Первые по списку слова имеют наивысшую частоту, и далее частота убывает экспоненциально, что типично для больших текстов.
Закон Ципфа утверждает, что частота появления слова в тексте обратно пропорциональна его позиции в рейтинге частотности слов. Это означает, что небольшое количество слов составляет большую часть текста, в то время как большинство слов встречаются редко.
График 2. Закон Ципфа-Мандельброта. Линейная линия тренда.
На этих графиках, представляющем Закон Ципфа-Мандельброта, мы можем видеть, что распределение частоты слов не является строго экспоненциальным, как это было бы в случае классического закона Ципфа. Вместо этого, оно ближе к степенной зависимости, где некоторые слова могут иметь частоту, отличную от четко экспоненциальной. И это отражает более реалистическую картину использования слов в текстах.
Линейная линия тренда на графиках используется для аппроксимации общей тенденции в данных. Например, она представляет собой линию, которая показывает общее убывание частоты слов с увеличением их позиции в рейтинге частотности. Эта линия помогает нам определить, насколько данные приближаются к степенной зависимости, характерной для Закона Ципфа-Мандельброта.
Исследование Закона Ципфа-Мандельброта и аппроксимация линейной линии тренда помогают лучше понять, как слова распределены в текстах, и могут быть полезными для анализа текстовых данных, выявления ключевых слов и исследования структуры языка.
График 3. Кумулятивная частота.
Закон Ципфа предполагает, что в тексте существует небольшое количество слов, которые встречаются очень часто, и большое количество слов, которые встречаются редко. Поэтому кумулятивная частота на графиках увеличивается быстро в начале, когда наиболее часто встречающиеся слова добавляются к накопленной частоте. Этот начальный быстрый рост кумулятивной частоты характеризует экспоненциальное убывание частоты слов.
Но другой стороны, когда в тексте больше уникальных слов с более низкой частотой, график кумулятивной частоты может стать менее крутым и ближе к линейному. Это происходит потому, что множество редких слов постепенно добавляется к накопленной частоте, и они не вносят такого большого вклада, как частые слова.
Таким образом, если график кумулятивной частоты стремится к экспоненциальному виду на начальных этапах и к линейному на более поздних этапах, это указывает на соблюдение закона Ципфа. Это явление отражает характер распределения частоты слов в тексте, где наиболее частые слова доминируют в начале, а менее частые слова добавляются по мере продвижения в тексте.
График 4. Нормализованная частота.
Графики нормализованной частоты представляет собой отношение частоты каждого слова к общему числу слов в тексте. В результате они позволяют учесть разные длины текстов и сравнивать их независимо от общего объема слов.
В основном наблюдение за этими графиками заключается в том, что график нормализованной частоты отражает, какие слова в тексте наиболее "важны" или "популярны" среди всех слов. Слова с наибольшей нормализованной частотой имеют большее влияние на структуру текста. Это помогает в выявлении ключевых слов или фраз, которые характеризуют содержание текста.
Источники:
Бондарев В. Н., Аде Ф. Г. Искусственный интеллект //Севастополь: Изд-во СевНТУ. – 2002. – С. 615.
Ссылка на документ (researchgate.net)
Павлова И. В., Моисеев В. О. Цифровая экономика: проблемы и перспективы //Вектор экономики. – 2019. – №. 11. – С. 63-63.
Ссылка на документ (vectoreconomy.ru)
Алпеев А. С. Терминология безопасности: кибербезопасность, информационная безопасность //Вопросы кибербезопасности. – 2014. – №. 5 (8). – С. 39-42.
Ссылка на документ (cyberleninka.ru)