
- •Философский факультет Кафедра социальной философии
- •Философский факультет Кафедра социальной философии
- •Содержание………………………………………………......….3
- •Введение
- •Интернет как источник социально- гуманитарного знания
- •Специфика философских материалов рунета
- •2744/347 Закон информационного сообщества
- •Сайты организаций.
- •3. Сайты отдельных людей, на которые они выкладывают свои произведения
- •4. Философские ресурсы
- •5. Философские неспециализированные сайты, организованные добровольцами
- •6. Интерактивные площадки
- •III. Универсальный алгоритм поиска информации по базовому курсу «Философия» «Торопись, не спеша»
- •Третий шаг - формулировка запроса. На данном этапе наблюдается значительная дифференциация действий пользователя, которая стоит в прямой зависимости от типа нужной информации.
- •Приложение. Альтернативный алгоритм поиска информации
- •Автоматический анализ текстов
- •Первый закон Зипфа "ранг -- частота"
- •Второй закон Зипфа "количество -- частота"
- •Весовые коэффициенты
- •Представление базы данных
- •Матричное представление базы данных
- •Пространственно-векторное представление базы данных
- •Стратегия поиска
- •Проверка метода на практике
- •Список использованной и рекомендуемой литературы
- •Автор-составитель:
- •Редактор:
Приложение. Альтернативный алгоритм поиска информации
«…возьмем документ и, зная, как поисковая система собирается его обрабатывать, составим запрос. Вот тут-то и возникает маленькая загвоздка. Необходимо хотя бы в общих чертах знать, как система функционирует (наверное, именно на этом парадоксе построено все высшее образование). Ничего не поделаешь, придется разбираться с основами работы поисковой системы. – Это цитата? Где она закнчивается? Если это – альтернатива, она должна быть обоснована в качестве таковой. Зачем она нужна по отношению к универсальному методу?
Автоматический анализ текстов
Оказывается, все созданные человеком тексты построены по единым правилам! Никому не удается обойти их. Какой бы язык ни использовался, кто бы ни писал -- классик или графоман, -- внутренняя структура текста останется неизменной. Она описывается законами Зипфа (G.K. Zipf). Зипф предположил, что природная лень человеческая (впрочем, это свойство любого живого существа) ведет к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона:
Первый закон Зипфа "ранг -- частота"
Выберем любое слово и посчитаем, сколько раз оно встречается в тексте. Эта величина называется частота вхождения слова. Измерим частоту каждого слова текста. Некоторые слова будут иметь одинаковую частоту, то есть входить в текст равное количество раз. Сгруппируем их, взяв только одно значение из каждой группы. Расположим частоты по мере их убывания и пронумеруем. Порядковый номер частоты называется ранг частоты. Так, наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними -- 2 и т.д. Ткнем наугад в страницу и определим вероятность встретить слово, на которое пал выбор. Вероятность будет равна отношению частоты вхождения этого слова к общему числу слов в тексте.
Вероятность = Частота вхождения слова / Число слов
Зипф обнаружил интересную закономерность. Оказывается, если умножить вероятность обнаружения слова в тексте на ранг частоты, то получившаяся величина (С) приблизительно постоянна!
С = (Частота вхождения слова х Ранг частоты) / Число слов
Если
мы немного преобразуем формулу, а потом
заглянем в справочник по математике,
то увидим, что это функция типа y=k/x и ее
график -- равносторонняя гипербола.
Следовательно, по первому закону Зипфа,
если с
амое
распространенное слово встречается в
тексте, например, 100 раз, то следующее
по частоте слово вряд ли встретится 99
раз. Частота вхождения второго по
популярности слова, с высокой долей
вероятности, окажется на уровне 50.
(Разумеется, вы должны понимать, что в
статистике ничего абсолютно точного
нет: 50, 52 -- не так уж и важно.)
Значение константы в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1. Интересно, как выглядят с точки зрения законов Зипфа русские тексты? Они не исключение. Анализ хранящихся в моем компьютере файлов с русскими текстами убедил, что закон безупречен и тут. Для русского языка коэффициент Зипфа получился равным 0,06-0,07. Хотя эти исследования не претендуют на полноту, универсальность законов Зипфа позволяет предположить, что полученные данные вполне достоверны.