
- •1. Информатика как отрасль народного хозяйства.
- •2. Информационные системы.
- •3. Структура и состав информационной системы.
- •4. Виды информационного обеспечения, используемого в информационных системах.
- •5. Тенденции развития информационных технологий.
- •6. Структура информационного обеспечения. Системы классификации и кодирования.
- •7. Требования, необходимые при разработке классификаторов и систем кодирования.
- •8. Информационные массивы. Постоянные и вспомогательные массивы.
- •9. Информационные массивы. Промежуточные, текущие и служебные массивы.
- •10. Эволюция информационных технологий управления.
- •11. Специальные языки и предъявляемые к ним требования.
- •12. Структура информационных языков. Структура с языковыми приоритетами и независимыми языками.
- •13. Структура с языком-посредником и с единым языком.
- •14. Система языков банков данных. Язык описания данных и язык запросов.
- •15. Система языков банков данных. Язык описания данных и язык управления.
- •16. Содержание и практическое применение первого закона Зипфа.
- •17. Содержание и практическое применение второго закона Зипфа.
- •18. Метод классификации текстовой информации по образцу.
- •19. Метод кластеризации текстовой информации по образцу.
- •20. Законы развития технических систем. Закон прогрессивной эволюции техники.
- •21. Законы развития технических систем. Закон соответствия между функцией и структурой.
- •22. Законы развития технических систем. Закон стадийного развития техники.
- •23. Критерии развития техники. Функциональные критерии.
- •24. Критерии развития техники. Технологические критерии.
- •25. Критерии развития техники. Экономические критерии.
- •26. Критерии развития техники. Антропологические критерии.
- •27. Понятие erp-системы и ее основные функции.
- •28. Что дает предприятию внедрение erp-системы?
- •29. Процессы внедрения и аренды erp-систем.
- •30. Основные принципы выбора erp-систем.
- •31. Основные технические требования к erp-системам.
- •32. Приоритетные применения и рынок erp-систем.
- •33. Концепции маркетинга erp и crm систем.
- •34. Проблемы, решаемые с помощью crm систем.
- •35. Crm система и ее функции.
- •36. Классификация crm систем.
- •37. Технологии crm систем.
- •38. Crm системы для электронной коммерции.
- •39. Разработчики crm систем.
- •40. Алгоритмы обработки информации на базе графовых моделей.
- •41. Определение и структура информационной сети.
- •42. Коммуникационная подсеть информационной сети.
- •43. Базовая эталонная модель открытой информационной сети.
- •44. Область взаимодействия открытой информационной сети.
- •45. Три группы уровней взаимодействия открытой информационной сети.
- •46. Абонентская и ассоциативная системы открытой информационной сети.
- •47. Методы коммутации информации.
- •48. Классификация характеристик качества транспортных услуг информационной сети.
- •49. Характеристики качества обслуживания вычислительной сети.
- •50. Методы обеспечения качества обслуживания.
- •51. Классификация трафика вычислительной сети.
- •52. Алгоритмы управления очередями.
19. Метод кластеризации текстовой информации по образцу.
Кластер – группа документов со схожими признаками. Кластериза́ция докуме́нтов — одна из задач информационного\ поиска. Целью кластеризации документов является автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Следует отметить, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее, в отличие от классификации документов, где категории задаются заранее.
Документ-образец выступает в качестве одной из форм представления информационных потребностей пользователя. Целью поиска является обнаружение тематически близких документов. Самым простым подходом к
решению задачи поиска документов по образцу является использование всех слов документа-образца в качестве запроса. Однако длина такого запроса может оказаться очень большой, что отрицательно скажется на качестве
поиска, т. к. результатом поиска будут все документы, в которых присутствовали данные слова, и таких документов может быть очень много. Это отрицательно скажется как на самой поисковой системе – вычислительные ресурсы и трафик не безграничны и система может оказаться перегруженной, так и на человеке – просмотр и анализ найденных документов может занять значительное время, редкий пользователь готов к этому. Приемлемым вариантом в данном случае является выделение тематики документа. Под тематикой понимается множество ключевых слов, описывающих с некоторой степенью адекватности содержание документа.
Тематика – это приближенное представление документа. Для повышения точности и адекватности описания содержания документа ключевые слова используются с некоторыми весовыми коэффициентами, которые соотносятся
с частотой повторений этих слов в тексте. Вопросы выделения тематики и вычисления тематической близости документов по их тематическому представлению во многом и определяют возможность и эффективность поиска по документу-образцу.
Всю коллекцию документов необходимо организовать так, чтобы можно было легко отыскать в ней нужный материал. База данных должна взаимодействовать с пользовательским запросом. Запросы могут быть простыми, состоящими из одного слова, и сложными – из нескольких слов, связанных логическими операторами. Простой запрос оправдывает свое
название. Пользователь вводит слово, машина ищет его в списке терминов и выдает все связанные с термином ссылки. Структура такой базы данных проста. Взаимодействие со сложными запросами требует более сложной организации.
Рассмотрим последовательность действий для организации поиска.
1. Подбирается текст-источник. Чем четче описаны проблемы в тексте-источнике, тем качественнее и точнее окажется результат.
2. Удаляются из текста стоп-слова.
3. Без учета морфологии слов вычисляется частота вхождения каждого термина.
4. Ранжируются термины в порядке убывания их частоты вхождения.
5. Выбирается диапазон частот из середины упорядоченного списка, построенного по определенному закону. Достаточно взять 10 – 20 терминов.
6. Составляется запрос из отобранных слов в порядке их следования в списке терминов. Запрос должен восприниматься машиной как слова, связанные логическим оператором ИЛИ.
7. Запрос отправляется поисковой системе.