Заключение
Представленный
в докладе алгоритм категоризации текстов
способен выявлять в больших текстовых
массивах «осмысленные» категории,
сопоставлять им значимые слова,
автоматически отсекая семантически
ненагруженные артикли, глаголы и другие
словоформы, обычно заносимые в специально
составленные стоп-листы (используемые
в лексических поисковых системах). Он
может быть использован в системах
фильтрации и рубрикации текстовой
информации.
Список использованных источников
How
To Use Web Search Engines. URL:
www.carroll.k12.ia.us/ccsdpages/searchhelp.html,
www.monash.com/spidap3.html
[2]
G. Salton. Automatic Text Processing. Addison-Wesley Publishing
Company, Inc., Reading, MA, 1989.
[3]
G. Salton, J. Allan, and C. Buckley. Automatic structuring and
retrieval of large text files. Communications of the ACM,
37(2):97-108, February 1994.
[4]
S. Deerwester, S. Dumais, G. Furnas, T. Landauer, and R. Harshman.
Indexing by latent semantic analysis. Journal of the American
Society for Information Science, 41(6):391--407, 1990.
[5]
G. Golub and C. Van Loan. Matrix Computations. Johns-Hopkins,
Baltimore, Maryland, second edition, 1989
[6]
S. Dumais. Improving the retrieval of information from external
sources. Behavior Research Methods, Instruments, & Computers,
23(2):229--236, 1991.
[7]
Todd A. Letsche and Michael W. Berry. Large-Scale Information
Retrieval with Latent Semantic Indexing. URL:
www.cs.utk.edu/
~berry/sc95/sc95.html
20