
- •1. Дайте определение понятию «лингвистическая база данных».
- •2. Дайте определение термину «компьютерная лингвистика».
- •3. Что относится к лингвистическим базам данных?
- •14. Дайте определения терминам: «поисковый робот», «поисковая машина» и «индекс».
- •15. Перечислите виды поиска.
- •21. Назовите типы поисковых систем, к которым относятся поисковые системы Lexxe, ImHalal и Yauba.
- •22. Раскройте понятие «электронная библиотека».
- •23. В чем суть электронных библиотек и основное их отличие от национальных корпусов?
- •25. Что такое «уникальный текст» и «копирайтинг»?
22. Раскройте понятие «электронная библиотека».
Электронная библиотека — упорядоченная коллекция разнородных электронных документов (в том числе книг), снабженных средствами навигации и поиска. Может быть веб-сайтом, где постепенно накапливаются различные тексты (чаще литературные, но также и любые другие, вплоть до компьютерных программ) и медиафайлы, каждый из которых самодостаточен и в любой момент может быть востребован читателем. Электронные библиотеки могут быть универсальными, стремящимися к наиболее широкому выбору материала (как Библиотека Максима Мошкова или Либрусек), и более специализированными, как Фундаментальная электронная библиотека или проект Сетевая Словесность, нацеленный на собирание авторов и типов текста, наиболее ярко заявляющих о себе именно в Интернете.
23. В чем суть электронных библиотек и основное их отличие от национальных корпусов?
Корпус способен объективно анализировать. Разметка-главная характеритиска корпуса,отличающая его от эл.библиотек.
24. Перечислите шесть электронных библиотек (российские + зарубежные).
Библиотека Максима Мошкова, Либрусек,Google Books,Europeana, runeberg.org,Проект «Гутенберг».
25. Что такое «уникальный текст» и «копирайтинг»?
копирайтинг :профессиональная деятельность по написанию рекламных и презентационных текстов. Таковыми можно считать все тексты, которые прямым или косвенным образом рекламируют товар, компанию, услугу, человека или идею. Специалистов, которые занимаются копирайтингом, называют копирайтерами
Уникальный текст:
- только уникальный контент, способен вывести сайт на первые страницы поисковых систем , а использование неуникальных текстов, наоборот, грозит применением «штрафных санкций» со стороны этих поисковиков в виде снижения рейтинга вплоть до полного исключения из индекса.
- именно авторские статьи, содержащие новую уникальную информацию и свежий взгляд, являются лидерами цитирования на форумах, в социальных сетях и персональных блогах, и обеспечивают сайт бесплатными естественными ссылками, которые тоже очень способствуют улучшению его рейтинга;
26. Дайте определение понятию «лингвистический корпус».
Лингвистический корпус- собрание текстов в электронной форме, в котором можно осуществить поиск слов,грамматических форм,значений, словосочетаний с помощью определенной поисковой системы.
27. Назовите хотя бы два известных корпуса русского языка, которые появились прежде Национального корпуса русского языка.
Starling, общедоступные копуса,созданные зарубежными славистами были Уппсальский и Тюбингенский.
28. В какой стране был создан первый компьютерный корпус русского языка?
русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.
29. Назовите пять корпусов русского языка, которые были созданы в России и за рубежом.
• Машинный Фонд русского языка,
• Национальный корпус русского языка,
• корпус литературного русского языка,
• Упсальский корпус,
• Хельсинкский аннотированный корпус русских текстов ХАНКО,
• компьютерный корпус текстов русских газет конца ХХ века.
30. Перечислите три основные характеристики, которые имеет любой лингвистический корпус.
-Автоизвлечение сведений о языке из корпусов
-Обработка информации
-Проверка обработанных данных
31. Дайте определения терминам: «разметка», «лемматизация», «токенизация».
Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке Лемматизация - техника образования первоначальной формы слова, исходя из других его словоформ. Лемматизация относится методам морфологического анализа, которые подразделяются на декларативный и процедурный методы. Декларативный использует все возможные словоформы. Процедурный, в свою очередь, разделяет слово на основу и аффикс, используя в конечном счете только возможные основы с ссылками на подходящие аффиксы. Токенизация (tokenization) – это выделение в контенте символов таких как - слова, чисела, и др., в этот процесс так же входит, нахождение пределов предложений.
Лемматиза́ция — процесс привода словоформы к лемме — её нормальной (словарной) форме.
токенизация (разбиение на орфографические слова), лемматизация (приведение словоформ к словарной форме), язык разметки (текста) в компьютерной терминологии — набор символов или последовательностей, вставляемых в текст для передачи информации о его выводе или строении.
32. Перечислите все подкорпуса, которые входят в НКРЯ.
Основной, синтаксический, газетный, параллельные корпуса, корпус диалектных текстов, поэтических текстов, обучающий корпус русского языка, устной речи, акцентологический, мультимедийный,
33. Перечислите две программы, которые использовались при грамматической разметке текстов, а также при расстановке ударений в НКРЯ.
При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и Dialing (коллектив авторов под руководством А. В. Сокирко).
34. Какие виды поиска существуют в НКРЯ.
Поиск точных форм и лексико-грамматический поиск.
35. Назовите три основных блока признаков в НКРЯ.
Грамматические, семантические, дополнительные.
36. Назовите одно отличие семантических признаков от грамматических в НКРЯ.
Разделение имён существительных на предметные и непредметные в семантических признаках.
37. Назовите четыре подкорпуса в НКРЯ, в которых отсутствует возможность поиска по семантическим признакам.
Синтаксический, параллельный, обучающий, диалектный.
38. Назовите признаки в НКРЯ, в которых есть возможность поиска слова, стоящего перед любым знаком препинания.
Дополнительные признаки.
39. Перечислите операторы, которыми можно пользоваться при поиске слова в НКРЯ.
Операторы: и(&), или(|), не(-), любая последовательность символов в начале или конце словоформы или лексемы(«»).
40. Назовите подпункт меню в НКРЯ, где можно сортировать тексты по алфавиту.
41. Раскройте аббревиатуру WALS.
The World Atlas of Language Structures – Всемирный Атлас Языковых Структур.