Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
LINGVO_BD.docx
Скачиваний:
2
Добавлен:
16.09.2019
Размер:
13.17 Кб
Скачать

22. Раскройте понятие «электронная библиотека».

Электронная библиотека — упорядоченная коллекция разнородных электронных документов (в том числе книг), снабженных средствами навигации и поиска. Может быть веб-сайтом, где постепенно накапливаются различные тексты (чаще литературные, но также и любые другие, вплоть до компьютерных программ) и медиафайлы, каждый из которых самодостаточен и в любой момент может быть востребован читателем. Электронные библиотеки могут быть универсальными, стремящимися к наиболее широкому выбору материала (как Библиотека Максима Мошкова или Либрусек), и более специализированными, как Фундаментальная электронная библиотека или проект Сетевая Словесность, нацеленный на собирание авторов и типов текста, наиболее ярко заявляющих о себе именно в Интернете.

23. В чем суть электронных библиотек и основное их отличие от национальных корпусов?

Корпус способен объективно анализировать. Разметка-главная характеритиска корпуса,отличающая его от эл.библиотек.

24. Перечислите шесть электронных библиотек (российские + зарубежные).

Библиотека Максима Мошкова, Либрусек,Google Books,Europeana, runeberg.org,Проект «Гутенберг».

25. Что такое «уникальный текст» и «копирайтинг»?

копирайтинг :профессиональная деятельность по написанию рекламных и презентационных текстов. Таковыми можно считать все тексты, которые прямым или косвенным образом рекламируют товар, компанию, услугу, человека или идею. Специалистов, которые занимаются копирайтингом, называют копирайтерами

Уникальный текст:

- только уникальный контент, способен вывести сайт на первые страницы поисковых систем , а использование неуникальных текстов, наоборот, грозит применением «штрафных санкций» со стороны этих поисковиков в виде снижения рейтинга вплоть до полного исключения из индекса.

- именно авторские статьи, содержащие новую уникальную информацию и свежий взгляд, являются лидерами цитирования на форумах, в социальных сетях и персональных блогах, и обеспечивают сайт бесплатными естественными ссылками, которые тоже очень способствуют улучшению его рейтинга;

26. Дайте определение понятию «лингвистический корпус».

Лингвистический корпус- собрание текстов в электронной форме, в котором можно осуществить поиск слов,грамматических форм,значений, словосочетаний с помощью определенной поисковой системы.

27. Назовите хотя бы два известных корпуса русского языка, которые появились прежде Национального корпуса русского языка.

Starling, общедоступные копуса,созданные зарубежными славистами были Уппсальский и Тюбингенский.

28. В какой стране был создан первый компьютерный корпус русского языка?

русский корпус, созданный в 1980-е годы в Университете Уппсалы, Швеция.

29. Назовите пять корпусов русского языка, которые были созданы в России и за рубежом.

• Машинный Фонд русского языка,

• Национальный корпус русского языка,

• корпус литературного русского языка,

• Упсальский корпус,

• Хельсинкский аннотированный корпус русских текстов ХАНКО,

• компьютерный корпус текстов русских газет конца ХХ века.

30. Перечислите три основные характеристики, которые имеет любой лингвистический корпус.

-Автоизвлечение сведений о языке из корпусов

-Обработка информации

-Проверка обработанных данных

31. Дайте определения терминам: «разметка», «лемматизация», «токенизация».

Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке Лемматизация - техника образования первоначальной формы слова, исходя из других его словоформ. Лемматизация относится методам морфологического анализа, которые подразделяются на декларативный и процедурный методы. Декларативный использует все возможные словоформы. Процедурный, в свою очередь, разделяет слово на основу и аффикс, используя в конечном счете только возможные основы с ссылками на подходящие аффиксы. Токенизация (tokenization) – это выделение в контенте символов таких как - слова, чисела, и др., в этот процесс так же входит, нахождение пределов предложений.

Лемматиза́ция — процесс привода словоформы к лемме — её нормальной (словарной) форме.

токенизация (разбиение на орфографические слова), лемматизация (приведение словоформ к словарной форме), язык разметки (текста) в компьютерной терминологии — набор символов или последовательностей, вставляемых в текст для передачи информации о его выводе или строении.

32. Перечислите все подкорпуса, которые входят в НКРЯ.

Основной, синтаксический, газетный, параллельные корпуса, корпус диалектных текстов, поэтических текстов, обучающий корпус русского языка, устной речи, акцентологический, мультимедийный,

33. Перечислите две программы, которые использовались при грамматической разметке текстов, а также при расстановке ударений в НКРЯ.

При грамматической разметке текстов (морфологической и семантической), а также при расстановке ударений использовались программы морфологического анализа Mystem (разработка компании Яндекс) и  Dialing (коллектив авторов под руководством А. В. Сокирко).

34. Какие виды поиска существуют в НКРЯ.

Поиск точных форм и лексико-грамматический поиск.

35. Назовите три основных блока признаков в НКРЯ.

Грамматические, семантические, дополнительные.

36. Назовите одно отличие семантических признаков от грамматических в НКРЯ.

Разделение имён существительных на предметные и непредметные в семантических признаках.

37. Назовите четыре подкорпуса в НКРЯ, в которых отсутствует возможность поиска по семантическим признакам.

Синтаксический, параллельный, обучающий, диалектный.

38. Назовите признаки в НКРЯ, в которых есть возможность поиска слова, стоящего перед любым знаком препинания.

Дополнительные признаки.

39. Перечислите операторы, которыми можно пользоваться при поиске слова в НКРЯ.

Операторы: и(&), или(|), не(-), любая последовательность символов в начале или конце словоформы или лексемы(«»).

40. Назовите подпункт меню в НКРЯ, где можно сортировать тексты по алфавиту.

41. Раскройте аббревиатуру WALS.

The World Atlas of Language Structures – Всемирный Атлас Языковых Структур.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]