Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Гомогенные тексты.docx
Скачиваний:
0
Добавлен:
28.01.2020
Размер:
129.54 Кб
Скачать

Вес терминов

TF-IDF (от англ. TF — term frequency, IDF — inverse document frequency) — статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.

Мера TF-IDF часто используется в задачах анализа текстов и информационного поиска, например, как один из критериев релевантности документа поисковому запросу, при расчёте меры близости документов при кластеризации.

Структура формулы

TF (term frequency — частота слова) — отношение числа вхождения некоторого слова к общему количеству слов документа. Таким образом, оценивается важность слова tj в пределах отдельного документа.

t = число различных терминов в коллекции документов

tfij = число вхождений термина tj в документ Di.

IDF (inverse document frequency — обратная частота документа) — инверсия частоты, с которой некоторое слово встречается в документах коллекции. Учёт IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.

idfj=log(d/dfj), где d = число всех документов, dfj = число документов содержащих tj.

Пример:

Модификации алгоритма

Следующая формула считается хорошей для подсчета весов:

, где общее число слов в документе

Решена проблема: Если в запросе и документе совпадал один термин, с высокой частотой (tf), то результат мог стать «перекошенным».

Пример работы алгоритма реферирования:

Порядок выполнения работы

Исходные данные:

  1. Выбрать 5-10 текстов рецензий на один и тот же фильм, недавно вышедший на экраны.

  1. Провести автоматическое и ручное аннотирование данных текстов с целью обобщения зрительских оценок качества фильма.

  1. Сделать вывод

Приложение для автоматического аннотирования: http://tesuck.eveel.ru/

Ещё одно приложение (с методом указания размера аннотации в процентах и сортировкой предложений): http://referat.keywordrush.com/

Результат:

Рецензия 1:

Фильм «Охотники на ведьм» с первых минут не оставляет иллюзий насчет своей жанровой принадлежности: когда милые чада пыряют ножом, а потом сжигают явно страдающую от целого букета кожных заболеваний старушку, понимаешь: это не детская волшебная сказка. Это полноценный продолжатель традиций «Ван Хельсинга» и «Братьев Гримм»: здесь тоже присутствуют зашкаливающий градус насилия, кожаные корсеты и жуткие чудовища.

Кабы не все вышеперечисленное, «Охотники» могли бы стать неплохим воспитательным видео для школьников. Во-первых, здесь подробно объясняют, как вычислить опасную дьяволопоклонницу – если верить Гензелю и Гретель, у темных ведьм неизменно возникают проблемы по части дерматологии и стоматологии. То есть, детишки, не хотите попасть в пыточную охотников на ведьм – соблюдайте правила санитарии и гигиены. Во-вторых, в фильме доступно представлена опасность «самолечения». Приключилась беда в деревне? Ведьма завелась? Не надо пытаться справиться с ней своими силами, вреда будет больше, чем пользы – доверьтесь профессионалам! В-третьих, показана польза аналитического мышления. Все ли ведьмы одинаково вредны? А если нет, то, может, не стоит их под одну гребенку – или, приближаясь к реалиям фильма, под один нож?

Не претендуя на лавры кинематографического шедевра, фильм «Охотники на ведьм», тем не менее, представляет собой весьма достойное зрелище. И дело тут не только в качественных спецэффектах, декорациях и костюмах – создатели западных фэнтезийных боевиков в принципе отличаются серьезным  подходом к созданию красивой картинки. Удивительно другое: весьма неплохо отработали режиссер, он же автор сценария Томми Виркола, а также актеры – Джереми Реннер, Джемма Артентон и Фамке Янссен. Всем этим людям оказалось мало того, что в кадре постоянно маячат охваченные огнем фигуры и выпрыгивающие из корсетов пленительные полукружия безупречных бюстов – актеры зачем-то являют эмоции и юмор, а сюжет нет-нет да и подкинет какой-нибудь неожиданный поворот.

Приятно, что жанр «страшных сказок для взрослых», который, казалось, после обеих «Белоснежек» 2012 года можно было хоронить, снова вышел на неплохой – не заоблачный, но неплохой – уровень. Посмотрим, удастся ли в 2014 году очередной голливудской интерпретации волшебной сказки, фильму «Малифисент» с Анджелиной Джоли в главной роли, удержать – а то и поднять! – планку.

Опираясь на этапы ручного аннотирования из теоретического положения, составим и получим ручную аннотацию.

Ручное аннотирование

Фильм «Охотники на ведьм» с первых минут не оставляет иллюзий насчет своей жанровой принадлежности: когда милые чада пыряют ножом, а потом сжигают явно страдающую от целого букета кожных заболеваний старушку, понимаешь: это не детская волшебная сказка. Это полноценный продолжатель традиций «Ван Хельсинга» и «Братьев Гримм»: здесь тоже присутствуют зашкаливающий градус насилия, кожаные корсеты и жуткие чудовища.

Во-первых, здесь подробно объясняют, как вычислить опасную дьяволопоклонницу – если верить Гензелю и Гретель, у темных ведьм неизменно возникают проблемы по части дерматологии и стоматологии. Во-вторых, в фильме доступно представлена опасность «самолечения». В-третьих, показана польза аналитического мышления.

Не претендуя на лавры кинематографического шедевра, фильм «Охотники на ведьм», тем не менее, представляет собой весьма достойное зрелище. И дело тут не только в качественных спецэффектах, декорациях и костюмах – создатели западных фэнтезийных боевиков в принципе отличаются серьезным  подходом к созданию красивой картинки. Удивительно другое: весьма неплохо отработали режиссер, он же автор сценария Томми Виркола, а также актеры – Джереми Реннер, Джемма Артентон и Фамке Янссен.

Приятно, что жанр «страшных сказок для взрослых», который, казалось, после обеих «Белоснежек» 2012 года можно было хоронить, снова вышел на неплохой – не заоблачный, но неплохой – уровень.

Пользуясь приложением для автоматического аннотирования, получим краткую аннотацию, а так же, ключевые слова, веса и другое.

Автоматическое аннотирование

Фильм «Охотники на ведьм» с первых минут не оставляет иллюзий насчет своей жанровой принадлежности: когда милые чада пыряют ножом, а потом сжигают явно страдающую от целого букета кожных заболеваний старушку, понимаешь: это не детская волшебная сказка. То есть, детишки, не хотите попасть в пыточную охотников на ведьм – соблюдайте правила санитарии и гигиены. А если нет, то, может, не стоит их под одну гребенку – или, приближаясь к реалиям фильма, под один нож?

Не претендуя на лавры кинематографического шедевра, фильм «Охотники на ведьм», тем не менее, представляет собой весьма достойное зрелище. Приятно, что жанр «страшных сказок для взрослых», который, казалось, после обеих «Белоснежек» 2012 года можно было хоронить, снова вышел на неплохой – не заоблачный, но неплохой – уровень. Посмотрим, удастся ли в 2014 году очередной голливудской интерпретации волшебной сказки, фильму «Малифисент» с Анджелиной Джоли в главной роли, удержать – а то и поднять!

Термин

Значимость

жуткие чудовища

1.0000

огнем фигуры

1.0000

жанровой принадлежности

1.0000

милые чада

1.0000

градус насилия

1.0000

серьезным подходом

1.0000

кожаные корсеты

1.0000

ведьма

0.6309

букета кожных заболеваний

0.6309

фильм

0.6309

продолжатель

0.6309

сценарий

0.6309

очередной голливудской интерпретации волшебной сказки

0.4307

Сводка

Язык: русский.

В данном тексте обнаружено:

  • терминов: 13 (TextRank);

  • токенов: 377.

Не удалось определить леммы для следующих слов:страдающуювышеперечисленное,дьяволопоклонницуГензелюГретельдерматологии,пыточнуюспецэффектахфэнтезийныхВиркола,РеннерДжеммаАртентонФамкеЯнссенкорсетов,пленительныеАнджелинойДжоли.

Всего уникальных лемм для номинативных частей речи:100.

Анализируя текст уже можно найти синтаксические и грамматические ошибки.

Например, в последнем предложении, не поняв грамматику языка, алгоритм закончил предложение раньше, тем самым потеряв смысл самого предложения.

В сводке можно найти количество терминов(ключевых слов) и токенов данного текста, а так же неопределенные леммы для некоторых слов. Слова для которых леммы не определены не оцениваются важными, тем самым не участвуют в подсчете весов.

Так же некоторые термины вовсе отсутствуют в аннотации. Это обусловлено их редким появлением в рецензии, а так же алгоритмом программы.

Опираясь на первую рецензию составим аннотации всех остальных.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]