Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Informatsionnye_tekhnologii.docx
Скачиваний:
1
Добавлен:
21.09.2019
Размер:
101.84 Кб
Скачать

Internet как средство обмена информации:

- электронная почта (e-mail) – средство обмена инфой, подготовленной в электронном виде между людьми, имеющими доступ к компьютерной сети

- списки рассылки – услуга, которая позволяет определенному количеству пользователей сразу всем поставлять рекламную инфу, периодические издания

- use NET – глобальная распределительная система для дискуссий, включающая множество групп новостей, хранящихся на серверах по всему миру

- chat – IRC – обмен в реальном времени текстовыми сообщениями

- internet пейджер – система, позволяющая зарегиться в своей системе серверов и получить уникальный пейджинговый номер. При каждом подключении к интернет icq определяет текущий IP адрес ПК и отправляет его на центральный сервер, можно вызвать человека, имеющего пейджинговый номер и подключенного в данный момент.

- аудио-, видеоконференции

- радиотелевещание через инет

- интернет телефония

- Skype

Основные направления развития сети Интернет

- упрощение процедуры подключения к сети Интернет, появление новых средств и способов упрощенного доступа Интернет (выход в инет через мобильный)

- постоянное повышение скорости доступа к сети

- появление новых высокоскоростных устройств

- появление новых высокоскоростных каналов связи (ADSL, оптоволоконный канал связи, внедрение беспроводных технологий Wi-fi, Wi-max.

Эксперты считают, что беспроводной доступ wi-max постепенно вытеснит из рынка проводной интернет.

  • увеличение количества IP адресов

Введена 6 версия протокола IP, которая поддерживает не 4-байтовое, а 16-байтовое число.

- предоставление пользователям все более широких возможностей (internet Телефония, интерактивное телерадиовещание, электронная торговля, совершенствование поисковых инструментариев).

- повышение пропускной способности сети Интернет

- создание сети Интернет 2. Цель – создание высокоскоростной сети и разработка приложений для нее. Этой сетью пользуются в США, за рубежом и в России. Главное достоинство – высокая скорость передачи данных до 10 ГБ в секунду. Сеть строится на протоколе IP версия 6, что позволит подключить к Интернет не только ПК, но и мобильные телефоны, портативные устройства.

Пользователю Интернет 2 будет доступ в сеть Интернет 1, а наоборот нет.

Идет постепенное слияние технологий любых информационных сетей: компьютерных, телефонных, телевизионных.

Получаемая обществом инфа по компьютерным сетям в середине 21 века сравняется с объемом инфы, получаемой по традиционным каналам СМИ: радио, телевидение, печать, а к концу столетия территории компьютерной сети должны стать основной информационной средой, а Интернет – основным средством связи.

Современные информационные системы в обработке текстов

1. Автоматическое чтение текста

2.Система автоматического реферирования, аннотирования текста

3. Машинный перевод текста

4. Система понимания письменных текстов

5. Система порождения письменных текстов

6. Система распознавания устной речи

7.Синтез устной речи

Система автоматического чтения текста для быстрого и качественного вода текстовой инфы ПК широко используется сканер – работает по принципу фотоаппарата, позволяя ПК «увидеть» текст. Для того, чтобы преобразовать графическое изображение в текстовую форму необходимы системы автоматического чтения текста или система оптического распознавания символов (OCR – Optical Character Recognition)

Система автоматического чтения текста – компьютерная программа, позволяющая преобразовать текст бумажного носителя в электронный текстовый файл.

Система OCR - это частная задача машинного зрения. К этому классу задач также относятся и задачи распознавания образов, объектов (распознавание фальшивых денег, идентификация человека)

Принципы работы OCR системы:

1. целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.

2. целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез

3. адаптивность – способность компьютерной системы к самообучению

Этапы работы Fine Reader:

1. сканирование – получение графического образа документа

2. распознавание – а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)

б) распознавание каждого символа на основе различных форм распознавания

3. проверка орфографии

4. сохранение

Алгоритмы распознавания (классификаторы)

1. Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.

2. Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.

3. Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.

4. Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.

В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.

Возможности системы OCR:

1. во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.

2. позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.

3. способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.

4. позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.

5. распознает файлы в формате pdf

Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)

Автоматическое аннотирование и реферирование текстов

1. Реферат и аннотация текста. Общее понятие

2. Методы автоматического аннотирования и реферирования текстов

3. Составление рефератов и аннотации текста компом на основе статистического метода

Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.

Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.

Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.

Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)

Этапы построения реферата человеком:

1. подготовительный – референт читает текст, пытается понять и осмыслить документ в целом

2. аналитический – референт делит текст на фрагменты, каждый фрагмент изучает и выделяет в нем основные смысловые единицы. Строится план будущего реферата.

3. этап построения реферата – выделенные ранее смысловые единицы, их комбинации располагаются в единый вторичный текст в соответствии с планом реферата.

Основные смысловые единицы

- ключевые слова – термины, относящиеся к основному содержанию текста и повторяющиеся в нем несколько раз

- ключевые словосочетания – сочетания слов, среди которых есть ключевые слова

- ключевые предложения – предложения, содержащие два и более ключевых слов

В качестве смысловых единиц реферата могут быть:

1. полное (без изменения) ключевое предложение исходного текста

2. перефразированное ключевое предложение

3. предложение, составленное из ключевых слов или словосочетаний с помощью связующих элементов

4. предложение, обобщающее несколько предложений исходного текста, не обязательно ключевых

Смысловыми единицами аннотации могут быть:

1. ключевые слова или словосочетания исходного текста с предшествующими им словами-реляторами (заранее заготовленные слова)

2. специальные предложения исходного текста, содержащие оценочные элементы («рассматривается важная проблема», «ставится задача»)

Комп должен уметь:

1. находить в тексте ключевые слова, словосочетания, предложения

2. находить в тексте менее значимые единицы

3. составлять из текстовых единиц (ключевых слов, словосочетаний) смысловые единицы реферата

4. составлять предложения – текст реферата

Рефераты – в табличном/текстовом виде.

Ключевые слова и словосочетания используются компьютером для построения табличных рефератов.

Методы автоматического реферирования и аннотирования текстов:

- статистический – где ключевое слово – знаменательное слово текста, которое с учетом всех его синонимов встречается в тексте наибольшее число раз. Ключевое предложение – предложение, где два и более ключевых слов.

Принадлежность слова, словосочетания к числу ключевых определяется специальным статистическим коэффициентом.

- позиционный – где ключевое предложение – это предложение, входящее в заголовок, подзаголовок, начало и конец некоторого фрагмента текста

- логико-семантический – где ключевое предложение – это предложение с наибольшим функциональным весом, на величину которого влияют разные факторы (связь с левым и правым предложениями, наличие в предложении семантически значимых слов)

Составление реферата (аннотации) статистическим методом

Используя для выделения ключевых слов текста, один из вариантов статистического метода = F*m / N*n

F – частота употребления слова в тексте

m – число абзацев, в которых встретилось слово

N – число слов в тексте

n – число абзацев в тексте

а) Составить алгоритм, позволяющий получить аннотацию текста в виде релятора со следующими за ним ключевыми словосочетаниями текста. Ключевым словосочетанием – ключ, имя существительное со стоящими перед ним определением, выраженным именем прилагательным или причастием, не относящихся к числу общеупотребительных.

б) словесный реферат текста в виде последовательной цепочки ключевых предложений. Ключевым считается предложение, содержащее три и более ключевых слов.

Словоупотребление – это цепочка символов, заключенных между двумя знаками пробелов. Словоупотребление, находящееся вне текста (предложения) является словоформой.

Несколько словоформ, имеющие одинаково лексическое значение образуют слово (лексему). Цепочка словоупотреблений между двумя знаками конца предложения – предложение.

Алгоритм решения задачи

1. комп по каждому абзацу текста составляет алфавитно-частотный словарь

2. алфавитно-частотные словари объединяются в единый распределительный алфавитно-частотный словарь всего текста

3. ПК проводит чистку словаря, сжимая его до словаря потенциальных, ключевых словоформ

- удаляется вся служебная и общеупотребительная лексика

- объединяются все грамматические формы одного и того же слова

- объединяются синонимы

- удаляются лексические единицы, которые встретились только в одном абзаце

4. словарь потенциально ключевых слов делится а две части:

- главных опорных слов

- второстепенных опорных слов, что осуществляется на основе статистического коэффициента важности.

5. строится аннотация, используется словарь главных опорных слов. Аннотация строится из слов реляторов со следующими за ними словосочетаний

6. строится реферат, используется словарь главных и второстепенных опорных слов. Просматривается исходный текст, комп извлекает из него предложения, содержащие три и более опорных слова.

Системы машинного перевода

Перевод – это вид человеческой языковой деятельности, в результате которой текст на одном языке ставится в соответствие тексту на другом языке, при этом обеспечивается их смысловая эквивалентность.

Типы перевода по степени автоматизации:

1. традиционный (ручной) перевод, выполняемый человеком

2. автоматизированный перевод

а) перевод, выполняемый компом с помощью человека. Компьютер делает перевод, а за справками обращается к человеку.

б) перевод, выполняемый человеком с помощью компа

- в памяти ПК двуязычный словарь и текстовый процессор

- систему ТМ (Translation Memory)

Эти программные продукты называют автоматизированным рабочим местом переводчика. В основе этих программ лежит принцип сбора и хранения фрагментов, переведенных человеком текстов на двух языках. Хранятся в специальном носителе переводов (памяти) и служат бесценным подспорьем при последующем выполнении переводов этой же тематики.

Для каждой тематики создается новый накопитель, ими можно обмениваться. Самая популярная программа – Trados.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]