- •2. Становлению новых компьютерных технологий способствовали достижения в области технического, программного и информационного обеспечения.
- •10. Порождение (построение) нового текста
- •2. По изменчивости:
- •3. По полноте:
- •4. По предметной области
- •3. Эмпирико-теоретические
- •2. Процесс обработки инфы очень сложен. Человек постоянно участвует во всевозможных процессах. Информационные процессы протекают не только в человеческом обществе, но и в растительном и животном мире.
- •1. Разомкнутые ис – системы, в которых получаемая потребителем инфа используется произвольно, а после получения инфы от потребителя в систему ничего не поступает.
- •3. Моделирование как основной метод решения задач в области ис
- •4. Общие принципы решения лингвистических задач методом моделирования
- •4. В 1 000 000 раз увеличилось быстродействие компьютера, вырос объем памяти
- •2. Устройства вывода – устройства для вывода инфы из памяти компьютера пользователю.
- •1. Матричные – это принтеры, у которых печатающая головка состоит из иголок – матрицы. Через красящую ленту отпечатываются символы. Низкое качество печати (банки, сберкассы)
- •3) Лазерные – позволяют достичь высокого качества печати. Технология - частички порошка (тонера) под воздействием луча лазера, высокой температуры вплавляются в лист бумаги.
- •4) Сублимационные – используются в полиграфии. Позволяют получить фотографическое качество печати.
- •1. Односторонние однослойные 4,7 Гб
- •2. Однослойные двусторонние 9,4 Гб
- •3. Односторонние двухслойные 8,5 Гб
- •4. Двусторонние двухслойные 17 Гб
- •1 Микропроцессор создан в 1971 г. Фирма Intel, 4-х разрядный, 75 кГц, 60 тысяч операций в сек, постоянно совершенствовался.
- •2007 Г. – более 2 млрд. Транзисторов
- •3) По совместимости
- •Ibm pc Intel используют в бизнесе для обработки текстов, для работы с большими базами данных, изначально предназначались для обмена инфой, телекоммуникаций
- •3. Назначение и основные функции прикладных программ
- •4. Прикладные инструментальные средства
- •5. Понятие о виртуальной реальности
- •2. Системное по – все по, которое используется для работы и обслуживания компа.
- •1. Автономные операционные системы - а отдельном компе могут работать
- •2. Сетевые, которые используются при создании сети. По архитектуре: - клиент – клиент, где все компы равноценны и выполняют одинаковые функции
- •3 Условия:
- •1. Компьютерная сеть – совокупность компов, которые могут осуществлять информационное взаимодействие друг с другом через линии связи.
- •1982 Г. – сеть стала международной
- •Ip добавляет к каждой порции служебную инфу с адресами отправителя и получателя и обеспечивает доставку всех пакетов.
- •1. Www (world wide web) совокупность взаимосвязанных гипермедийных документов
- •3. Telnet – система для удаленного управления компом
- •Internet как средство обмена информации:
- •1. Автоматическое чтение текста
- •1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
- •1. Подготовительный – референт читает текст, пытается понять и осмыслить документ в целом
- •1. Комп по каждому абзацу текста составляет алфавитно-частотный словарь
- •3. Машинный (автоматический) перевод
- •1. Информативный – грубый, пословный перевод, достаточный для поверхностного ознакомления с содержанием текста
- •1. Кратко изложить его содержание (аннотация, реферат)
- •1. Знания о языке, на котором написан текст
- •1. Стратегического (должно быть принято решение, что писать)
- •1. Ввод новой записи
- •1. Письменный лексикон
- •2. Письменные текстовые массивы
- •3. Фонетические лингвистические ресурсы
- •1. Письменный лексикон представлен одноязычными и многоязычными лексиконами (словарями). В многоязычных словарях дается перевод значения исходного языка на один или несколько иностранных языков.
- •3D графика позволила археологам воссоздать древние умершие города. Палеонтологам - увидеть вымерших животных.
- •2. Пк на базе молекул дик
- •3. Квантовые пк еще более компактное устройство, у которого в качестве битов выступают квантовые объекты (кубиты).
1. Целостность – объект описывается как целое с помощью значимых элементов и отношений между ними.
2. целенаправленность – распознавание строится как процесс выдвижения и целенаправленной проверки гипотез
3. адаптивность – способность компьютерной системы к самообучению
Этапы работы Fine Reader:
1. сканирование – получение графического образа документа
2. распознавание – а) анализ графического макета страницы (выделение областей для распознавания: таблиц, картинок, текстов)
б) распознавание каждого символа на основе различных форм распознавания
3. проверка орфографии
4. сохранение
Алгоритмы распознавания (классификаторы)
1. Шаблонные – растровое изображение накладывается на шаблон, содержащийся в базе данных. Наиболее подходящим является тот, у которого наименьшее количество точек отличается от исследуемого изображения.
2. Признаковые – позволяют анализировать не все изображение знака, а лишь некоторые признаки, которые вычисляются по формулам. Распознаванию подвергается не сам символ (оригинал), а некоторые его характеристики. Этот классификатор не отвечает принципу целостности, т.к. при вычислении признаков теряется часть инфы.
3. Структурные – содержат инфу не о точечном изображении символа, а о правилах начертания. Структурными элементами являются составляющие символ линии. Все символы работают с векторными изображениями. Недостаток – чувствительность к дефектам изображения.
4. Структурно-пятенный эталон – совмещение шаблонного и структурного позволяет представить изображение в виде набора пятен, связанных между собой парными отношениями, задающими структуру символов.
В Fine Reader все 4 типа работают. А экспертная система, встроенная внутрь ядра, сама выбирает оптимальный для данного текста алгоритм.
Возможности системы OCR:
1. во время сканирования система автоматически подбирает яркость сканирования, фрагментирует каждую страницу, распознает символы текста, проверяет орфографию.
2. позволяет распознавать печатные символы (200 языков), рукопечатные символы, рукописные тексты для портативных устройств.
3. способность самообучаться и распознавать плохопропечатанные символы незнакомых языков.
4. позволяет распознавать изображения, полученные с помощью цифрового фотоаппарата.
5. распознает файлы в формате pdf
Развитие программ автоматического чтения текстов в ближайшем будущем пойдет в направлении повышения точности распознавания текстов низкого качества, распознавание рукописных текстов для портативных устройств, выделение текстовой инфы на фоне шумов (распознавание номерных знаков автомобилей)
Автоматическое аннотирование и реферирование текстов
1. Реферат и аннотация текста. Общее понятие
2. Методы автоматического аннотирования и реферирования текстов
3. Составление рефератов и аннотации текста компом на основе статистического метода
Реферат – связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки.
Аннотация – это краткое изложение содержания документа, дающее общее представление о его теме.
Реферат и аннотация представляют собой вторичные документы. Обычно они составляются к научным книгам, статьям, патентам на изображение.
Составление реферата (аннотации, текста) с помощью компа называют автоматическим реферированием (аннотированием)
Этапы построения реферата человеком: