
- •Понятие «Язык». Классификация языков.
- •2. Кодирование текста. Таблица кодировки ascii и ее национальные варианты. Текстовые файлы.
- •4. Статистические закономерности текста. Частотный анализ, частоты встречаемости символов и биграмм в текстах.
- •6. Регулярные выражения. Стандарты и механизмы регулярных выражений. Использование регулярных выражений.
- •Классы символов
- •7. Контент-анализ как метод обработки текстовой информации. Качественный и количественный контент-анализ, процедура контент-анализа.
Понятие «Язык». Классификация языков.
ЯЗЫ́К (естественный язык, лингвистическое понятие), хранящаяся в сознании человека сложная система правил, в соответствии с которыми происходит речевая деятельность, т.е. порождение и понимание текстов.Язык программирования - это специальный язык, на котором пишут команды для управления компьютером. Языки программирования созданы для того, чтобы людям было проще читать и писать для компьютера, но они затем должны транслироваться (транслятором или интерпретатором) в машинный код, который только и может исполняться компьютером. Языки программирования можно разделить на языки высокого уровня и языки низкого уровня.
Язык низкого уровня - это язык программирования, предназначенный для определенного типа компьютера и отражающий его внутренний машинный код; языки низкого уровня часто называют машинно-ориентированными языками.
Язык высокого уровня - это язык программирования, предназначенный для удовлетворения требований программиста; он не зависит от внутренних машинных кодов компьютера любого типа.
«Естественный» и «искусственный» - это деление языков по происхождению.
Естественный язык - в лингвистике и философии языка язык, используемый для общения людей и не созданный искусственно (в отличие от искусственных языков)
Естественные языки - это исторически сложившиеся в обществе звуковые (речь), а затем и графические (письмо) информационные знаковые системы.
Искусственные языки - специальные языки, которые, в отличие от естественных, сконструированы целенаправленно. Они могут конструироваться с помощью естественного языка или ранее построенного искусственного языка. Язык, выступающий средством построения или изучения другого языка, называют метаязыком, основой - языком-объектом. Метаязык, как правило, обладает более богатым по сравнению с языком-объектом выразительными возможностями.
Различают следующие виды искусственных языков:
· Языки программирования и компьютерные языки - языки для автоматической обработки информации с помощью ЭВМ.
· Информационные языки - языки, используемые в различных системах обработки информации.
· Формализованные языки науки - языки, предназначенные для символической записи научных фактов и теорий математики, логики, химии и других наук.
2. Кодирование текста. Таблица кодировки ascii и ее национальные варианты. Текстовые файлы.
Кодирование информации – это процесс формирования определенного представления информации. В узком смысле под термином «кодирование» понимают переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки.
Для кодирования одного символа в компьютере обычно используется 1 байт (8 бит).
С помощью 8 бит можно закодировать 256 различных символов (28= 256). Эти коды хранятся в специальной таблице. Одной из самых первых была таблица, разработанная в США в институте стандартизации. Этот институт ввел в действие таблицу кодов ASCII (стандартный код информационного обмена США).
Таблица ASCII разделена на две части. Первая - стандартная - содержит коды от 0 до 127. Вторая - расширенная - содержит символы с кодами от 128 до 255.
Первые 32 кода отданы производителям аппаратных средств, они называются управляющие, эти коды управляют выводом данных. Им не соответствуют никакие символы. Коды с 32 по 127 соответствуют символам английского алфавита, знакам препинания, цифрам, знакам арифметических действий и некоторым вспомогательным символам. Коды расширенной таблицы ASCII отданы под символы национальных алфавитов, символы псевдографики и научные символы.
Все буквы в алфавите расположены по алфавиту, а цифры - по возрастанию.
Кроме кодировки ASCII существуют и другие системы кодирования: Windows 1251, КОИ-8 и др. Все вышеназванные системы кодирования используют для кодирования 1 символа - 8 бит или 1байт.
В 1991 году была предложена 16-битная система Unicode (Юникод). Для представления каждого символа в этой системе используются 2 байта: один байт для кодирования символа, другой для кодирования признака. Тем самым обеспечивается информационная совместимость данного способа кодирования со стандартом ASCII.
Алфавит – это конечное множество символов, используемых для представления информации.
Файл - это именованный блок информации, расположенный на носителе информации.
Те́кстовый файл — компьютерный файл, содержащий текстовые данные, как правило, организованные в виде строк.
Текстовым файлам противопоставляются двоичные файлы, в которых содержатся данные, не рассчитанные на интерпретацию в качестве текста (например, файлы, хранящие закодированные звук или изображение).
Форматы, основанные на текстовых файлах
Текстовый формат служит основой для многих более специализированных форматов (например, .ini, SGML, HTML, XML, TeX, исходных текстов языков программирования).
В текстовом файле текст может храниться как в неформатированном, так и форматированном или размеченном виде (например, Rich Text Format, HTML), где к каждому символу может быть применено форматирование (шрифт, начертание, размер и т. п.).
Расширения имён файлов
В DOS и Windows, unix.
Форматированный текст (текст с разметкой) обычно хранится в файлах с расширением, соответствующим формату или языку разметки — .rtf, .htm, .html.
Абзац — это группа смежных строк файла, первая из которых начинается с отступом Концом абзаца считается строка, за которой следует либо конец файла, либо строка с отступом.
3. Кодирование текста. Система кодирования UNICODE. Текстовые файлы
Юнико́д — стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков (является расширенной версией таблицы аски - стандартный американский код для обмена информацией).
Таблица кодирования – соответствие между символами некоторого алфавита и их номерами.
Язык – это знаковая система реализующая взаимодействие пространства значений с пространством знаков.
Unicode - это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. При этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов (включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов).
Юникод имеет несколько форм представления: UTF-8, UTF-16 (UTF-16BE, UTF-16LE) и UTF-32 (UTF-32BE, UTF-32LE). Была разработана также форма представления UTF-7 для передачи по семибитным каналам, но из-за несовместимости с ASCII она не получила распространения и не включена в стандарт. В MicrosoftWindows NT и основанных на ней системах Windows 2000 и Windows XP в основном используется форма UTF-16LE. В UNIX-подобных операционных системах GNU/Linux, BSD и Mac OS X принята форма UTF-8 для файлов и UTF-32 или UTF-8 для обработки символов в оперативной памяти.
Стандарт состоит из двух основных разделов: универсальный набор символов и семейство кодировок.
Универсальный набор символов задаёт однозначное соответствие символов кодам — элементам кодового пространства, представляющим неотрицательные целые числа.
Семейство кодировок определяет машинное представление последовательности кодов универсального набора символов.
Коды в стандарте Юникод разделены на несколько областей. Область с кодами от U+0000 до U+007F содержит символы набора ASCII с соответствующими кодами. Далее расположены области знаков различных письменностей, знаки пунктуации и технические символы. Часть кодов зарезервирована для использования в будущем. Под символы кириллицы выделены области знаков с кодами от U+0400 до U+052F, от U+2DE0 до U+2DFF, от U+A640 до U+A69F.
Универсальная система кодирования (Юникод) представляет собой набор графических символов и способ их кодирования для компьютерной обработки текстовых данных.
Графические символы — это символы, имеющие видимое изображение. Графическим символам противопоставляются управляющие символы и символы форматирования.
Графические символы включают в себя следующие группы:
буквы, содержащиеся хотя бы в одном из обслуживаемых алфавитов;
цифры;
знаки пунктуации;
специальные знаки (математические, технические, идеограммы и пр.);
разделители.
Таким образом Юникод — это система для линейного представления текста. Символы, имеющие дополнительные над- или подстрочные элементы, могут быть представлены в виде построенной по определённым правилам последовательности кодов (составной вариант) или в виде единого символа (монолитный вариант).