
- •Міністерство культури України
- •Аннотация
- •Annotation
- •Розділ 1.On-line контент. Основні поняття та визначення
- •1.1. On-line контент. Основні визначення
- •1.2. Класифікація on-line контенту
- •1.3. Використання on-line контенту
- •1.4. Розділ 2. Аналізon-lineконтенту
- •2.1. Концепції та методи аналізу
- •Потік e-mail
- •Оперативна база даних Ретроспективна база даних
- •2.2. Архітектура систем аналізу
- •Вилучення Веб-контенту
- •2.3. Технології аналізу
- •Тип, Значення
- •Лексичний аналізатор
- •3.1. Функціональні вимоги до програмного продукту
- •3.2. Нефункціональні вимоги до програмного продукту
- •3.3. Алгоритми аналізу
- •3.4. Інтерфейс програмного продукту
- •Пошук запиту
- •Завантаження результатів усіх запитів
- •Завантаження результатів поточного запиту
- •3.5. Тестування програмного продукту
- •3.6. Техніко-економічне обґрунтування
- •3.7. Охорона праці
- •3.7.1. Правові питання охорони праці
- •3.7.2. Організація і обладнання робочих місць користувачів пк з точки зору охорони праці
- •3.7.3. Характеристика виробничого середовища і чинники, що діють на оператора в процесі його праці
- •3.7.4. Вимоги електричної та пожежної безпеки
- •Висновки
- •Список використаних джерел
- •Додаток а Лістинг програми
Розділ 1.On-line контент. Основні поняття та визначення
1.1. On-line контент. Основні визначення
Контент (від англійського content — вміст) — це абсолютно будь-яке інформаційно значуще або змістовне наповнення інформаційного ресурсу або веб-сайту. Контентом називаються тексти, мультимедіа, графіка. Проте найчастіше контентом називають текстове наповнення веб-сайту. У HTML-документі під контентом розуміють частину службової інформації в однойменному полі. У цьому полі розміщують опис-резюме даного інтернет-ресурсу. Контент дуже важливий для пошукових машин.
В якості on-line контенту найчастіше можна зустріти:
текстові файли;
цифрові зображення;
звукові файли;
відео файли
Контент, також, це набір інформації, об’єкт системи електронної контент-комерції, який неподільний у часі, є основним чинником функціонування системи електронної контент-комерції та існує лише в електронному вигляді.
Ранжування — визначення порядку відповідно до рангу, авторитету, респектабельності або релевантності, якщо мова йде про сайти. Ранжування — це процес, результат якого користувач бачить, отримуючи відповідь пошукової системи на своє питання. Система отримує і обробляє запит, сортує все, що знаходить в своїй базі даних, тобто виробляє ранжування, і видає результат. Видача, як відомо, являє собою сторінку або декілька, де в певному порядку розташовані посилання, що відповідають на питання. Розташування всіх Web-сайтів у відповідний ланцюжок і є ранжування.
Аналіз контенту — це якісно-кількісний метод вивчення документів, який характеризується об'єктивністю висновків і суворістю процедури та полягає у обробці тексту з подальшою інтерпретацією результатів. Предметом аналізу контенту можуть бути як проблеми соціальної дійсності, котрі висловлюються чи навпаки приховуються у документах, так і внутрішні закономірності самого об'єкта дослідження.
Може використовуватися як основний метод дослідження (наприклад, аналіз тексту при дослідженні політичної спрямованості газети), в поєднанні з іншими методами (наприклад, в дослідженні ефективності функціонування засобів масової інформації), допоміжний або контрольний (наприклад, при класифікації відповідей на відкриті запитання анкет).
Виділяють два основних типи аналізу контенту: кількісний і якісний. Якщо кількісний аналіз націлений на виявлення частоти окремих тем, слів або символів, що містяться у тексті, то якісний аналіз пов'язаний з фіксуванням нетривіальних висловлювань, мовних інтонацій з розумінням цінності змісту повідомлення.
Різновид контенту — це інформаційний товар, інформаційний вміст web-сайта, Інтернет-видавництва, маркетингових досліджень, консалтингових послуг, який є об’єктом бізнес-процесів систем електронної контент-комерції [10].
Контент-моніторинг — це змістовий аналіз інформаційних потоків з метою отримання необхідних якісних і кількісних зрізів, який, на відміну від контент-аналізу, здійснюється безперервно в часі.
1.2. Класифікація on-line контенту
Якість контенту і його актуальність є запорукою трафіку, тобто притоку відвідувачів на сайт. Велика кількість людей у світі відправляється за оригінальною і неупередженою інформацією на сайт BBC, де новини публікуються з перших рук. Інша частина користувачів можуть задовольнитися передруком і переказом новин — існують такі новинні сайти, які просто передруковують готові статті.
Це важливий момент для поділу контента на унікальний або неунікальний. Унікальним контентом може називатися будь-який контент, який ще жодного разу не був опублікований в мережі. Неунікальний - це передрук, запозичення, що є порушенням авторських прав. Закон про інтелектуальну власність поширюється і в інтернеті. Неунікальний контент часто навіть не індексується пошуковими машинами.
Унікальний контент також повинен володіти цінністю, а не бути набором незрозумілих слів. Це важливо не тільки з точки зору відвідувачів сайту, але і з точки зору пошукових систем, які розрізняють унікальний контент і навіть виділяють спам. Якщо до створення унікального контенту застосувати основи пошукової оптимізації і використовувати семантичне ядро, то цінність його з точки зору пошукових систем підвищиться.
On-line контент можна розділити на статичний та динамічний. Статичною можна називати Web-сторінку, яка цілком зберігається на сервері і показується відвідувачеві у своєму незмінному вигляді (слід врахувати, що статична сторінка може містити деякі змінювані елементи, наприклад банери, проте вона все одно залишається статичної). Сайтів які складаються з статичних сторінок досить багато, з них, можна сказати, починався Інтернет. Динамічний — такий, що регулярно поповнюється, змінюється або генерується перед видачею. Динамічною можна називати Web-сторінку, згенеровану сервером з декількох частин або отриману шляхом внесення або зміни даних в сторінку.
Виходячи зі способу отримання, контент також може бути:
авторським (розміщується на сайті його власниками);
користувальницьким (коментарі, фото, відео тощо, додаються на сайт його відвідувачами).
Залежно від змісту контенту щодо сайту, на якому він розміщений, розрізняють:
тематичний контент (наприклад, стаття про пошукової оптимізації на сторінці web-ресурса про просування сайтів);
нетематичні (наприклад, відео про способи заробітку на порталі, який присвячений автомобілям).
Крім іншого контент можна охарактеризувати як:
постійний;
поповнюваний (наприклад, контент блогів, новинних сайтів тощо).
За способами створення контент умовно можна розділити на три групи:
Схвалювані пошуковими системами. Тексти, графіка, відео та інше робляться самостійно власником ресурсу, купуються на біржах контенту або ж створюються за домовленістю фахівцями у відповідних галузях. Найтрудомісткіший метод.
Допустимі пошуковими системами. Власником сайту або найнятим спеціалістом змінюється вже існуючий сторонній контент до такої міри, щоб пошуковий робот визнав його унікальним, а первісний зміст залишився колишнім (наприклад синонімізація текстів, зміна зображень в графічних редакторах тощо). Метод не настільки трудомісткий і фінансововитратний, як попередній і ставлення відвідувачів до нього гірше.
Несхвалювані пошуковими системами — копіпастинг (від англ. Copy і paste — копіювати і вставляти) — запозичення (плагіат) чужих текстів, зображень тощо. Найгірший варіант при просуванні сайту.