Автоматизовані інформаційно пошукові системи

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Міністерство освіти Російської Федерації.
Адигейський Державний університет
Курсова.
На тему «Автоматизовані інформаційно - пошукові системи».
Виконав
студент групи
Перевірив
2004р.
ЗМІСТ
Введення ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 3
1. Інформаційні системи ... ... ... ... ... ... ... ... ... ... ... ... ... ... .4
Поняття інформаційних систем ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 4
Структура інформаційних систем ... ... ... ... ... ... ... ... ... ... ... ... ... ... 4
Класифікація інформаційних систем ... ... ... ... ... ... ... ... ... ... ... .. 6
2. Інформаційно пошукові системи ... ... ... ... ... ... ... ... ... ... 7
Історичні передумови розвитку пошукових систем ... ... ... ... ... 7
Поняття пошукових систем ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ..... 9
Особливості пошукових систем ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 10
· Структура мережі ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .... 11
· Структура роботи пошукових систем ... ... ... ... ... ... ... ... ... ..... 13
3. Характеристика пошукових систем ... ... ... ... ... ... ... ... ... ... ... 17
4. Проблеми і можливості пошукових систем ... ... ... ... ... ... ... 24
Висновок ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... .25
Список літератури ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 26
ВСТУП.
Сучасний етап розвитку цивілізації характеризується переходом найбільш розвиненої частини людства від індустріального суспільства до інформаційного. Одним з найбільш яскравих явищ цього процесу є виникнення і розвитку глобальної інформаційної комп'ютерної мережі.
У цій роботі розглядаються теоретичні основи інформаційного пошуку, класифікація та різновиди інформаційно пошукових систем. Представлений матеріал по вживаних в даний час інформаційно - пошуковим каталогом повнотекстовими і гіпертекстовим пошуковим системам.
При появі мережі Інтернет проблема пошуку ставала більш актуальною. Інтернет - всесвітня комп'ютерна мережа, що є єдине інформаційне середовище і дозволяє отримати інформацію в будь-який час. Але з іншого боку в Інтернеті зберігатися дуже багато корисної інформації, але для пошуку її потрібно витрачати багато часу. Ця проблема стала приводом до появи пошукових машин. У цій роботі будуть розглянуті пошукові машини в Інтернеті.
ІНФОРМАЦІЙНІ СИСТЕМИ
Поняття інформаційних систем
Під Інформаційна системою розуміється організована сукупність програмно - технічних і інших допоміжних засобів, технологічних процесів і функціонально - певних груп працівників, які забезпечують збір, уявлення і накопичення інформаційних ресурсів в певній предметній області, пошук і видачу відомостей необхідних для задоволення інформаційних потреб користувачів. Інформаційних системи є основним засобом, інструментарієм рішення задач інформаційного забезпечення різних видів діяльності і найбільш бурхливо розвивається галуззю індустрії інформаційних технологій.
Структура інформаційної системи
У складі інформаційної системи можна виділити три підсистеми:
1.Організаціонно - технологічна підсистема збору інформації забезпечує інформаційну систему і включає сукупність джерел інформації, організаційно - технологічного ланцюжка відбору інформації для накопичення в системі. Без правильного організованою підсистеми збору інформації неможлива ефективна організація функціонування всі інформаційної системи в цілому.
2. Підсистема надання та обробки інформації становить ядро ​​інформаційної системи і є відображенням подання розробниками та абонентами системи структури і картини предметної області, відомості про яку повинна відображати інформаційна система. Підсистема представлення і обробки інформації є одним з найбільш складних компонентів при розробці інформаційної системи.
3. Нормативно - функціональна підсистема видачі інформації визначає користувачів, або інакше абонентів системи, реалізує цільовий аспект призначення та виконання завдань інформаційної системи.
Основою всіх пошукових систем складають бази даних - сукупність даних організованих за граничним правилами, що передбачають загальні принципи опису, зберігання і маніпулювання даними, незалежно від прикладних програм.
Можна виділити наступні елементи функціонування інформаційних систем:
* Збір інформації - організований в спеціальному порядку процес збору й відображення інформації:
отримання інформації
оцінка относимости інформації
порядок відбору та фіксації інформації.
* Комплектування - процес складання інформації з безлічі частин в єдине ціле і доведення її до користувача.
* Пошук і видача інформації - встановлення спеціального технологічного порядку задоволення інформаційних потреб абонентів інформаційної системи в управлінській діяльності та технологічних процесах.
* Підтримка цілісності та збереження інформації - перегляд, ревізія і відсіювання такою, що втратила актуальність інформації є невід'ємною функцією інформаційних підрозділів. Збереження інформації здійснюється за допомогою нормативно - інструктивних документів.
Класифікація інформаційних систем
За характером надання логічної організації інформації, що зберігається поділяються на фактографічні, документальні та геоінформаційні.
Фактографічні накопичують і зберігають дані у вигляді безлічі екземплярів одного або декількох типів структурних елементів. Кожен з таких екземплярів структурних елементів або деяка їх сукупність відображає відомості, за будь - яким фактом, події. Структура кожного типу інформаційного об'єкта складається з кінцевого набору реквізитів, які відображають основні аспекти та характеристики відомостей для об'єктів даної предметної області.
У документальних одиничним елементом інформації є нерозчленований на більш дрібні елементи документ і інформація при введенні, як правило, не структуруються, або структуруються в обмеженому вигляді. Для вводиться документа можуть встановлюватися деякі формалізовані позиції - дата виготовлення, виконавець, тематика. Деякі види документальних інформаційних систем забезпечують встановлення логічного взаємозв'язку документів, що вводяться - підпорядкованість за смисловим змістом.
У геоінформаційних дані організовані у вигляді окремих інформаційних об'єктів прив'язаних до загальної електронної топографічній основі. Геоінформаційні системи застосовуються для інформаційного забезпечення в тих предметних областях, структура інформаційних об'єктів і процесів у яких є географічний компонент.
Іншим критерієм класифікації пошукових систем є функції або бути вирішені завдання.
Довідкові є найбільш поширеним типом функцій інформаційних систем, і полягає в наданні абонентам системи можливостей отримання установчих даних на певні класи об'єктів.
Пошукові є найбільш поширеним класом інформаційних систем. У загальному вигляді можна розглядати як певне інформаційний простір, що задається в термінах інформаційно - логічного опису предметної області.
Розрахункові полягає в обробці інформації, що знаходиться в системі, за певними розрахунковим алгоритмам для різних цілей.
Технологічні функції інформаційних систем полягають в автоматизації всього технологічного циклу або окремих його компонентів, виробничої чи організаційної структури.
ІНФОРМАЦІЙНІ ПОШУКОВІ СИСТЕМИ
Історичні передумови розвитку пошукових систем.
Звернімося до історії виникнення мережі Internet, яка була створена у зв'язку з виниклою необхідністю спільного використання інформаційних ресурсів, розподілених між різними комп'ютерними системами. Більшість перших додатків, включаючи FTP і електронну пошту, були розроблені виключно для обміну даними між хост-комп'ютерами Internet.
Інші програми, такі як Telnet, створювалися для того, щоб користувач отримав можливість доступу не тільки до інформації, але і до робочих ресурсів віддаленої системи. У міру розвитку Internet (збільшення користувачів і хост-комп'ютерів) колишні методи обміну даними перестали відповідати зростаючим потребам користувачів. Виникла необхідність розробки нових способів пошуку мережевих ресурсів і доступу до них, які дозволяли б використовувати інформацію незалежно від її формату і розташування.
Для задоволення таких потреб спочатку були створені Пошукова система Archie, що розв'язує задачу локалізації ресурсів на FTP-сервер, і система Gopher, що спрощує доступ до різних мережевих ресурсів. Потім були розроблені мережеві інформаційні системи WWW і WAIS, що пропонують абсолютно нові методи отримання інформації. Принципи роботи цих систем дозволяють легко орієнтуватися у величезній кількості інформаційних ресурсів без необхідності надання механізмів роботи самої мережі Internet. Такий підхід дозволяє говорити вже не просто про ресурси взаємопов'язаних комп'ютерних систем, а про особливі інформаційних просторах мережі.
Система Archie являє собою комплекс програмних засобів, що працюють із спеціальними базами даних. У цих базах даних є постійно поновлена ​​інформація про файли, до яких можна отримати доступ через сервіс FTP. Користуючись послугами системи Archie, можна здійснити пошук файлу за шаблоном його імені. При цьому користувач отримає список файлів з точним зазначенням місця їх зберігання в мережі, а також з інформацією про тип, часу створення і розмір файлів. Доступ до інформаційно-пошуковій системі Archie може здійснюватися різними шляхами, починаючи від запитів по електронній пошті і за допомогою сервісу Telnet і закінчуючи використанням графічних Archie-клієнтів.
Система Gopher була розроблена для спрощення процесу локалізації FTP-ресурсів Internet і для більш зручного подання відомостей про зміст зберігаються на FTP-серверах файлів. Система Gopher дає можливість в зручній формі (у вигляді меню) представляти користувачам про наявні файлах і їхній зміст. Меню Gopher-серверів можуть містити посилання на інші Gopher-і FTP-сервери. Таким чином, користувач отримує можливість "подорожувати" по Internet, не звертаючи уваги на місцезнаходження цікавлять його ресурсів, і отримувати доступ до цих ресурсів.
Система Veronica використовується для пошуку інформації в Gopher-просторі по заголовках пунктів меню. Після введення ключового слова, система Veronica з'ясовує, чи зустрічається воно в меню на будь-якому Gopher-сервер, і в якості результатів пошуку видає список заголовків пунктів меню, що містять ключове слово. Оскільки система Veronica не є автономною пошукової програмою, а тісно пов'язана з системою Gopher, вона володіє тим же, що і система Gopher, недоліком: далеко не завжди по заголовку можна сказати, що собою представляє той чи інший інформаційний ресурс. Переваги системи полягає в тому, що немає потреби дізнаватися, де розташована знайдена інформація, досить вибрати потрібну запис зі списку.
Поняття інформаційних пошукових систем.
Автоматизована пошукова система - система, що складається з персоналу та комплексу засобів автоматизації його діяльності, що реалізує інформаційну технологію виконання установлених функцій.
Досвід і практика створення систем в різних сферах діяльності дозволяє дати більш широке і універсальне визначення, яке повніше відображає всі аспекти їх сутності.
Під інформаційною системою надалі розуміється - організована сукупність програмно - технічних і інших допоміжних засобів, технологічних процесів і функціонально - певних груп працівників, які забезпечують збір, уявлення і накопичення інформаційних ресурсів в певній предметній області, пошук і видачу відомостей, необхідних для задоволення інформаційних потреб встановленого контингенту користувачів - абонентів системи.
Особливості пошукових систем.
У роботі пошуковий процес представлений чотирма стадіями: формулювання (відбувається до початку пошуку); дію (що починається пошук); огляд результатів (результат, який користувач бачить після пошуку); та удосконалення (після огляду результатів і перед поверненням до пошуку з іншою формулюванням тієї ж потреби). Більш зручна нелінійна схема пошуку інформації складається з наступних етапів:
1. Фіксація інформаційної потреби на природній мові;
2. Вибір пошукових сервісів мережі та формалізація запису інформаційної потреби на конкретних інформаційно-пошукових мовами (ІПМ);
3. Виконання створених запитів;
4. Попередня обробка отриманих списків посилань на документи;
5. Звернення за обраними адресами за шуканими документами;
6. Попередній перегляд вмісту знайдених документів;
7.Сохраненіе релевантних документів для подальшого вивчення;
8. Витяг з релевантних документів посилань для розширення запиту;
9. Вивчення всього масиву збережених документів;
10. Якщо інформаційна потреба не повністю задоволена, то повернення до першого етапу.
Процес пошуку має надзвичайно глибокий дидактичний аспект - так, встановлено що застосування діалогових інформаційних систем приводить до формування у рядових користувачів такого стилю інформаційно-пошукової діяльності, який зазвичай властивий найбільш видатним ученим.
У більшості випадків інформаційна потреба виникає після вивчення будь-якої нової інформації, отриманої користувачем. Часто виникає ситуація, коли користувач вже володіє деяким масивом документів з шуканої тематики. Пропонується використовувати ці документи для автоматизованого складання пошукового запиту за допомогою спеціалізованої системи управління документами (СУД) [6] (система перебуває в стадії розробки).
Система повинна здійснювати індексацію всіх документів користувача. У процесі індексації всі слова, що містяться в документах, розбиваються за наступними семантичним класам: стоп-слова; найбільш частотні слова побутового (розмовного) мови; загальнокультурна термінологія; загальнонаукова термінологія; відомі системі терміни предметної області; невідомі слова. Розбиття здійснюється на основі відповідних словників, які повинні бути складовою частиною системи. До невідомих словами будуть віднесені в першу чергу багато спеціальні слова предметної області. Туди ж потраплять новоутворені терміни і слова, що містять помилки.
На основі індексу здійснюється побудова векторного подання документів, після чого СУД виробляє ієрархічну кластеризацію безлічі документів, у результаті чого виходить розбиття цієї множини на тематичні групи. У ході діалогу з користувачем відбувається вибір одного або кількох найбільш релевантних кластерів документів і завдання характеристик пошукового процесу.
Пошуковий запит слід будувати на основі вектора центроїда вибраного кластера. Оптимальний розмір запиту становить від 8-12 до 25-30 термінів [7]. Остання підготовча операція, здійснювана СУД полягає в записі запиту на ІПМ.
Структура мережі.
Як відомо, найбільш простий спосіб розширення інформаційного пошуку в мережі Інтернет застосований в метапоісковая система і полягає у збільшенні кількості використовуваних первинних ІПС. Цей механізм повинен бути реалізований у будь-якій системі, що розробляється. Задача розподілу ресурсів пошукової системи за різними ІПС глобальної мережі повинна вирішуватися адаптивно, на підставі урахування частки посилань визнаних релевантними під час попередніх сеансів пошуку.
Другий блок автоматизованої пошукової системи відправляє створений запит і здійснює сортування та відбір отриманих посилань, після чого звертається за обраними адресами і отримує з мережі деякий безліч документів, також містять гіперпосилання.
У дослідженні [8] показано, що поширена думка про хаотичності інформаційного наповнення глобальної мережі і про відсутність будь-якої структури зв'язків є оманою. Виявлено наявність так званих "спільнот" - добре пов'язаних груп сайтів, що містять матеріали близької тематики. Виділяються "центральні" сторінки - містять великі списки посилань і сторінки, на які ведуть багато посилання, - "авторитетні" сторінки. Таким чином, метою 8-го етапу пошуку є виявлення таких груп і виявлення серед їх членів найбільш "авторитетних". Як показано в [9], алгоритм вирішення цієї задачі досить простий.
Обробка результатів пошуку.
Після отримання в результаті пошуку в мережі деякого безлічі документів, серед них необхідно виділити найбільш релевантні. Наявність "співтовариств" не полегшує це завдання. Можна виділити наступні кілька класів найбільш частих ситуацій.
1. Відсутність в досліджуваному сегменті мережі шуканої інформації. Подібна ситуація описана в [10]. У цьому випадку слід перейти до іншого сегменту, тобто зазвичай досліджувати ресурси, створені на інших мовах.
2. Знайдені "співтовариства" містять інформацію не за необхідної тематики, а головним чином по інших, близьким до шуканої.
3. Виявлено занадто велику кількість інформаційних ресурсів.
В останніх двох випадках необхідно здійснити автоматичний перебір всіх знайдених документів та визначити ступінь близькості їх до вихідного запиту. Більше 20 метричних мір близькості, придатних для порівняння документів у векторному поданні, розглянуті в роботі [11]. Оптимальне рішення задачі ранжування досягається шляхом застосування системи, заснованої на агентно-орієнтованому підході.
У багатьох випадках пошуку в новій області, коли загальний рівень користувача недостатньо високий, бажано здійснювати фільтрацію видаваної інформації за стилем тексту так, щоб початкове ознайомлення з матеріалом відбувалося з використанням популярних і науково-популярних текстів.
Для зменшення обсягу розглянутих матеріалів слід також здійснити фільтрацію результатів пошуку за типом джерел. Так очевидно, що документи, розташовані на наукових сайтах, на комерційних, або на серверах ЗМІ будуть істотно відрізнятися за своїм характером.
Структура роботи пошукових систем.
Робота пошукового покажчика відбувається в три етапи, з яких два перших є підготовчими і непомітні для користувача. Спочатку пошуковий покажчик збирає інформацію з World Wide Web. Для цього використовують спеціальні програми, аналогічні браузери. Вони здатні скопіювати задану Web-сторінку на сервер пошукового покажчика, проглянути її, знайти все гіпетессилкі, які на ній імеютте ресурси, які знайдені там, знову розшукати наявні в них гіперпосилання і т.д. Подібні програми називають черв'яками, павуками, гусеницями, краулер , Спайдер та іншими подібними іменами. ' Кожен пошуковий покажчик експлуатує для цієї мети свою унікальну програму, яку нерідко сам і розробляє. Багато сучасні пошукові системи народилися з експериментальних проектів, пов'язаних з розробкою і впровадженням автоматичних програм, що займаються моніторингом Мережі. Теоретично, при вдалому вході спайдер здатний прочесати всі Web-простір за одне занурення, але на це треба дуже багато часу, а йому ще необхідно періодично повертатися до раніше відвіданих ресурсів, щоб контролювати там зміни і виявляти «мертві» посилання, тобто . втратили актуальність.
Після копіювання розшуканих Web-ресурсів на сервер пошукової системи починається другий етап роботи - індексація. У ході індексації створюються спеціальні бази даних, за допомогою яких можна встановити, де і коли в Інтернеті зустрічалося, то або інше слово. Вважайте, що індексована база даних - це свого роду словник. Вона необхідна для того, щоб пошукова система могла дуже швидко відповідати на запити користувачів. Сучасні системи здатні видавати відповіді за долі секунди, але якщо не підготувати індекси заздалегідь, то обробка одного запиту продовжуватиметься годинами.
На третьому етапі відбувається обробка запиту клієнта і видача йому результатів пошуку у вигляді списку гіперпосилань. Припустимо, клієнт хоче дізнатися, де в Інтернеті є Web-сторінки, на яких згадується відомий голландський механік, оптик і математик Християн Гюйгенс. Він вводить слово Гюйгенс у поле набору ключових слів і натискає кнопку. Знайти (Search). За своїми базами покажчиків пошукова система в долі секунди розшукує відповідні Web-ресурси і формує сторінку результатів пошуку, на якій рекомендації представлені у вигляді гіперпосилань. Далі клієнт може користуватися цими посиланнями для переходу до цікавлять його ресурсів.
Все це виглядає досить просто, але насправді тут є проблеми. Основна проблема сучасного Інтернету пов'язана з достатком Web-сторінок. Досить ввести в поле пошуку таке просте слово, як, наприклад, футбол, і російська пошукова система видасть декілька тисяч посилань, згрупувавши їх по 10-20 штук на відображуваної сторінці.
Кілька тисяч - це ще не так багато, тому що зарубіжна пошукова система в аналогічній ситуації видала б сотні тисяч посилань. Спробуйте знайти серед них потрібну! Втім, для рядового споживача абсолютно все одно, видадуть йому тисячу результатів пошуку або мільйон. Як правило, клієнти дивляться не більше 50 посилань, що стоять першими, і що там робиться далі, мало кого турбує. Однак клієнтів дуже і дуже турбує якість самих перших посилань. Клієнти не люблять, коли в першому десятку зустрічаються посилання, які втратили актуальність, їх дратує, коли підряд йдуть посилання на сусідні файли одного і того ж сервера. Самий же поганий варіант - коли поспіль йдуть кілька посилань, що ведуть до одного й того ж ресурсу, але знаходиться на різних серверах.
Клієнт має право очікувати, що найпершими будуть стояти найбільш корисні посилання. Ось тут і виникає проблема. Людина легко відрізняє корисний ресурс від марного, але як пояснити це програмі?! Тому кращі пошукові системи проявляють чудеса штучного інтелекту в спробі відсортувати знайдені посилання по якісності їхніх ресурсів. І робити це вони повинні швидко - клієнт не любить чекати.
Строго кажучи, всі пошукові системи черпають початкову інформацію з одного і того ж Web-простору, тому вихідні бази даних у них можуть бути відносно схожі. І лише на третьому етапі, при видачі результатів пошуку, кожна пошукова система починає проявляти свої кращі (або гірші) індивідуальні риси. Операція сортування отриманих результатів називається ранжируванням. Кожній знайденій Web-сторінці система привласнює якийсь рейтинг, який повинен відображати якість матеріалу. Але якість - поняття суб'єктивне, а програмі потрібні об'єктивні критерії, які можна виразити числами, придатними для порівняння.
Високі рейтинги отримують Web-сторінки, у яких ключове слово, використане в, запиті, входить в заголовок. Рівень рейтингу підвищується, якщо це слово зустрічається на Web-сторінці кілька разів, але не дуже часто. Сприятливо впливає на рейтинг входження потрібного слова в перші 5-6 абзаців тексту - вони вважаються найбільш важливими при індексації. З цієї причини досвідчені Web-майстра уникають давати на початку своїх сторінок таблиці. Для пошукової системи кожна клітинка таблиці виглядає, як абзац, і тому змістовний основний текст як би далеко відсувається назад (хоча на екрані це і не помітно) і перестає грати вирішальну роль для пошукової системи.
Дуже добре, якщо ключові слова, використані в запиті, входять в альтернативний текст, супроводжуючий ілюстрації. Для пошукової системи це вірна ознака того, що дана сторінка точно відповідає запиту. Ще однією ознакою якості Web-сторінки є той факт, що на неї є посилання з якихось інших Web-сторінок. Чим їх більше, тим краще. Значить, ця Web-сторінка популярна і володіє високим показником цитування. Найдосконаліші пошукові системи стежать за рівнем цитування зареєстрованих ними Web-сторінок і враховують його при ранжируванні.
Творці Web-сторінок завжди зацікавлені в тому, щоб їх переглядало більше людей, тому вони спеціально готують сторінки так, щоб пошукові системи давали їм високий рейтинг. Гарна, грамотна робота Web-майстра здатна значно підняти відвідуваність Web-сторінки, проте є й такі «майстри», які намагаються обдурити пошукові системи і надати своїм Web-сторінок значущість, якої в них насправді немає. Вони багато разів повторюють на Web-сторінці якісь слова чи групи слів, а для того щоб ті не потрапляли на очі читачеві, або роблять їх виключно дрібним шрифтом, або застосовують колір тексту, що співпадає з кольором фону. За такі «хитрощі» Пошукова система може і покарати Web-сторінку, присвоївши їй штрафний негативний рейтинг.
В останні роки склалася і практика комерційного рейтингування. Технічно вони оснащені найсучаснішими засобами, що відповідають рівню 2000 року, а загальний розмір Рунета (російського сектора Інтернету) сьогодні приблизно такий, яким був західний сектор в 1994-1995 рр.. Тому сьогодні в Росії особливих проблем з пошуком інформації немає і найближчим часом вони не передбачаються. А в західному секторі проблеми з пошуком дуже великі, і різні пошукові системи намагаються по-різному їх подолати. Про те, як це відбувається, ми й розповімо.
З пошукових покажчиків у Росії сьогодні діють три «кити» (є й дрібніші системи, але ми зупинятися на них не будемо). Це «Рамблер» (www.rambler. Ru), «Яндекс» (www.yandex. Ru) і «Апорт2000» (www.aport. Ru).
Історично найбільш популярною пошуковою системою є «Рамблер». Вона почала працювати раніше інших і довгий час лідирувала за розміром пошукового покажчика і якістю послуг пошуку. На жаль, сьогодні ці досягнення в минулому. Незважаючи на те, що розмір пошукового покажчика «Рамблер» приблизно дорівнює 12 мільйонам Web-сторінок, він давно до ладу не оновлювався і видає застарілі результати. Сьогодні «Рамблер»-це популярний портал, краща в Росії класифікаційно-рейтингова система (про те, що це таке, ми розповімо нижче) плюс рекламний майданчик. Традиційно ця система тримає перше місце в Росії по відвідуваності і має хороші доходи від реклами. Але в розвиток засобів пошуку засоби, як ми покажемо нижче, не вкладаються.
Найбільший покажчик лежить в основі системи «Яндекс»-приблизно 27 мільйонів Web-сторінок, але справа не тільки в розмірі. Це не просто покажчик на ресурси, а покажчик на найактуальніші ресурси. За рівнем актуальності «Яндекс» сьогодні - незаперечний лідер (рис. 7.3).
Система «Апорт» виграє на третьому етапі: у момент подання інформації клієнту. Вона не прагне до створення найбільшого покажчика автоматичними засобами, а замість цього широко використовує інформацію з каталогу @ Rus, що проходить ручну обробку. Тому система видає не так багато результатів, як її найближчі конкуренти, але зате ці результати, як правило, точні і наочно представлені.
Характеристика пошукових систем.
Починаючи пошук чого-небудь в Internet і маючи мінімум інформації, а так само намагаючись огранити втрати часу, для отримання найбільш загальної інформації можливе звернення до наступної базі даних.
База даних: предмет веде до міжмережевих ресурсів, побудованим бібліотекарями.
Зміст: Понад 2,500 зв'язків з Internet ресурсами, коротко анотується, із зазначеними предметними заголовками.
Пошук: Пошуки можуть бути обмежені назвою ресурсу, описом його, або з зазначеними предметними заголовками.
Результати: Результати показані в алфавітному порядку назвами ресурсу.
Адреса: http://sunsite.berkeley.edu/InternetInd ex /
Частота Модернізації: щодня

Yahoo!
Yahoo! - найвідоміша пошукова машина. Її сайти розбиті по категоріях та ключовими словами. Вона містить корисну інформацію на своїй домашній сторінці. Може підключатися до інших пошукових машин
Бази даних: у веденні знаходиться служба пошуку Internet-ресурсів, новин, карт, рекламних інформацій, спортивна інформація, бізнес, номери телефонів, персональні WWW-сторінки, і email-адреси (окрема база даних).
Зміст: Основна директорія містить: адреси (URLs) для Internet-ресурсів і короткий опис для цих зв'язків.
Пошук: Всі Yahoo сторінки пропонують не тільки просте пошукове вікно, але і опції для цього пошуку, а так само пошук Usenet або Email-адреси. Пошук може обмежуватися вказівкою певного проміжку часу. Boolean оператори (і, або) і послідовний пошук також підтримані. Відзначимо: якщо пошук в Yahoo! не привів до позитивного результату, то процес пошуку автоматично переходить на Alta Vista, яка продовжує пошук, і в разі позитивних результатів автоматично повертає знайдену інформацію в Yahoo!.
Якщо Yahoo! не може встановити зв'язок досить швидко з Alta Vista, то в цьому випадку Yahoo! буде забезпечувати сторінку зв'язку з набором інструментів пошуку. Після того, як одна з цих зв'язків вибирається, ключові слова передаються до пошукової машини на ваш розсуд.
Засобом, що полегшує пошук, є наявність "tip search" (TS) - пошук за допомогою "натяку": Yahoo! Є підлеглим довідником, що означає, що система не має так багато сторінок, як пошукові машини, однак завдання найбільш загальних ключових слів дозволить знайти необхідну тему на сторінці високого рівня (перша сторінка, яка виникає перед користувачем при відвідуванні сайту) для організації або компанії.
Результати: Зв'язки відображаються відповідно до черговості задаються слів послідовністю пошуку поряд з їх описовим текстом і підпорядкованої ієрархією.
Адреса: http://www.yahoo.com/
Частота Модернізації: щодня

Alta Vista
Alta Vista підтримує пошук по ключовому набору слів і для визначення мови конкретної сторінки використовує методи штучного інтелекту. Користувачі можуть налаштувати опції пошуку і вибирати тип пошуку - складний або спрощений, а також скористатися різними способами надання інформації. На відміну від машин, які індексують тільки ключові слова, вона індексує весь текст, що дозволяє здійснювати повний пошук. Проте з - за цього користувач може просто потонути в інформації.
Бази даних: Розташовані по всьому світу WWW-сторінки і Usenet News (новини).
Зміст: 31000000 WWW-сторінок (на травень 1997 р.) і повний текст більш ніж 14,000 newsgroups оновлений в реальному масштабі часу.
Пошук: Пропонує простий (simple (S)) пошук або (much more advanced (MMS)), тобто більш передової, спосіб. S - пошук коштує в основному використовувати для загальних питань, MMS - пошук використовує специфічний пошуковий синтаксис. Для полегшення виконання процедури є підказка (Simple Search Help). MMS - пошук, використовуючи булинь (boolean), тобто за допомогою ключових спілок, використовуючи (and, or, not - (і, або, не)) і просту суміжність (near - (близько)) дозволяє вживати кілька слів, чергування слів, словосполучення як ключові для проведення пошуку.
TS - пошук: Введенням ключа типу: "Ваша Фраза" як перший напрямок пошуку, який буде обмежувати кількість знайдених WWW - документів із заголовками типу "Ваша Фраза".
Результати: Пропонує три вибори результатів (але два дають той же самий результат):
1) "Стандартні" ("Standard") - результати, отримані машиною у вигляді списку параграфів, резюміруемие їй, з наявністю URL - адреси, розміром файлу і останньою датою модернізації. Результати повертаються як десять пунктів на екрані,
2) "Компактний" ("Compact") поміщають кожен пункт в одному рядку з останньою датою модернізації картотеки,
3) "Детальний" ("Detailed"), який є таким же самим, як і "Стандартний".
Адреса: http://altavista.digital.com
Частота модернізації: Постійно WWW-роботом.

Excite
Для аналізу інформації Excite використовує пошукову технологію Intelligent Concept Extraction, що дозволяє робити запити за зразком. Це найпопулярніша пошукова система в Америці. Для кожної такої сторінки вона оцінює ступінь відповідності запиту.
Бази даних: WWW-сторінки по всьому світу, новини, карти, "yellow pages" ("жовті сторінки"), вільно розповсюджується програмне забезпечення, основні цитати, програми телебачення, погоду, E - mail адреси, рейси авіаліній.
Зміст: 50 мільйонів WWW-сторінок і більше ніж двотижневий запас Usenet новин.
Пошук: Пропонує тільки S - пошук, який підтримує деякі опції MMS - пошуку.
TS - пошук: використовуйте плюс (+) щоб визначити, що всі документи мають дане слово, або використовують мінус (-) що б уточнити, що жоден з документів не має даного слова. Можливо так само підтримка вoolean-операторами.
Ви можете використовувати "AND", "OR" and "AND NOT" (І, АБО і. І НЕ) оператори і круглі дужки для угруповання. Наприклад: (digital or virtual or electronic) AND library.
(Цифровий або віртуальний або електронний) І бібліотека.
Результати: Результати показані з назвою документа, розряд доречності у відсотках, URL - адреса, резюме програмного забезпеченням документа, і опція, щоб відновити "More Like This" ("Швидше Цей"), яка дозволяє використовувати документ як ваше запитання.
Адреса: http://www.excite.com/
Частота Модернізації: Постійно - WWW-роботом.

Hot Bot
Для пошуку в Інтернеті використовує багатопроцесорну паралельну обробку 10. млн. сторінок щодня. Корисна сторона Hot Bot обмеження на тип сторінок за коштами вибору кнопок.
База даних: Розташовані по всьому світу WWW-сторінки.
Зміст: 54000000 WWW-сторінок (на вересень 1996 р.).
Пошук: Пропонує S - пошук і Експерт (Expert (Е)) - пошук, підтримує boolean-оператори (І і АБО), пошук фрази, і вибір "людина" або "URL". Е-пошук також підтримує завдання дати, місце розташування (країна і т.д.)
TS - пошук: використовує висновок фрази в подвійні лапки (наприклад, "слова фрази").
Результати: Результати показані з назвою документа, розряд доречності у відсотку, URL, розмір документа.
Адреса: http://www.hotbot.com/
Частота модернізації: Постійно WWW-роботом ("Slurp").

Infoseek
Infoseek найпопулярніша пошукова машина в комп'ютерній індустрії. У травні 1996 вона була визнана як найбільш вірогідно надає інформацію машина. Привабливість машини в тому, що після відсіювання інформації можна перевірити знайдену інформацію ще раз.
Бази даних: розташовані по всьому світу WWW-сторінки, новини, запасає цитати, карти, жовті сторінки ("yellow pages"), e mail адреси, і т.д.
Зміст: Головний база даних: 50 мільйонів URL-адрес. (На вересень 1996 р.)
Пошук: пропонує тільки простий S - пошук, але ключові слова пошуку можуть бути обмежені специфічними полями (типу в межах заголовків документа), пошук з використанням можливостей або з виключенням певного слова (даному слову передує мінус "-") або з включенням необхідного слова ( даному слову передує "+"). Для додаткової інформації щодо вибору пошуку, використовується. Infoseek-Допомога (Infoseek Help).
Результати: Включає назва документа, розмір картотеки, URL, коротке резюме, вилучене з документа, і розряд доречності у відсотках.
Адреса: http://www.infoseek.com/
Частота Модернізації: Постійно WWW-роботом.
Додаткова інформація: у випадку великої кількості інформації див. http://info.infoseek.com/.

Lycos
Lycos - одна з перших пошукових машин. Машина зручна для роботи з пошуком і для одночасного перегляду сайтів. При виведенні інформації показує короткий огляд, і знайдені адреси.
Бази даних: розташовані по всьому світу WWW-сторінки, звуки, картини, "top 5% sites"
Зміст: 70 мільйонів URL-адрес (на березень 1997р.).
Пошук: пропонує S - пошук і клієнтурних (Custom (С)) пошук. З-пошук підтримує boolean-оператори AND і OR (І і АБО), також як деякі інші призначення.
Результати: результати внесені в упорядкований список; інформація включає адресу документа (URL), назва, розмір файлу, і витяги з файлу.
Адреса: http://www.lycos.com/
Частота модернізації: постійно WWW-роботом.
ПРОБЛЕМИ ТА МОЖЛИВОСТІ ПОШУКОВИХ СИСТЕМ.
Робота багатьох пошукових машин вважається цілком успішною. Проте всі сучасні пошукові системи страждають деякими серйозними недоліками:
1. пошук за ключовими словами дає занадто багато посилань і багато хто з них марні.
2. величезна кількість пошукових машин з різними користувача інтерфейсами породжує проблему когнітивної перевантаження.
3. методи індексування баз даних, як правило, не пов'язані з інформаційним змістом.
4. часто видаються посилання на інформацію, якої в Інтернеті вже давно немає.
5. машини ще не настільки здійснені, щоб розуміти природну мову
останнім часом потреби в інтелектуальній допомоги швидко ростуть. Це призвело до появи інтелектуальних агентів.
Зазвичай інтелектуальні агенти є основною частиною пошукової машини для пошуку використовується штучний інтелект. Користувач вчить агента, а потім він виходить в Інтернет для пошуку.
Інтелектуальні агенти виконують інструкції від імені користувача, мають деяку самостійність. Після пошуку вони оповіщають користувача про результати. Агенти вчаться в результаті своєї діяльності.
Інтелектуальність - навчання на основі зворотного зв'язку за прикладами помилок і за коштами взаємодії з іншими агентами.
Простота використання - можна тренувати агента використовуючи природну мову.
Індивідуальний підхід - адаптація до перевагам користувачів.
Інтегрованість - безперервне навчання застосування вже мають знань до нових ситуацій.
Автономність - відчуття навколишнього середовища, та аналіз висновків.
ВИСНОВОК.
Розглянуті мною пошукові машини далекі від досконалості. Вважається, що ідеальна пошукова машина повинна відповідати наступним вимогам:
1. простота у використанні
2. чітко організований і оновлюваний індекс.
3. швидкий пошук в базі даних та швидке реагування.
4. надійність і точність результатів пошуку.
Масштаби інформаційних ресурсів і їх кількість постійно розширюється. Стає ясно, що база даних не є досконалою. Інтелектуальні агенти - новий напрямок лежить в основі нового покоління пошукових машин, які можуть фільтрувати інформацію і отримувати більш точний результат. Internet продовжує розвиватися з неослабною інтенсивністю, по суті справи стираючи обмеження на поширення та отримання інформації у світі. Проте в цьому інформаційному океані буває не дуже легко знайти необхідний документ слід також мати на увазі, що в мережі поряд з давно діючими серверами виникають нові.
Інформаційні системи, в яких представлені зберігання, і обробка інформації здійснюються за допомогою обчислювальної техніки, називають автоматизованими, різні види діяльності і найбільш буро розвиваються галуззю індустрії інформаційних технологій.
Список літератури.
1. Е.А. Якубайтіс «Інформатика-електроніка-мережі». М., «Фінанси та статистика», 1989.
2. . А. В. Гаврилов "Локальні мережі ЕОМ", Москва, Вид-во "Світ", 1990.
3. Н.А. Гайдамакін «Автоматизовані інформаційні системи, бази і банки даних», М.: «Геліос», 2002.
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Курсова
76.6кб. | скачати


Схожі роботи:
Методи пошуку інформації в мережі інтернет Інформаційно-пошукові системи
Інформаційно пошукові тезауруси
Пошукові юридичні системи
Пошукові системи Інтернету
Довідково пошукові системи мережі Інтернет
Автоматизовані системи управління
Автоматизовані банківські системи
Автоматизовані інформаційні системи
Автоматизовані системи документообігу
© Усі права захищені
написати до нас