Зміст: Анотація Вступ Інформаційно пошукові системи Інтернет Складові пошукових систем Характеристики пошукових систем Проблеми використання пошукових систем

Ім'я файлу: реферат.docx
Розширення: docx
Розмір: 23кб.
Дата: 01.12.2023
скачати

ЗМІСТ:

Анотація
Вступ
Інформаційно - пошукові системи Інтернет
Складові пошукових систем
Характеристики пошукових систем
Проблеми використання пошукових систем Інтернет
Підвищення ефективності пошуку інформаційних ресурсів Інтернету
Висновки
Список використаної літератури

Анотація

У мережі Інтернет зосереджено необмежену кількість інформації, серед якої велику частину займають освітні інформаційні ресурси. Проте часто потрібну інформацію дуже складно знайти, бо вона не достатньо структурована, орієнтуватися у просторі мережі Інтернет досить складно і тому цей процес займає дуже багато часу. В цій роботі розглянуті основні види інформації, пошукових систем та способів найбільш ефективно «відокремлювати зерна від полови»

Вступ

Поява всесвітньої мережі Інтернет називають одним з важливих досягнень сучасної цивілізації. І справа не тільки в тім, що вже зараз Інтернет - це практично нескінченний інформаційний ресурс, а в тім, що він є дійсно всесвітнім джерелом знань, глобальним і загальнодоступної по своїй суті. І це джерело постійно поповнюється все новими і новими знаннями, поєднує їх, дає можливість використовувати необхідну інформацію тоді, коли вона дійсно потрібна.

Простір Інтернет воістину величезний, і немає необхідності докладно розповідати про те, що саме можна в ньому знайти. В даний момент уже практично неможливо перелічити всі області знань, що охоплює ця всесвітня мережа. Однак не секрет, що для більшості користувачів перша ж спроба пошуку чого-небудь у цьому морі інформації звичайно розчаровує.

Дійсно, разом зі збільшенням обсягів доступної інформації усе гостріше встає проблема пошуку дійсно потрібних користувачу даних. Варто визнати, що це дійсно складна задача, оскільки обсяг даних, доступних через Інтернет, воістину величезний, а серйозної класифікації представленої там інформації просто не існує

Інформаційно - пошукові системи Інтернет

За тисячі років свого існування і безперервного потягу передової його частини до наукових знань, людство накопичило величезну кількість інформації з різноманітних областей науки, техніки культури і т.п. Попри всі намагання до наукових знань найбільшою перепоною до швидкого прогресу, на мій погляд була не відсутність знань, а відсутність інформації про те, що такі знання вже є, хтось зробив уже такі дослідження і треба всього лиш отримати інформацію про них. Таким чином конче необхідним було об'єднати всі цю інформацію про життєдіяльність людей і зробити її досяжною для тих, кому вона потрібна. Ситуація змінилася докорінно з появою Інтернету. Він зумів об'єднати знання сотень поколінь землян в єдиний інформаційний простір, що відкритий для кожного, хто б цього забажав. Неможливо перерахувати що є в Інтернеті ( власне як і чого нема).

Ці глобальні інформаційні ресурси знаходяться в стані постійної систематизації, тобто людство постійно вишукує найбільш оптимальні способи зберігання і пошуку необхідної інформації. Для цього в Інтернеті існує купа пошукових і файлових серверів, DNS серверів. В Інтернеті є багато ресурсів, але офіційній перелік їх відсутній. Кожен хто має вихід в Інтернет може в любий момент, нікому не кажучи створити новий ресурс, тому складність заключається в тому, щоб з'ясувати, що ж насправді є в Інтернет. Треба пам'ятати, що Інтернет - динамічна система і що її період напіврозпаду складає близько чотирьох років.

Це значить, що за рік ресурси в мережі Інтернет старіє приблизно 25% даних. Ще одна проблема в тому, що якість мережевих ресурсів не однакова. Одним словом в глобальній інформаційній мережі приховані глобальні інформаційні ресурси і отримати їх може кожен, але найбільшого успіху досягне той, хто знає як це зробити.

Пошук інформації в Інтернет неможливий без спеціальних механізмів, що допомагають людині знайти в цьому безмежному просторі потрібну інформацію. І, звичайно ж, такі механізми існують. З'явившись у середині 70-х років, вони одержали назву інформаційно-пошукових систем, і з тих пір постійно удосконалюються.

Як вже говорилося, пошукові системи існують уже давно. З появою Інтернет вони відразу ж зайняли своє місце й у цій області інформаційних технологій. У загальному випадку інформаційно-пошуковою системою називається система, що забезпечує пошук і добір необхідних даних на основі інформаційно-пошукової мови і відповідних правил.

На сьогоднішній день" всесвітнє павутиння" включає декілька десятків (по різним оцінкам - від 50 до 80) мільйонів серверів, на кожному з яких доступно від декількох мегабайт до десятків гігабайт інформації. Для пошуку незліченної інформації в Інтернеті на допомогу приходять тематичні та індексні пошукові системи.

Типовий приклад тематичного каталогу - пошукова система Yahoo (http://www.yahoo.com). Це спеціалізований сервер WWW, на якому зберігаються списки інших серверів з їх стислими описами. Інформація згрупована за смисловими категоріями і має ієрархічну структуру; наприклад, на цьому сервері можна знайти розділи "Комп'ютери та Інтернет-мультимедіа - Журнали", "Розваги - Музика - Групи і виконавці - Елтон Джон", "Країни - Україна - Бізнес в Україні", а також безліч інших. Передбачена на сервері система шукає дані тільки в каталозі Yahoo і не заглядає на сторінки згаданих в ньому серверів. Користуватися такою системою (а також будь-якою іншою, аналогічною їй, наприклад, списком російських серверів WWW за адресою http://www.ru) надзвичайно просто. Треба знайти потрібний розділ і після цього - підходящий сервер за його стислим описом, наведеним там же. Такі каталоги мають недоліки: низька оперативність зміни інформації, відносна складність пошуку (за стислою та інколи помилковою адресою сервера), порівняно невелика "область охоплення" простору WWW.

Існує більш зручний і ефективний засіб пошуку необхідних відомостей. Це так звані індексні пошукові системи (пошукові механізми - search engines). Основою їх є спеціалізовані комп'ютери, що періодичні проводять індексацію документів на серверах "всесвітнього павутиння", і дозволяють шукати інформацію на цих серверах за одним або кількома ключовими словами і, можливо, за деякими додатковими ознаками.

До кінця 1997 р. в мережі Інтернет налічувалося близько двох тисяч різноманітних пошукових серверів, які відрізняються один від одного типом, спеціалізацією, сферою охоплення (кількістю індексованих сторінок) і популярністю. Більша частина цих серверів має порівняно вузьку спеціалізацію - наприклад, пошук музики в форматі МР3 або пошук інформації на серверах у галузі молекулярної хімії. Існує декілька надзвичайно популярних універсальних пошукових серверів, призначених для пошуку за ключовими словами на якомога більшому числі сторінок системи WWW. Найбільш відомими є сервери Google (https://www.google.com.ua), AltaVista (http://altavista.digital/com), InfoSeek (http://www.infoseek.com), Excite (http://www.excite.com), HotBot (http://www.hotbot.com), Lycos (http://www. lycos. com).

Принцип дії більшості таких серверів простий. Для пошуку інформації використовується індекс, створений спеціальною програмою-роботом. Програма-робот періодично обходить відомі їй адреси мережі, зчитує з них сторінки, що зберігаються WWW, індексує всі слова з усіх сторінок (разом з адресами URL) і розміщує їх в загальний індекс. Для зберігання цього індексу потрібен величезний обсяг пам'яті, а для його обробки - чимала обчислювальна потужність. Наприклад, основний механізм одного з найпотужніших пошукових серверів AltaVista (повного індексу, що претендує на всю мережу Інтернет), включає 16 потужних комп'ютерів Alpha Server 8400 5/440. На кожному з цих комп'ютерів встановлено по 12 центральних процесорів, 8 гігабайт оперативної пам'яті (обсяг, еквівалентний обсягу пам'яті 500 стандартних сучасних персональних комп'ютерів) і дисковий масив RAID ємкістю 300 гігабайт. Вся ця система з'єднана з магістральною мережею Інтернет каналом зв'язку з пропускною спроможністю 100 Мбіт/с. Загальний обсяг на сервері індексних файлів, що зберігаються, в яких виробляється пошук, - понад 200 гігабайт.

Ще одна категорія пошукових серверів - так звані "метапошукові" сервери (метасервери). Найбільш відомий з них - WebCrawler (http://www.webcrawler.com). Сервери такого типу передають отриманий від користувача запит на пошук інформації іншим пошуковим серверам, об'єднують результати пошуків і повертають результат користувачу. Застосування подібних серверів має як переваги, так і недоліки. Найцінніша перевага полягає в економії часу на однотипових запитах до різноманітних серверів. Проте, позначки в синтаксисі запитів змушують користувачів метасерверів дотримуватися найзагальнішої форми запиту, без можливості вдаватися до потужніших засобів пошуку. Незважаючи на це, метасервери - непоганий засіб оперативної оцінки того, наскільки широко представлена в системі WWW та чи інша інформація.

Складові пошукових систем

Пошукові cистеми зазвичай мають три компоненти:

· агент (павук, кроулер або робот), який переміщується по мережі і збирає інформацію;

· база даних, яка містить інформацію, що зібрано павуками;

· пошуковий механізм, який користувачі використовують як інтерфейс для взаємодії з базою даних.

Засоби пошуку типу агентів, павуків, кроулерів і роботів використовуються для збору інформації про документи, які знаходяться в мережі Інтернет. Це спеціальні програми, які займаються пошуком сторінок в мережі, збирають гіпертекстові посилання з цих сторінок і автоматично індексують інформацію, яку вони знаходять для побудови бази даних. Кожний пошуковий механізм має власний набір правил, якими визначається збір документів.

· Агенти є найінтелектуальнішими з пошукових засобів. Вони можуть робити більше, ніж просто шукати: вони можуть виконувати транзакції від імені користувача. Вже зараз вони можуть шукати сайти специфічної тематики і повертати списки сайтів, відсортованих за їх відвідуваністю. Агенти можуть обробляти вміст документів, знаходити та індексувати інші види ресурсів, не лише сторінки. Вони можуть бути запрограмовані для витягання інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти індексують, вони передають її назад до бази даних пошукового механізму.

· Павуки здійснюють загальний пошук інформації в Інтернет. Павуки повідомляють про зміст знайденого документа, індексують його і добувають підсумкову інформацію. Вони також переглядають заголовки, деякі посилання і відправляють проіндексовану інформацію до бази даних пошукового механізму.

· Кроулери переглядають заголовки і повертають тільки перше посилання.

· Роботи можуть бути запрограмовані таким чином, щоб переходити по різним посиланням різної глибини вкладеності, виконувати індексацію і перевіряти посилання в документі. Але, вони можуть застрягати в циклах, адже, проходячи за посиланнями, їм потрібні значні ресурси мережі. Існують методи, що забороняють роботам пошук по сайтах, власники яких не бажають, щоби вони були проіндексовані.

Агенти збирають та індексують різні види інформації. Деякі, наприклад, індексують кожне окреме слово у документі, в той час як інші індексують тільки 100 найбільш важливих слів в кожному документі, індексують розмір документу і кількість слів в ньому, назву, заголовки і підзаголовки і так далі. Вигляд побудованого індексу визначає, який пошук може бути проведений пошуковим механізмом і як отримана інформація буде інтерпретована.

Агенти знаходять інформацію, після чого її розміщують в базі даних пошукового механізму. Адміністратори пошукових систем визначають, які сайти або типи сайтів агенти мають відвідати та проіндексувати. Проіндексована інформація відправляється до бази даних пошукового механізму.

Користувачі можуть розміщувати інформацію прямо в індексі, заповнюючи особливу форму для того розділу, в який вони хотіли б помістити свою інформацію. Ці дані передаються базі даних. Коли користувач хоче знайти інформацію, доступну в Інтернет, він відвідує сторінку пошукової системи і заповнює форму, що деталізує потрібну йому інформацію. Тут можуть використовуватись ключові слова, дати та інші критерії. Критерії в формі пошуку повинні відповідати критеріям, які використовуються агентами при індексації інформації, яку вони знайшли при переміщені по мережі. База даних відшукує предмет запиту, що базується на інформації, яка вказана в заповненій формі, і виводить відповідні документи, що підготовані базою даних. Для того, щоб визначити порядок, в якому перелік документів буде показано, база даних застосовує алгоритм ранжування. В ідеальному випадку, розташованими першими в списку будуть документи, що є найбільш релевантними до запиту користувача.

Релевантність - основне поняття при індексації документа в пошукових системах. Релевантність - міра відповідності, тобто це відповідність змісту знайденої сторінки до запиту користувача. Але комп'ютер - не людина, і тому пошукові системи використовують спеціальні алгоритми для визначення релевантности. Теоретичних методів визначення релевантності більш ніж 20. Але виділяють два основні напрями: лінгвістичне (Мета) і статистичне (Google).

Основні українські пошукові системи (зокрема Мета) використовують лінгвістичний напрям, тобто пошуковий робот, переглядаючи сторінку, звертає увагу на "літературність" її написання ("чом ти не прийшов" буде більш релевантною, ніж "чом ти не травень прийшов").

Різні пошукові системи використовують різні алгоритми ранжування, однак основними принципами визначення релевантності є наступні:

· Кількість слів запиту у текстовому вмісті документу (тобто в html-коді).

· Теги, в яких ці слова розташовуються.

· Місцеположення шуканих слів у документі.

· Питома вага слів, відносно яких визначається релевантність, у загальній кількості слів документу.

Ці принципи застосовуються всіма пошуковими системами. А наведені нижче використовуються деякими, але достатньо відомими (наприклад, AltaVista).

· Час - як довго сторінка знаходиться в базі пошукового сервера. Спочатку здається, що це недолугий принцип. Але в Інтернет існує багато сайтів, час життя яких складає близько місяця. Якщо ж сайт існує досить довго, це значить, що його власник є досвідченим за даною темою і користувачу більше підійде сайт, що існує вже кілька років, ніж той, який з'явився тиждень тому за цією ж темою.

· Індекс цитованості - як багато посилань на дану сторінку веде з інших сторінок, що зареєстровані у базі пошуковика.

База даних виводить ранжований таким чином перелік документів з HTML і повертає його користувачу, який зробив запит. Різні пошукові механізми вибирають різні способи показу отриманого переліку - деякі відображають лише посилання, інші виводять посилання з декількома першими реченнями документу або заголовок документу разом з посиланням.
скачати

© Усі права захищені
написати до нас