Методи інформаційного пошуку

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Типологія методів пошуку

Більш-менш серйозний підхід до будь-якого завдання починається з аналізу можливих методів її рішення. Пошук інформації в Інтернеті може бути проведений за кількома методами, значно розрізняються як по ефективності і якості пошуку, так і за типом витягуваної інформації. У ряді випадків доводиться використовувати вельми трудомісткі методи - результат того вартий.

Можна виділити наступні основні методи пошуку інформації в Інтернеті, які, в залежності від цілей і завдань, що шукає, використовуються окремо або в комбінації один з одним:

Безпосередній пошук з використанням гіпертекстових посилань

Оскільки всі сайти в просторі WWW фактично виявляються пов'язаними між собою, пошук інформації може бути здійснений шляхом послідовного перегляду пов'язаних сторінок за допомогою броузера.

Хоча цей повністю ручний метод пошуку виглядає повним анахронізмом у Мережі, що містить більше 60 млн вузлів, "ручний" перегляд Web-сторінок часто виявляється єдино можливим на заключних етапах інформаційного пошуку, коли механічне "копання" поступається місцем більш глибокого аналізу. Використання каталогів, класифікованих і тематичних списків і всіляких невеликих довідників також відноситься до цього виду пошуку.

Використання пошукових машин

Сьогодні цей метод є одним з основних і фактично єдиним при проведенні попереднього пошуку. Результатом останнього може бути список ресурсів Мережі, що підлягають детальному розгляду.

Як правило, застосування пошукових машин засноване на використанні ключових слів, які передаються пошуковим серверам в якості аргументів пошуку: що шукати. Якщо робити все правильно, то формування списку ключових слів вимагає попередньої роботи зі складання тезауруса.

Пошук з застосуванням спеціальних засобів

Цей повністю автоматизований метод може виявитися досить ефективним для проведення первинного пошуку.

Одна з технологій цього методу заснована на застосуванні спеціалізованих програм - спайдерів, які в автоматичному режимі переглядають Web-сторінки, відшукуючи на них потрібну інформацію. Фактично це автоматизований варіант перегляду з допомогою гіпертекстових посилань, описаний вище (пошукові машини для побудови своїх індексних таблиць використовують схожі методи). Немає потреби говорити, що результати автоматичного пошуку обов'язково вимагають подальшої обробки.

Застосування цього методу доцільно, якщо використання пошукових машин не може дати необхідних результатів (наприклад, в силу нестандартності запиту, який не може бути адекватно заданий існуючими засобами пошукових машин). У ряді випадків цей метод може бути дуже ефективний.

Вибір між використанням спайдера або пошукових серверів являє собою варіант класичного вибору між застосуванням універсальних або спеціалізованих засобів.

Аналіз нових ресурсів

Пошук по новоствореним ресурсів може виявитися необхідним при проведенні повторних циклів пошуку, пошуку найбільш свіжої інформації або для аналізу тенденцій розвитку об'єкта дослідження в динаміці.

Іншою можливою причиною може з'явитися те, що більшість пошукових машин оновлює свої індекси зі значною затримкою, викликаної гігантськими обсягами оброблюваних даних, і ця затримка звичайно тим більше, ніж менш популярна цікавить вас тема. Це міркування може виявитися досить істотним при проведенні пошуку в вузькоспеціальної предметної області.

Технологія пошуку з використанням пошукових машин

Визначення географічних регіонів пошуку

Оскільки проведення інформаційного пошуку переслідує практичні цілі - маркетингові, виробничі, суто утилітарні і тому подібні, - практична цінність інформаційного ресурсу може залежати і від географічного розташування відповідного джерела.

Складання тезауруса

Для ефективного використання пошукових серверів необхідний список ключових слів, організований з урахуванням семантичних відносин між ними, тобто тезаурус. При складанні тезауруса необхідно передбачити обробку синонімів, омонімів і морфологічних варіацій ключових слів.

Використання законів Зіпфа

Число, що показує скільки разів зустрічається слово в тексті, називається частотою входження слова. Якщо розташувати частоти в міру спадання і пронумерувати, то порядковий номер частоти називається ранг частоти. Ймовірність виявлення слова в тексті = частота входження слова / кількість слів у тексті. Зіпфа знайшов, що якщо помножити ймовірність виявлення слова в тексті на ранг частоти, то вийшла величина приблизно постійна для всіх текстів на одній мові:

С = (частота входження слів X ранг частоти) / кількість слів

Це означає, що графік залежності рангу від частоти - рівнобічна гіпербола.

Зіпфа також встановив, що залежність кількості слів з даною частотою від частоти - також гіпербола і постійна для всіх текстів у межах однієї мови.

Що можна витягти з цих законів? Дослідження вищевказаних залежностей для різних текстів показали, що найбільш значущі слова тексту лежать в середній частині діаграми, так як слова з максимальною частотою як правило є приводами, частками, займенниками, в англійській мові - артиклями (так звані "стоп-слова"), а рідко зустрічаються слова в більшості випадків не мають вирішального значення. Грунтуючись на цій закономірності, можна запропонувати наступну методику.

Складання списку ключових слів

Правильний набір ключових слів має визначальне значення для оптимального пошуку інформації. Наприклад, задавши пошуковій машині в якості ключового слова "Марпа", ми отримаємо список документів, в яких зустрічається ця абревіатура (Московське Агентство з Розвитку Підприємництва). Але якщо нас цікавлять документи за більш широкій темі, наприклад: розвиток підприємництва, і ми сформуємо простий запит з цих двох слів, то пошукова машина видасть нам список із сотень тисяч найменувань, орієнтуватися в якому буде вельми непросто.

Тому для складання оптимального набору ключових слів використовують процедуру, засновану на застосуванні законів Зіпфа, яка полягає в наступному: беруть будь-який текст-джерело, близьке до шуканої теми, тобто "Зразок", і аналізують його, виділяючи значущі слова. В якості тексту-джерела може бути книга, стаття, Web-сторінка, будь-який інший документ. Аналіз тексту проводиться таким чином:

- Видалення з тексту стоп-слів.

- Обчислення частоти входження кожного слова і складання списку, в якому слова розташовані в порядку убування їх частоти.

- Вибір діапазону частот, що лежить в середині списку, і відбір з цього діапазону слів, найбільш повно відповідних змістом тексту.

- Складання запиту до пошукової машини у формі перерахування відібраних таким чином ключових слів, пов'язаних логічним оператором АБО (OR). Запит у такому вигляді дозволяє виявити тексти, в яких зустрічається хоча б одне з перерахованих слів.

Число документів, отриманих в результаті пошуку по цьому запиту, може бути величезна. Однак, завдяки ранжирування документів (розташуванню їх у порядку убування частоти входження слів запиту в документ), що застосовується в більшості пошукових машин, на перших сторінках списку практично всі документи виявляться доречними, причому документ-джерело може знаходитися далеко від початку.

Більше адекватної є структура тезауруса у вигляді так званих семантичних зрізів, де для кожного основного терміну окремо будується таблиця супутніх слів і слів шумових (які не повинні зустрічатися в джерелі), - деякі пошукові машини (AltaVista) дозволяють це використовувати. Таким чином, замість єдиної ієрархічної структури термінів ми отримуємо пакет таблиць, які можуть розширюватися і модифікуватися окремо.

Відбір пошукових машин

Встановлюється послідовність використання пошукових машин у відповідності з спадання очікуваної ефективності пошуку з використанням кожної машини.

Усього відомо близько 180 пошукових серверів, що розрізняються по регіонах охоплення, принципам проведення пошуку (а отже, по вхідному мови та характером сприймаються запитів), обсягом індексної бази, швидкості оновлення інформації, здатності шукати "нестандартну" інформацію тощо. Основними критеріями вибору пошукових серверів є обсяг індексної бази сервера і ступінь розвиненості самої пошукової машини, тобто рівень складності сприймаються нею запитів.

Більш докладно пошукові машини описані в розділі курсу "Мережеві засоби пошуку інформації".

Складання і виконання запитів до пошукових машин

Це найбільш складний і трудомісткий етап, пов'язаний з обробкою великої кількості інформації (в основному шумовий). На основі тезауруса формуються запити до вибраних пошукових серверів, після чого можливе уточнення запиту з метою відсікання очевидно нерелевантною інформації. Потім проводиться відбір ресурсів, починаючи з найбільш цікавих, з точки зору цілей пошуку. Дані з ресурсів, визнаних релевантними, збираються для подальшого аналізу.

Формування запитів

Як формат, так і семантика запитів варіюються залежно від застосовуваної пошукової машини і конкретної предметної області. Запити складаються так, щоб область пошуку була максимально конкретизована і звужена.

Перевага віддається використанню декількох вузьких запитів у порівнянні з одним розширеним. У загальному випадку для кожного основного поняття з тезауруса готується окремий пакет запитів. Так само проводиться пробна реалізація запитів - як для уточнення і поповнення тезауруса, так і з метою відсікання шумовий інформації.

Мови запиту різних машин пошуку в основному є поєднанням наступних функцій:

Оператори булевої алгебри AND, OR, NOT:

- AND (І) - здійснюється пошук документів, що містять всі терміни, з'єднані даним оператором;

- OR (АБО) - шуканий текст повинен містити хоча б один з термінів, з'єднаних даним оператором;

- NOT (НЕ) - пошук документів, в тексті яких відсутні терміни, наступні за даним оператором.

- Оператори відстані - обмежують порядок проходження і відстані між словами, наприклад:

- NEAR - другий термін повинен знаходитися на відстані від першого, не перевищує певного числа слів;

- FOLLOWED BY - терміни слідують в заданому порядку;

- ADJ - терміни, з'єднані оператором, є суміжними.

- Можливість усікання термінів - використання символу "*" замість закінчення терміну дозволяє включити в бажаний список всі слова, похідні від його початкової частини (шаблону).

- Облік морфології мови - машина автоматично враховує всі форми даного терміну, можливі у мові, на якому ведеться пошук.

- Возможность поіска за словосполученням, фразе.

- Обмеження пошуку елементом документа (слова запиту повинні знаходитися саме в заголовку, першому абзаці, засланнях і т.д.).

- Обмеження за датою опублікування документа.

- Обмеження на кількість збігів термінів.

- Можливість пошуку графічних зображень.

- Чутливість до рядкових і прописних літер.

Результат запиту (список посилань) обробляється в два етапи. На першому етапі проводиться відсікання очевидно нерелевантних джерел, що потрапили у вибірку, завдяки недосконалості пошукової машини або недостатньою "інтелектуальності" запиту. Паралельно проводиться семантичний аналіз, що має на меті уточнення тезауруса для модифікації подальших запитів. Подальша обробка проводиться шляхом послідовного звернення на кожен із знайдених ресурсів та аналізу розташованої там інформації.

Аналіз ресурсів та збір інформації

Первинний аналіз ресурсів грунтується на анотаціях - у разі їх наявності, і в необхідних випадках - на ознайомленні з інформаційним наповненням ресурсу. Інформація з відібраних джерел витягується з використанням відповідних конкретного джерела методів, що може зажадати значних комунікаційних, обчислювальних і дискових ресурсів.

Коротко можна виділити наступні типи інформаційних Web-ресурсів:

- Комерційні сайти компаній;

- Вторинні інформаційні сайти;

- Джерела аналітичної інформації;

- Регіональні інформаційні ресурси.

У російськомовній частині Інтернету в даний час доступний ряд ресурсів, що надають вторинну інформацію, як правило, в табульований формі. Надання інформації для публікації в подібних джерелах є більш дешевим варіантом для компаній, які не мають власного представництва в Інтернеті.

Проблеми, що виникають у процесі пошуку

Одна з проблем є суто методологічною. Для проведення ефективного пошуку ми зацікавлені в одночасному рішенні двох протилежних завдань:

- Збільшення охоплення з метою отримання максимальної кількості значущої інформації;

- Зменшення охоплення з метою мінімізації шумовий інформації.

Неважко бачити, що одночасно здійснити це досить складно, хоча найчастіше все-таки можливо. Один з методів, якщо пошукова машина дозволяє, - це введення явних обмежень (заборонених слів). Інший полягає в правильному формуванні запитів, зокрема, у перевазі декількох конкретизованих запитів одному загальному. На жаль, вельми обмежений вхідна мова більшості машин не залишає особливого простору для творчості в цьому напрямку.

Інша проблема - багатоваріантність людської мови. Якщо в англійській мові деякі слова мають безліч різних значень, то російська відрізняється багатством морфологічних варіацій слів, а для повноти пошуку необхідно враховувати ще й синоніми.

Часто в області російського Інтернету виникають суто технічні труднощі з-за різних кодувань інформації. Російські пошукові машини розпізнають кодування користувача і шуканого сайту, але поєднати їх вдається не завжди.

Ще одна особливість російськомовної частини мережі - її нестабільність. Постійно змінюються адреси і структура сайтів, вони з'являються і зникають, і пошукові машини не встигають поновлювати свої бази індексованих даних, тому значна частина списку документів, виданого вам машиною, може виявитися недоступною. Поява у вересні 1997 р. системи Яndex-Web, оновлює те, що свої дані раз на тиждень, позначило якісний стрибок вперед у вирішенні цієї проблеми.

Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
27.7кб. | скачати


Схожі роботи:
Методи пошуку відмов
Методи пошуку інформації в Інтернеті
Оптимізація Методи багатовимірного пошуку
Методи пошуку та аналізу інформації
Методи збору і пошуку інформації застосовуються в сучасній етнології
Евристичні методи пошуку способу розв`язання завдань
Методи впливу електропрогона і простукування для пошуку неісп
Методи пошуку інформації в мережі інтернет Інформаційно-пошукові системи
Методи впливу електропрогона і простукування для пошуку несправностей РЕЗ
© Усі права захищені
написати до нас