Ефективна технологія роботи зі зростаючими потоками несистематизованої текстової інформації

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

Хто з аналітиків не стикався в своїй роботі із завданням пошуку потрібної інформації у великих інформаційних масивах і, зокрема, з роботою пошукових систем в Інтернеті. Рівень сервісних послуг, що надаються пошуковою машиною, зазвичай оцінюється за двома критеріями: це розмір бази даних пошукової машини (чим більше база даних, тим більшу кількість сайтів відомо даному пошуковику, а отже, тим точніше пошук) та інформативність видаваних результатів. Звичайно, зарубіжні пошукові машини, такі, як Alta-Vista, Lycos і HotBot, перевершують будь-який з існуючих російських пошукових сервісів за розміром бази даних, оскільки намагаються охопити весь світовий Інтернет. Як свідчить опублікована в науковому журналу Nature дослідження, максимальне охоплення адрес в Інтернеті - 16% - сьогодні забезпечує Пошукова система Nothern Light, за нею - 15,5% - слід Alta Vista, а на третьому місці - 11,3% - Hotbot.

Пошукові системи змагаються у збільшенні розміру бази даних.

Пошукова система під амбітною назвою Alltheweb (що відповідає російському "всясеть") офіційно стартувала 3.08.99 в Інтернеті. Про це повідомила інформаційна служба корпорації BBC.

Норвезька компанія Fast Search and Transfer ASA - розробник нової системи повідомила, що система скоро охопить шукають віртуальним оком всі 100% web-адрес Всесвітньої павутини. Поки їй вдається "бачити" тільки чверть, що теж дуже непогано порівняно з досягненнями існуючих пошукових систем.

Охоплення системою Alltheweb всього простору Всесвітньої павутини має статися до кінця 2000 року - а до того часу при нинішніх темпах розвитку мережі кількість сайтів досягне 1 мільярда. Fast стверджує, що нова система сьогодні переглядає 200 млн сайтів за 1 секунду, у той час як конкуруючі системи здатні провести пошук по тому ж кількістю сторінок за кілька годин, а то й днів. "Невеликі пошукові системи просто пропускають якусь кількість веб-сайтів, а іноді просто безліч сайтів не включені в їх пошукові каталоги", - говорить Еспен Бродин, президент і виконавчий директор Fast.

Вирішивши хоча б поверхово поекспериментувати з новою пошуковою системою, кореспондент газети "Час" виявила, що на слово gazprom система відреагувала 16651 документом, підкресливши, що витратила на пошук 0,106 секунди. Alta Vista провела аналогічний пошук за не зване нею час (але теж досить швидко) і знайшла 5653 документа. А на запит Gorbachev Alltheweb видала 43142 документа (витративши 0,1 секунди), в той час як Alta Vista відшукала 1563 документа.

Я продовжив експеримент з російськомовними пошуковими машинами. На слово "газпром" Rambler знайшов 30212 документів, Яndex - 133787 документів на 1813 сайтах, а Апорт виявив 1500 матеріалів на 339 сайтах. Ймовірно, точну кількість знайдених документів Апортом не вказується, якщо їх число перевалило за 1500. Відповідь на запит "Горбачов" був таким: Rambler - 11079 документів, Яndex - 27762 (1035 сайтів), Апорт - знову 1500 (650 сайтів).

Російський Інтернет сьогодні складає менше 1% від світового і охоплює близько 2 млн. користувачів. Але і ця немаленька цифра неухильно зростає. Мережа збільшується як за широтою охоплення, так і за обсягом зберігається в ній, яка розподіляється за мільйонами комп'ютерів.

Інтернет-простір розширюється (за деякими оцінками обсяг інформаційних масивів світового Інтернету збільшується приблизно на мільйон сторінок на день) Пошукові системи намагаються адекватно реагувати, нарощуючи і швидкість виконання пошуку, і величину охоплення Інтернет простору. Логічним результатом стало збільшення кількості посилань на Інтернет ресурси в результаті пошуку.

Всім зрозуміло, що пошук може вважатися гарним, якщо вдається знайти потрібну інформацію на одній з перших сторінок з результатами пошуку. У цьому сенсі дуже важлива грамотна сортування за релевантністю.

Наведемо перелік основних критеріїв, які враховує, наприклад, система Апорт-2000 під час сортування документів (сайтів):

1) кількість шуканих слів у тексті документа (у відсотках) відстань між пошуковими словами в тексті документа

2) місце в тексті, де зустрічаються пошукові слова (заголовок, опис, мета-тег і т.п.)

3) зовнішній вигляд шрифту, яким набрані в тексті слова (розмір, жирність, колір)

4) кількість посилань з Інтернету на даний документ

5) використання шуканого слова в тексті посилань з Інтернету на даний документ

Остаточний відсоток відповідності документа запиту будується як собі функція від всіх цих показників. Частина з них прості й зрозумілі (хоча враховуються далеко не всіма пошуковими машинами), частина потребує пояснення, оскільки це нові, практично унікальні рішення.

Не секрет, що деякі сайти створюються саме з урахуванням подальшої ефективної індексації пошуковими машинами. Вдала індексація - це цілий комплекс дій. Її потрібно враховувати ще при створенні сайту. Багато що залежить від правильності написання коду з урахуванням спеціальних тегів. Але й це не все. Професіонали, наприклад, пропонують цілий комплекс заходів (законних!), який дозволяє опинитися в перших сторінках результатів пошуку (!) Практично незалежно від істинного інформаційного змісту Web-сторінок. Штучне завищення цінності інформаційного ресурсу, поза сумнівом, позначається на результатах пошуку, і утрудняє роботу аналітика.

Дослідження показали, що користувач може переглянути не більше 40 знайдених в результаті пошуку матеріалів, а пошукові машини видають деколи сотні, тисячі, десятки і сотні тисяч посилань, переглянути які в розумні терміни не представляється можливим.

Серйозність проблем очевидна.

Зазвичай ця проблема вирішується жорсткістю умов пошуку. Поширена думка: "Краще витратити значний час на формулювання запиту. Зате отримати вибірку потрібних документів ".

Абсолютно вірна позиція, коли шукаєш документ, в існуванні якого в даному масиві повністю впевнений. Якщо ж відповідь на поставлене питання міститься в розподіленому вигляді в багатьох документах, дуже чіткий запит дозволить отримати, швидше за все, заздалегідь підготовлену кимось інформацію на задану тему: аналітичні статті, огляди. Аналітику, не маючи можливості отримати первинну інформацію, складно оцінити достовірність зроблених висновків і незаангажованість авторів матеріалів. Цінність отриманої в результаті запиту інформації досить спірна. І це при тому, коли відомі ключові слова для пошуку, що теж не завжди можливо.

Хто з працівників аналітичних служб не стикався з ситуацією, коли начальство не може чітко сформулювати завдання. Ситуація як у казці: піди туди не знаю куди, принеси те не знаю що. На закономірну прохання аналітика про уточнення запиту та виділення ключових понять слідує відповідь: "Це ти мені повинен сказати, які там ключові поняття і фігури, а мені треба знати, що зараз відбувається в даній галузі або регіоні, підприємстві тощо".

Хочеш, не хочеш, доводиться починати з самих загальних запитів, поступово звужуючи область пошуку. Підхід правильний, але аж надто трудомісткий - доводиться переглянути сотні матеріалів, а деякі з них уважно прочитати. Дана робота може розтягнутися на дні. А питання часом вимагає оперативної відповіді. Одне з двох: або страждає оперативність, або достовірність.

Пропонується зовсім інший метод роботи з неструктурованою текстовою інформацією.

Істотна відмінність пропонованої системи від звичайних інформаційно-пошукових систем полягає в тому, що для швидкого аналізу змісту документа кожне посилання на даний ресурс супроводжується т.зв. електронної анотацією (насправді інформаційний образ документа, що формується лінгвостатістіческімі методами). При цьому електронна анотація представляє собою самостійний інформаційний об'єкт з новими, унікальними властивостями, яка формується заздалегідь, причому повністю автоматично без втручання оператора.

Призначення анотації: з одного боку, швидко, не читаючи весь текст, оцінити його зміст і визначити відповідність тексту заданих параметрах пошуку. З іншого боку, з її допомогою виділити ключові події, факти, імена власні, розкрити найбільш значущі фактори та системні взаємозв'язки аналізованої проблеми.

При наявності тижневого досвіду експлуатації у користувача активно включається в роботу підсвідомість, з'являються навички інтегрального, якісного сприйняття інформації. При цьому текстові фрагменти обсягом у сотні рядків аналізуються протягом 2-3 секунд. Подібна швидкість "сканування інформаційного простору" обумовлює появу абсолютно нового погляду на проблему інформаційного пошуку, вибірки і фільтрації текстових повідомлень.

Аналітик, що спеціалізується у вузькій предметній області просто зобов'язаний знати пальцях полічити всі значущі для його спеціалізації джерела інформації і здатний самостійно відслідковувати всі їх оновлення і зміни. На жаль, існуючий стан справ не дозволяє ні аналітикам відділів маркетингу, ні тим більше управлінцям обмежуватися спеціалізацією тільки в своїй виробничій сфері. Сьогодні бізнес занадто політизований і криміналізований. Для успішного ведення бізнесу та адекватної відповіді на зовнішні впливи доводиться відслідковувати зміни безлічі параметрів. Особливо це стосується організацій, що мають розгалужену (холдингову) структуру, містоутворюючих підприємств і підприємств федерального рівня.

На будь-якому більш - менш великому підприємстві є кілька структур (відділів), які в своїй роботі регулярно стикаються з необхідністю отримання оперативних відповідей на питання з різних професійних областей (часом, зовсім не передбачуваних).

1. Для служби безпеки особливо актуальні аналіз надійності нових партнерів і їх оточення, моніторинг стану постійних партнерів і поточних проектів, оцінка і прогноз ризиків і т.д. Як відомо, близько тридцяти відсотків секретної і до десяти відсотків цілком таємної інформації міститься у відкритій інформації. Можливість ефективно "просівати" величезні масиви загальнодоступної інформації (наприклад, архіви матеріалів центральних засобів масової інформації за кілька років) дозволяє оперативно отримати комплексний портрет підприємства чи фізичної особи (політика, бізнесмена) і всього його оточення, зібрати воєдино всі фрагменти, не упускаючи специфічних нюансів .

2. Для відділу стратегічного планування та управління важливий аналіз діяльності підприємства, макроекономічний аналіз і прогнозування стану країни і власного сегменту ринку, розширення і диверсифікація сфер бізнесу, розробка оптимальних маркетингових та бізнес-стратегій розвитку і т.д. Неможливо тримати в штаті настільки велика кількість фахівців у відповідних областях. На перший план виходять саме фахівці по роботі з інформацією і сучасні ефективні інформаційні технології.

3. Більш докладно розглянемо роботу аналітика для відділу інвестицій.

Інформаційно-аналітичне забезпечення процедури інвестиційного проектування, в якому проводиться аналіз характеристик ринків розглядається в проекті продукції (відповідь на першу групу питань: чому даний товар, за даною ціною і в даному обсязі буде куплено у даного підприємства):

- Аналіз достовірності запропонованої ідеї, і оцінка ризику інвестиційної пропозиції; дослідження параметрів інвестиційного проектами перевірка даних його маркетингової частини на відповідність реальним характеристикам галузі і підприємства;

- Оцінка товарних потоків для заданого сегмента ринку;

- Оцінка соціально-політичної і загальної економічної обстановки та перспектив її розвитку;

- Оцінка стану і перспектив розвитку законодавчої та податкової бази;

- Дослідження ринків продукції, сировини і матеріалів та прогнозування їх динаміки;

- Статистичний аналіз попиту і збутових можливостей основних учасників ринку;

- Синтез регіональної ринкової стратегії.

Оцінка здатності підприємства реалізувати інвестиційний проект (відповідь на другу групу питань: чи здатні фахівці даного підприємства організувати реалізацію даного проекту на даному підприємстві, виробляти товар необхідної якості і організувати систему збуту в необхідному обсязі):

- Оцінка системи управління кадровим складом і аналіз систем мотивації;

- Аналіз системи збуту предприятия, існуючої дилерської мережі та мережі і торгових представників;

- Розробка конкурентоспроможної цінової політики;

- Вироблення пропозицій щодо організації ефективних каналів збуту продукції і систем підтримки продажів

- Аналіз виробничого і сприйманого якості продукції;

- Виявлення і "розшивання" вузьких ланок технологічного ланцюга, аналіз і модернізація системи правління якістю сировини, комплектуючих виробів і виробленої продукції.

Передінвестиційна підготовка підприємства (відповідь на третю групу запитань: яка реструктуризація організаційної та технологічної структури виробництва необхідна для успішної реалізації проекту):

- Оцінка відношення до реалізації проекту федеральних і регіональних влад, впливових регіональних і федеральних суспільно-політичних об'єднань;

- Оцінка необхідності проведення і склад заходів з підготовки громадської думки до реалізації інвестиційного проекту;

- Забезпечення організаційно-правового статусу підприємства для залучення прямих інвестиційних ресурсів;

- Концентрація великих пакетів акцій підприємства для продажу;

- Створення інфраструктури супроводу інвестицій та їх страховки від "політичних" ризиків;

- Робота з кредиторами, оптимізація структури боргових зобов'язань і очищення підприємства від боргів бюджетного характеру;

- Оцінка надійності партнерів підприємства і побудова системи протидії впливу кримінальних структур;

- Побудова системи гарантійних зобов'язань, наданих інвестору, і гарантій повернення інвестиційних ресурсів;

- Побудова системи фізичної безпеки учасників проекту і підприємств, на яких реалізуються інвестиційні програми;

- Побудова ефективних систем управління, прийняття рішень і мотивації.

Управління реалізацією інвестиційного проекту (відповідь на четверту групу питань: який стан проекту в будь-який момент часу і які заходи щодо компенсації зміни зовнішніх умов або порушень проектної динаміки реалізації проекту).

- Моніторинг поточної економічної та суспільно-політичної ситуації та прогнозування її розвитку;

- Контроль та управління реалізацією проекту на всіх етапах для оперативного реагування на позаштатні ситуації в разі порушень планового розвитку проекту;

- Розробка пропозицій щодо адекватного реагування на зміну зовнішнього для інвестиційного проекту економічної та суспільно-політичної обстановки і своєчасного внесення змін до проекту, аж до його повної реорганізації.

Велика частина перерахованих вище робіт потребує збору та аналізу інформації з різних областей знання, підключення фахівців різних профілів або ж використання передових інформаційних технологій.

Один аналітик, який експлуатує систему, що дозволяє формувати інтегральні образи текстових матеріалів, здатний:

- Протягом 5-10 хвилин оцінити чи є шукана інформація в базі даних, ступінь деталізації окремих аспектів проблеми, якість можливої ​​відповіді на поставлене питання;

- Протягом 1-2 годин підготувати якісний огляд досліджуваної проблеми, не будучи фахівцем у досліджуваній предметній області, довідку про подію чи явище з урахуванням основних існуючих точок зору;

- Протягом робочого дня сформувати заготівлю повновагого серйозного аналітичного звіту з "сіткою" можливих висновків і рекомендацій, а також повноцінне досьє на політичного, громадського діяча, керівника великого підприємства.

Список літератури

Шаталов А.В. Ефективна технологія роботи зі зростаючими потоками несистематизованої текстової інформації

Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Реферат
33.5кб. | скачати


Схожі роботи:
Вимоги до відтворення текстової інформації на екрані
Обробка текстової інформації Концепція електронного документа
Аналіз методів введення обмежених обсягів текстової інформації
Аналіз методів введення обмежених обсягів текстової інформації
Мерчендайзинг як ефективна маркетингова технологія
Управління вхідними і вихіними грошовими потоками їх характеристика Планування грошовими потоками
Технологія зберігання пошуку і сортування інформації
Технологія соціальної роботи як майстерність фахівця соціальної роботи 2
Технологія соціальної роботи як майстерність фахівця соціальної роботи
© Усі права захищені
написати до нас