Інформаційно пошукові тезауруси

[ виправити ] текст може містити помилки, будь ласка перевіряйте перш ніж використовувати.

скачати

ТЕМА: ІНФОРМАЦІЙНО-пошуковий тезаурус

1. Інформаційно-поскових тезаурус
Словники типу тезаурус або ідеографічні вперше розроблені в лінгвістиці. Тезауруси призначені для полегшення пошуку мовних засобів виражають дане поняття (ідею). Класичним прикладом пошукового тезауруса є: тезаурус англійських слів і виразів перше видання якого було підготовлено Роджестоном 1852 р . подібні тезауруси створені і для інших природних мов. Лінгвістичний тезаурус розроблено у зв'язку з автоматизованою підготовкою тексту.
Синтагматичні зв'язки - це співвідношення одиниці мови в даному висловлюванні.
В інституті російської мови РАН створений тезаурус семантичних (значеннєвих) і синтагматичних зв'язків між словами і словосполученнями, російська мова як словникової-програмний засіб. Обсяг тезауруса 64 000 слів і словосполучень.
ІПТ призначений:
1. забезпечувати переклад з природної мови на дескрипторних т.е для координатного індексування документів і запитів.
2. відображати парадигматичні відношення між лексичними одиницями ІПТ, які використовуються при складанні стратегії пошуку.
Парадигматичні відносини-це логічні і асоціативні відносини між ЛЕ ІПМ.
3. служити термінологічним посібником.
ІПТ - це нормативний словник дескрипторного ІПМ із зафіксованими в ньому парадигматичними відносинами ЛЕ.
Багатомовний ІПТ - це ІПТ містять ЛЕ взяті з декількох природних мов і представляє еквівалентні за змістом поняття на кожному з цих мов.
Метою створення ІПТ є підвищення показника пошуку інформації в ІПТ.
Макротезаурус - ІПТ включає ЛЕ високої спільності і покриває широку область знання.
Мікротезаурус - спеціалізований ІПТ невеликого обсягу складений на основі вибірки з більш повного ІПТ і додатково включає конкретні російські поняття певної тематики.
Спеціалізований ІПТ або синонім монотематіческого ІПТ - ІПТ побудований для відображення області знання або практичної діяльності.
Політематичний ІПТ - ІПТ побудований для широкої сукупності областей знання.
Спеціалізований ІПТ - існує в більшості науки і техніки.
Кількість розроблених мікротезаурусов обчислюється тільки в нашій країні в кілька тисяч.
Макротезаурус і політематичний ІПТ - призначені для використання лексико-тематичної основи при побудові мікротезауруса.
Політематичний ІПТ включає тільки основну лексику тієї чи іншої галузі та найбільш очевидні парадигматичні відношення.
Мікротезаурус включає специфічні терміни власності. наимен. і розвинену парадігмат.
До складу ІПТ входить вступна частина, основна частина (лексико-семантичний покажчик) і додаткові частини.
Вступна частина включає титульний лист і текстові введення.
Вступ містить наступні дані:
1. мета створення і область застосування ІПТ;
2. посилання на джерела використовуються для збирання лексики ІПТ (др. ІПТ, термінологічні словники);
3. опис порядку складання ІПТ;
4. опис складу і структури ІПТ;
5. кількісні характеристики ІПТ (загальна кількість статей, число дескрипторів і аскріпторов);
6. перелік відносин між ЛЕ і методикою підстави для їх встановлення.
7. перелік усіх символів і спеціальних скорочень допустимих для подання ЛЕ.
8. порядок алфавітного розташування ЛЕ.
9. опис складу і форми подання додаткових даних у словникових статтях.
Лексико-семантичний покажчик - це основна частина ІПТ в якій в єдиному алфавітному ряді перераховані всі дескриптори і аскріптори із зазначенням їх парадигматичних відносин.
ЛЕ ІПТ - слово, словосполучення, або лексичне значення компонентів складного слова природної мови включене в ІПТ в якості дескриптора або аскріптора.
Аскріптор (не дескриптор) - ЛЕ ІПТ яка в пошукових образах документів (запитів) підлягає заміні на дескриптор при пошуку чи обробці інформації.
У рамках дескрипторної статті терміни розташовуються в наступному порядку:
1. заголовний дескриптор виділений за допомогою шрифту. Наприклад заголовними буквами;
2. додаткові дані;
3. лексичне примітка (коротке пояснення уточнення значення дескриптора);
4. аскріптори або дескриптори синоніми (які слідують за індексом «С»);
5. вищестоящі дескриптори наступні за індексом «в»;
6. нижчестоящі дескриптори наступні за індексом "а";
7. дескриптори пов'язані іншими видами відносин.
Вищий дескриптор, широкий дескриптор-це дескриптор позначає або родове поняття, або ціле по відношенню до даного дескриптору позначає частину цього цілого.
Нижчий дескриптор або вузький дескриптор - дескриптор позначає або видове поняття, або частина представляє вищестоящий дескриптор.

Асоціативний дескриптор - дескриптор пов'язаний з іншими семантичної зв'язком характер якої не зазначений.

Основними типами зв'язку є: причина-наслідок, процес-об'єкт, функціональне схожість, антонімія.
Неоднозначність ЛЕ усувається релятором або лексичним приміткою.
Релятор є ЛЕ і пояснює її значення відносячи її до певної понятійної категорії або предметно-тематичної області.
Додаткові частини ІПТ:
- Систематичний покажчик;
- Ієрархічний та інші покажчики і списки спеціальних категорій ЛЕ.
Додаткові покажчики служать для розкриття обліку та контролю парадигматичних відносин між дескрипторами, що потрібно при складанні пошукових розпоряджень.
Списки покажчиків є переліком дескрипторів згрупованих згідно з прийнятою у ІПТ рубрикації.
При побудові систематичного покажчика використовується наступна загальна категорія:
1. назва дисциплін та галузей діяльності;
2. предмети, матеріали;
3. методи, процеси, операції, явища;
4. властивості, величини, параметри, характеристики;
5. відносини структури, моделі, закони, правила, абстрактні поняття.
Кожен дескриптор відноситься тільки до однієї рубриці. Усередині рубрики дескриптор розташовується в алфавітному порядку.
Ієрархічний - представляє собою перелік списків дескрипторів, причому кожен список починається з дескриптора не має вищих.
Після кожного дескриптора наведені безпосередньо нижчестоящі дескриптори із зазначенням ієрархічних, шляхом застосування нумерації. Або графічні позначення рівня.
Основні переваги дескрипторних ІПМ:
Менша в порівнянні з класифікаційним ІПМ трудомісткість розробки;
Можливість здійснити пошук за будь-заздалегідь заданому поєднанню характеристик входять до ІПМ;
Можливість автоматичного процесу індексування документів.
Недоліки дескрипторних ІПМ:
В основних галузях характер дескрипторного ІПМ ускладнює їх використання для обміну інформацією між системами з різними ІПМ;
Неадекватне значення терміна обраний як дескриптора в різних дескрипторних ІПС.

2. Аналіз інформаційно-пошукового тезауруса
2.1 Інформаційно-пошуковий тезаурус за збереження документів (БАН)
1. Перший вітчизняний двомовний тезаурус по збереженню документів, підготовлений в Бібліотеці Російської академії наук. тезаурус налічує 5 166 термінів.
Видання являє собою зразок змішаного двомовного (російсько-англійського) тезауруса. Основною мовою обрана англійська. Це означає, що в якості дескрипторів обрано англійські терміни, а російські терміни наводяться як синоніми.
Цей інформаційно-пошуковий тезаурус призначений для індексування документів і обробки запитів щодо забезпечення збереження (схову) документів у традиційних і нетрадиційних інформаційних системах. Тезаурус може використовуватися як спеціальний двомовний словник при виконанні перекладів з російської на англійську і з англійської на російську мову, а також як термінологічний словник довідник.
До складу тезауруса входять:
- Лексико-семантичний покажчик;
- Ієрархічний покажчик;
- Хронологічний ідентифікатор.
2. Дескриптори часто визначають як класи умовної еквівалентності термінів, оскільки є пошукова та звичайна (загальномовне) еквівалентність мовних одиниць, і ці два види лексичної рівнозначності термінів у дескрипторних словниках можуть не повністю збігатися. Так, наприклад, у лексичних одиниць, що входять в дескриптор «DERATISATION c. Дератизація, н. MICE, RATS », зміст понять« миші »і« пацюки »відносяться до семантичним категоріям« живі організми »,« біологічний фактор », а поняття« дератизація »- до лексичної категорії« операції ». Але оскільки при проведенні пошуку інформації відмінності в категоріальному значенні зазначених слів є не дуже суттєвими і більш важливим є їх інформаційно-пошукова еквівалентність, в тезаурусі за збереження документів поняття «миші» і «пацюки» є нижчестоящими по відношенню до терміну «deratisation».
У лексико-семантичному покажчику тезауруса розташовані дескрипторних і аскріпторние статті.
У рамках дескрипторної статті терміни розташовуються в наступному порядку:
- Великі дескриптори виділені заголовними буквами;
- Додаткові дані;
- Аскріптори або дескриптори синоніми, які слідують за індексом «с»;
- Вищі дискриптори наступні за індексом «в»;
- Нижчестоящі дескриптори наступні за індексом «н».
Приклад:
ACCTSS CONTROL
c Visitors control
Контроль і керування доступом
в ORGANIZATION OF SECURITY SISTEMS
н ACCESS CONTROL
3. У дескрипторних статтях тезауруса відсутні:
- Лексичне примітка;
- Дескриптори пов'язані іншими видами відносин.

2.2 Тезаурус термінів з морської справи і вітрильного туризму. (Інформаційно-пошуковий тезаурус). Укладач В.М. Бєлозьоров. Москва 2001
1. Тезаурус містить близько 2200 термінів з визначеннями і тезаурусного зв'язками.
Цей словник-довідник з морської справи і вітрильного туризму є термінологічним словником, в якому для кожного терміна дано його визначення, при необхідності - примітки про характер використання, а також семантичні зв'язки з іншим поняттями.
Наявність явної вказівки на семантичні зв'язки понять у сукупності з розкриттям їх змісту у визначеннях і коментарях дозволяє використовувати словник як "програмований підручник", який веде читача від слова до слова, повідомляючи відомості про поняття всієї сфери інтересу.
До складу словника входить вся спеціальна термінологія, необхідна для викладу матеріалу з організації та проведення туристських плавань на транспортабельних розбірних судах по внутрішніх водойм та прибережних районів морів. Термінологія цього виду діяльності доповнена лексикою класичного вітрильного справи, вітрильного спорту, навігації, гідрографії, організації морських перевезень, що дозволяє використовувати словник як довідник з морської справи в цілому.
Словник складається з цього вступу і алфавітного лексико-семантичного покажчика термінології. Елементом алфавітного покажчика є словникова стаття, яка складається із заголовної лексичної одиниці, визначення, примітки і посилань.
Тематику словника можна віднести до наступних рубриках Державного рубрикатора науково-технічної інформації:
· 71.37.01 Загальні питання туристсько-екскурсійного обслуговування
· 73.34.01 Загальні питання водного транспорту
· 77.01.33 Термінологія. Довідники, словники, навчальна література з фізичної культури і спорту
· 77.29.32 Вітрильний спорт. Віндсерфінг
· 77.29.33 Спортивний туризм
2. Головна лексична одиниця очолює словникову статтю і в дескрипторних статтях виділена заголовними (великими) літерами. У деяких випадках до складу великої лексичної одиниці включені факультативні пояснювальні слова в круглих дужках. Наприклад: "ВУЗОЛ (швидкість)" на відміну від "ВУЗОЛ (на тросі)".
Визначення слід безпосередньо після великої лексичної одиниці, відокремлено від неї тире і набрано шрифтом зі зменшеною висотою літер (у цьому варіанті петит не реалізований). У деяких випадках, коли визначення терміна очевидно з його внутрішньої форми, воно не наводиться. У тих же випадках, коли термін можна визначити з різних сторін і лише в сукупності відповідні визначення описують поняття, наводяться два або навіть три визначення, розділені крапкою з комою.
Наприклад:
звичайне визначення:
Клівер - трикутний косою вітрило, передня шкаторини якого кріпиться до клівер-леєр, що з'єднує стеньги з НОКом бушприта або утлегарем.
визначення опущено:
ДАЛЬНІСТЬ ВИДИМОСТІ -
два визначення (з боку значення і з боку форми):
АЗ - прапор ВМСС, що позначає російську літеру А; червоний з косицами і білим квадратом у древка.
Важливою частиною статті є посилання на інші терміни або інші форми того ж терміну. Вони дозволяють знайомитися зі змістом тезауруса методом "навігації" по посиланнях і уточнюють значення термінів, додатково розкриваючи його через зв'язки терміна (набраного звичайним світлим шрифтом). Якщо в статті наводиться два або більше посилальних терміна, що мають однаковий характер зв'язку з великої лексичною одиницею, позначення посилання наводиться тільки один раз в першій з рядків.
Усі терміни, зазначені в посиланнях, є великими лексичними одиницями відповідних статей, в яких можна отримати додаткову інформацію про даний терміні. Виняток становлять посилання на позначення та абревіатури.
У цьому тезаурусі використовуються наступні види посилань, які розташовуються у вказаному нижче порядку:
с - у дескрипторної статті вказує на синонімічні аскріптор;
см - у аскріпторной статті вказує на синонімічні дескриптор;
в - в аскріпторной статті вказує на кілька дескрипторів, серед яких потрібно вибрати один, найбільш точно виражає цікавить читача поняття;
про - умовне позначення даного поняття;
вр - вищестояще родове поняття;
ВЦ - вищий термін, що позначає об'єкт, що включає в себе дане поняття як свою складову частину;
вм - безліч, один з елементів якого позначається заголовної лексичною одиницею;
нв - нижчий видове поняття;
нч - нижчий термін, що позначає частину об'єкта, вираженого заголовної лексичною одиницею;
нє - нижчий термін, що позначає один з елементів множини, вираженого заголовної лексичною одиницею;
асх - асоціація за подібністю об'єктів або понять; АСМ - асоціація за суміжністю об'єктів, процесів або явищ; ант - антонім, тобто "Протилежне" поняття;
ср - посилання на аскріптор, що пропонує дану заголовну лексичну одиницю у якості однієї з альтернатив для вибору точного терміну.
Приклад:
АЗИМУТ - напрямок у просторі, виражене щодо країн світу
вр: напрям
нв: азимут світила; істинний азимут; компасний азимут; магнітний азимут;
асх: пеленг; румб
АСМ: кругова система азимутів; румбовая система азимутів; четвертна система азимутів
3. Цей словник, що розглядається як тезаурус, підготовлений відповідно до ГОСТ 7.25 - 80.

СПИСОК ЛІТЕРАТУРИ
1. ГОСТ 7.24-90. Тезаурус інформаційно-пошуковий багатомовний.
2. ГОСТ 7.25-2001. Тезаурус інформаційно-пошуковий одномовний.
3. ГОСТ 7.74-96. Інформаційно-пошукові мови. Терміни та визначення.
Додати в блог або на сайт

Цей текст може містити помилки.

Програмування, комп'ютери, інформатика і кібернетика | Контрольна робота
31.1кб. | скачати


Схожі роботи:
Автоматизовані інформаційно пошукові системи
Методи пошуку інформації в мережі інтернет Інформаційно-пошукові системи
Пошукові системи Інтернету
Пошукові спеціальні засоби
Пошукові юридичні системи
Довідково пошукові системи мережі Інтернет
Всесвітня павутина WWW гіпертекст пошукові машини
Інформаційно Пошукова система
Інформаційно пошуковий тузаурус
© Усі права захищені
написати до нас