Въведение
Терминът „електронен речник“ вече е съвсем познат. При това атрибутът „електронен“ характеризира обекта си толкова повърхностно, колкото и противоположния му атрибут „книжен“ – традиционните речници. Обикновено се подразбира, че речникът на компютъра е въведен в него книжен речник, снабден с удобни средства за търсене и намиране. Тоест създателите на електронните речници преливат старото добро лексикографично вино в новите електронни бъчви. Компютърната лексикография като област от приложната лингвистика, която произвежда такива речници, се оказва лишена от собствен езиков предмет. За нея остава само ефектната демонстрация на каноничното съдържание.
Бихме искали да дадем друга гледна точка, спрямо която компютърната лексикография е специално направление в практическата лексикография със свои собствени подходи не само към изобразяването, но и към съдържанието на речника. Електронният речник е специален лексикографичен обект, в който могат да се реализират и въведат в обръщение много продуктивни идеи, неприложени по различни причини в книжните речници.
Веднага ще кажем, че става дума за тенденциите, потенциалните възможности на компютърната лексикография, чиято част още не е реализирана или дори все още не е осъзната.
Преди да преминем към темата за новите възможности, ще се спрем на проблемите с класическата „книжна“ лексикография.
Антиномия на книжната лексикография
Плодовете на традиционната практическа лексикография страдат от три фундаментални противоречия, характерни за тази област от човешката дейност:
- Колкото по-голям е обемът на речника, колкото по-пълно и доказващо е описанието на лексикалните значения, толкова по-сложно се използват.
Това противоречие е довело до поляризиране на пазара за книжни речници: има голяма група от много примитивни, но относително удобни масови издания, на която противостоят единични професионални издания, неприложими за бързо получаване на информация. Характерен пример за това е 20-томният Оксфордски речник.
- Колкото по-пълно и дълбоко е описанието на лексикалните значения, толкова по-малко речникът съответства на текущата езикова и културна ситуация.
Прекалено дългият цикъл на създаване и модификация на фундаменталните книжни речници води до това, че ликът на света, който те фиксират в системата на своите значения, примери и преводи, вече е осезаемо различен от действителността. Много речници, основният корпус за статии на които се е сформирал в езиковата атмосфера на средата на миналия век, са лексикографски музеи (или терминологични гробища, ако говорим за специализираните речници).
- Колкото по-интересна е самата лексикографична концепция на речника, колкото по-интегрални са средствата за описание на лексикалните значения, толкова по-тясна е лексикалната му база.
В резултат на това универсалните книжни речници демонстрират печална липса на влияние на постиженията на теоретичната лексикография върху лексикографичната практика. Научните лексикографични проекти съществуват, но се реализират под формата на речници, които не покриват и 10% от цялото лексикографично пространство.
Възможности на компютърната лексикография
Компютърната реализация на книжния речник сама по себе си позволява да се преодолеят част от посочените проблеми. Към новите възможности на електронния речник се отнасят:
- Много по-изтънчените възможности за показване на съдържанието на речникова статия, включително възможността за частично показване по различни критерии (различни „проекции“ на речника), разнообразни графични средства, които не се използват в обикновените речници.
- Използване на различни лингвистични технологии за достъп до съдържанието, такива като морфологичен и синтактичен анализ, търсене в целия текст, разпознаване и синтез на звука и т.н.
От гледна точка на потребителя смисълът на реализация в електронния речник на всички тези технологии е, че може да се получи информация, която се съдържа някъде в недрата на речника и непосредствено отговаря на онова търсене, което е сформирано от потребителя в удобна за него форма. При традиционния подход минималната единица за достъп е лексемата: ние трябва да прочетем цялата статия, за да определим дали се съдържа в нея отговорът на нашето търсене. За такива речници като оксфордския това е сериозен проблем. Например глаголът set там има 400 само основни значения (и много от тях си имат подзначения).
Потребителят би искал речникът да локализира максимално релевантна информация. При това тук не говорим за автоматичен избор на преводен еквивалент (ако говорим за преводен речник). Спецификата на речниковия отговор е в това, че той дава много разнообразна информация за думата или словосъчетанието, а не просто преводно съответствие, предполага активен избор от потребителя от няколко възможни добре обосновани алтернативи. Но опитът да се реши този проблем с адекватна реакция от страна на речника към търсенето неизбежно се натъква на съпротивление от страната на самия речников материал, пренесен от книжния речник.
Новото противоречие
И така, ние виждаме ново противоречие: между новите езикови компютърни технологии и старото традиционно речниково съдържание, което не позволява да се възползваме от тези технологии напълно. С други думи, новите бъчви имат нужда от ново вино!
Източникът на това противоречие също е ясен: речникът е модел на езика, базиран на съвсем различни принципи от онези формални модели, които са в основата на тези технологии. И ако в областта на морфологията противоречието все още не е голямо, то в областта на синтаксиса и семантиката то е вече почти непреодолимо.
В действителност технологията на морфологичния анализ просто позволява да открием съответствието между изходната форма на думата от текста и многото лексеми (от речниковите ресурси), за които тази форма е възможна. Синтактичният анализ позволява да се направи същото за словосъчетанията, явяващи се отделни речникови ресурси. Но за всички тези технологии самото речниково съдържание е „непрозрачно“, игнорира се напълно. Да се надникне „вътре“ в речниковата статия позволява само търсенето в целия текст. Но този мощен инструмент работи с речниковото съдържимо като с текст на естествен език, което рязко ограничава възможностите му.
Първата и очевидна крачка, която вече са поели създателите на електронните речници, е първичното маркиране на речниковата статия, формализацията на онази вътрешна структура, която до една или друга степен се намира в добрите книжни речници.
В резултат на търсенето в целия текст могат да се различат например преводи, примери за използване и коментари, което принципно усилва възможностите му от гледна точка на потребителя. Но всички тези мерки са повърхностни. Ясно е, че задачата е описателната единица да е отделно лексикално значение и технологиите за анализ да могат да открият съответствието между изходното търсене и онези лексикални значения, които са релевантни за това търсене по синтактични и семантични критерии.
Задачата да се създаде речниково съдържание, което би позволило да направим единицата за анализ самостоятелно лексикално значение, а не морфологична лексема, ни се струва най-перспективното направление в компютърната лексикография. Ясно е, че за решаването ѝ е необходимо „синхронизиране“ на речниковите описания и формалните модели, използвани от технологиите за анализ. Това трябва да единно интегрално лексико-синтактико-семантично описание.
Към ЧАСТ 2