|
Текстологические методы
Структура второго класса методов извлечения знаний приведена ниже.
- 2.1. Обработка текстов на ОЕЯ.
- 2.1.1. Анализ специализированной документации.
- 2.1.2. Анализ специализированных инструктивных и нормативных материалов (должностных и производственных инструкций, методик и др.).
- 2.2. Обработка текстов на ЕЯ.
- 2.2.1. Анализ учебной литературы.
- 2.2.2. Анализ научной и научно-практической литературы.
- 2.2.3. Анализ периодических изданий.
- 2.2.4. Анализ технической документации.
Автоматизация построения гипертекста
Автоматизированное извлечение знаний из текста
-
 Выделяет в исходном тексте слово и фразы и
Проверяет выполнение принятиых ограничений
-
Блок морфологического анализа
Выделяет из слова неизменные части и приписывает словам ряд грамматических характеристик.
-
Программная реализация проедпроцессора и блока морфологического анализа обычно не вызывает трудности, за исключением для предредактора – сложноподчиненные предложения, для морфологического анализа – случаи морфологической амонимии.
-
Блок синтаксического анализа – строится дерево синтаксического разбора, используя базу синтаксических правил. В рамках этого блока решается проблема морфологической амонимии. Реализация блока как правило не вызывает трудностей.
-
Цель семантического анализа состоит в определении для каждого слова и фразы некоторых смысловых характеристик. Проблема в реализации блока возникает из-за семантической неоднозначности слов. Для снятия этой неоднозначности используются тезаурусные статьи.
-
Семантический анализ . трудности реализации этого этапа связаны с большими размерами требуемых семантических сетей и многовариантностью анализа.
-
Перевод анализируемого текста во внутреннее представление. Как правило для этих целей используется семантическая сеть. Не вызывает трудностей.
-
Внутреннее представление является основой для реализации понимания ЕЯ- текста.
|