Продолжая использовать наш сайт, вы даете согласие на обработку файлов cookie, которые обеспечивают правильную работу сайта. Благодаря им мы улучшаем сайт!
Принять и закрыть

Читать, слущать книги онлайн бесплатно!

Электронная Литература.

Бесплатная онлайн библиотека.

Читать: Информационные технологии и лингвистика XXI века - Алла Викторовна Гуслякова на бесплатной онлайн библиотеке Э-Лит


Помоги проекту - поделись книгой:

• Текст песни популярной музыкальной группы;

• Репертуар Мариинского театра на текущую неделю;

• Характеристики последней модели мобильного телефона известной фирмы (по вашему выбору);

• Рецепт приготовления украинского борща с галушками;

• Долгосрочный прогноз погоды в Вашем регионе (не менее чем на 10 дней);

• Фотография любимого исполнителя современной песни;

• Примерная стоимость мультимедийного компьютера (прайс);

• Информация о вакансиях на должность преподавателя иностранных языков в Вашем регионе или городе;

• Гороскоп своего знака зодиака на текущий день;

По результатам поиска составьте письменный отчет в Word: представьте в документе найденный, скопированный и отформатированный материал.

Рекомендованная литература

1. Ашманов, И. С. Оптимизация и продвижение сайтов в поисковых системах / И.С. Ашманов, А.А. Иванов. – 3-е изд. – Москва: Питер, 2015 -463 с.

2. Байков В.Д. Интернет. Поиск информации. Продвижение сайтов /В.Д. Байков. – СПб.: БХВ-Петербург, 2000. – 288 с.

3. Колисниченко Д.Н. Поисковые системы и продвижение сайтов в Интернете /Д.Н. Колисниченко. – М.: Диалектика, 2007. – 272 с.

4. Основы информационной компетентности [Электронный ресурс]: учебное пособие: электронное издание/ М-во образования и науки Российской Федерации, Федеральное гос. бюджетное образовательное учреждение высш. проф. образования Красноярский гос. пед. ун-т им. В.П. Астафьева; сост.: Н.В. Васильева Красноярск: КГПУ им. В. П. Астафьева, 2013-1 электрон, опт. диск (CD-ROM)hh.;12 см – Загл. с этикетки диска.

5. Chu Н. Search engines for the World Wide Web: A comparative study and evaluation methodology (англ.) / H. Chu, M. Rosenthal // Proceedings of the Annual meeting – American society for information science: journal. -1996. – Vol. 33. – P. 127–135.

6. Eric W. B. Execution Performance Issues in Full-Text Information Retrieval. – University of Massachusetts Amherst: Computer Science Department, 1996. – 179 p. – (Technical Report 95–81).

7. Pariser E. The Filter Bubble: What The Internet Is Hiding From You. – NY: Penguin Group, 2011. – 257 p.

Глава 4

ИНТЕЛЛЕКТУАЛЬНЫЕ СИСТЕМЫИ ЛИНГВИСТИКА

Краткое описание: искусственный интеллект, компьютерная лингвистика, история ее развития и инструментарий.


Искусственный интеллект может оказаться благоразумней его создателя.

Дарий (философ)

I have noticed that even people who claim everything is predetermined and that we can do nothing to change it, look before they cross the road.

Stephen Hawking

В данной главе речь пойдет о компьютерной лингвистике (computational linguistics), которая постепенно и уверенно становится основной частью технологий искусственного интеллекта.[15]

Компьютерная лингвистика – это научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта, которое ставит своей целью использование математических моделей для описания естественных языков.

Компьютерная лингвистика частично пересекается с обработкой естественных языков. Однако обработка естественных языков акцентирует внимание не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Основными направлениями компьютерной лингвистики являются следующие:

1. Обработка естественного языка (англ, natural language processing; синтаксический, морфологический, семантический анализы текста).

2. Корпусная лингвистика, создание и использование электронных корпусов текстов

3. Создание электронных словарей, тезаурусов, онтологий (например, Lingvo). Словари используют для автоматического и автоматизированного переводов, проверки орфографии и т. д.

4. Автоматический перевод текстов посредством специализированных программ (см. приложение 2).

5. Автоматическое извлечение фактов из текста (извлечение информации; англ .fact extraction, text mining).

6. Автореферирование (англ, automatic text summarization). Эта функция включена, например, в Microsoft Word.

7. Построение систем управления знаниями (экспертные системы).

8. Создание вопросно-ответных систем (англ, question answering systems).

9. Оптическое распознавание символов (англ. OCR). Например, программа FineReader.

10. Автоматическое распознавание и синтез речи.

Кроме того, компьютерная лингвистика занимается решением следующих научных задач:

• Компьютерный анализ жанра и характеристик автора текста (более сложный, чем анализ сюжета);

• Компьютерный анализ блогосферы как источник знаний о языке (как вариант анализа корпуса текстов).

• Создание семантической паутины Интернета (формирование пространств знаний) и поиск знаний в ней.

Перечисляя все современные возможности компьютерной лингвистики, вернемся немного в историю формирования этой научной гуманитарной отрасли.

Компьютерная лингвистика родилась в январе 1954 года, когда в Джорджтаунском университете (США) был проведен первый в мире публичный эксперимент по машинному переводу. В то же самое времена под руководством крупнейшего математика и кибернетика Алексея Ляпунова начались активные работы по машинному переводу и в Москве. В созданную Ляпуновым группу вошли, в частности, тогдашние студенты и аспиранты, будущие «родители» отечественной компьютерной лингвистики Игорь Мельчук и Ольга Кулагина.

Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики».

Как особое научное направление компьютерная лингвистика начала оформляться в 1960-е годы. Хотя в России основа для успехов отечественных ученых в этой области закладывалась намного раньше. В 1920-х годах в Советской России велись интенсивные исследования по семиотике текста, в то время как широкомасштабное изучение семиотики во всем мире относится только к началу 1960-х годов (что в значительной мере связано с работами эмигрировавшего из России в 1920 году создателя структурной лингвистики Романа Якобсона). Стремительный прогресс семиотики стал основой для сближения лингвистики и математики на почве популярного в 1950-60-е годы математического структурализма. Идеи семиотики объединяли крупнейших ученых, среди которых математик Владимир Успенский и лингвист Вячеслав Иванов. Успехи формального подхода к описанию языка наглядно продемонстрировали возможность превращения чисто гуманитарной науки в логически строгую дисциплину.

Работы по кибернетике и, в частности, по структурной лингвистике, развернутые в конце 50-х годов под руководством академика Акселя Берга и члена-корреспондента АН СССР Алексея Ляпунова, вывели отечественную науку на передовые позиции. Уже в начале 1956 года в Институте прикладной математики (ИПМ) им. М. В. Келдыша заработала первая отечественная система машинного перевода с французского на русский язык. Система ФР-I давала перевод более высокого качества, чем у американских оппонентов. Математики рассматривали алгоритмы машинного перевода как частные случаи изучаемых в кибернетике алгоритмов перекодирования.

В то же самое время в 1957 году молодой американский исследователь Ноам Хомский публикует свой научный труд «Синтаксические структуры», положения которого до сих пор в компьютерной лингвистике, в частности в автоматической обработке текста, являются доминирующими. Работы Н. Хомского послужили началом рационалистического направления в компьютерной лингвистике. Исходная точка рационализма – компьютерные модели, независимые от языка. Модели лучше всего принимаются, когда они настолько просты, насколько это возможно. Здесь можно провести параллель с идеей Ф. Соссюра отделить язык от реального мира.

Ранние исследователи машинного перевода поняли, что машина не может перевести введенный текст без дополнительной помощи. Учитывая нехватку лингвистических теорий, особенно до 1957 года, выдвигается предложение предварительно редактировать тексты таким образом, чтобы отмечать в них трудности, например, чтобы разрешить омонимию. А поскольку системы машинного перевода не могли производить правильный результат, текст на целевом языке должен был быть отредактирован, чтобы стать понятным. Мысль о предварительном и последующем редактировании текста породила идею о том, что компьютер может быть использован для оказания помощи человеку в областях, с которыми компьютер не в состоянии пока справляться своими силами. В области машинного перевода компьютер может действовать как память-хранилище, освобождая человека от необходимости знать огромное количество слов. Израильский логик, лингвист и математик Иегошуа Бар-Хиллел (Bar Hillel) рассмотрел область исследований и пришел к выводу, что полностью автоматический высококачественный перевод (FAHQT – Full-Automatic High-Quality Translation) не возможен без знаний. Он также пришел к выводу, что многочисленные проекты, в которых перевод сводился главным образом к замене слов одного языка на слова другого, были изначально обречены на провал даже с учетом многочисленных заплаток и расширений. Причина проста: переводчик-человек добавляет свое понимание документа, который нужно перевести, к своим знаниям о структурах языка, с которым он работает. Там остаются некоторые конструкции, которые требуют понимания документа или пути, по которому передаются представления о мире и определенной предметной области. Во многих языках трудно понять, что имеет в виду говорящий предложения, соответствующего типу:

«Она надела красные туфли и чулки».

Сразу же возникает вопрос о цвете чулок. Были ли они тоже красными? Во многих случаях это не имеет значения, но если система, например, анализирует свидетельские показания, значение таких деталей может существенно возрастать.

Комментарии И. Бар-Хиллеля оказали долговременное влияние на восприятие практичности систем автоматической обработки текстов и машинного перевода, в частности. Постепенно финансирование проектов в области компьютерной лингвистики в США были приостановлены.

В то же самое время в СССР компьютерная лингвистика стремительно развивалась, особенно в 1960-е годы. Однако в следующем десятилетии работы в области машинного перевода оказались под жестким государственным контролем. В отличие от атомного проекта (время уже было другое), этот контроль не сконцентрировал силы отечественных ученых, а наоборот, способствовал прекращению или замедлению многих работ. Исследования по машинному переводу в ИПМ им. М. В. Келдыша тоже практически прекратились.

В США период с 1966 по 1980 годы характеризуется разработками систем SHRDLU, LUNAR и LIFER/LADDER.

Система SHRDLU[16] Терри Винограда (Terry Winograd) имитировала поведение робота, манипулировавшего блоками на поверхности стола. Она могла управляться инструкциями, такими как «Pick up the red pyramid”(«Возьми красную пирамиду») и отвечать на вопросы типа «What does the blue box contain?»(«Что содержит голубой блок?»). Появление SHRDLU имело большое значение, так как оно показало, что синтаксис, семантика и порождение выводов о мире могут быть скомбинированы так, чтобы создать систему, которая понимает естественный язык. Это была очень ограниченная система: она могла управляться только очень небольшим числом предложений. Более того, она могла понимать язык, касающийся только настоящего момента и очень небольшой части реального мира: мира блоков. Эффект, который она производила, мог быть достигнут только в весьма ограниченной области и попытка расширить систему неизбежно привела бы к снижению эффективности.

Система LUNAR был естественно-языковым интерфейсом к базе данных, использовавшим и расширенную сеть переходов[17] и процедурную семантику американского исследователя У.А. Вудса[18]. Система унаследовало свое имя от базы данных, содержавшей информацию (ATN – Augmented Transition Network) об образцах лунных скальных пород. Система была продемонстрирована на научной конференции по Луне в 1971 году. Ее эффективность казалась весьма впечатляющей: она сумела справиться с 78 % запросов без ошибок, причем эта цифра возросла до 90 % после исправления ошибок. Впрочем, цифры эти не должны были вводить в заблуждение, ведь не случайно система не стала предметом интенсивной эксплуатации: ученый, стремящийся использовать систему для своих повседневных рабочих нужд, быстро бы обнаружил, что ему нужны запросы, выходящие за пределы возможности системы.

Система LIFER/LADDER была одной из наиболее впечатляющих систем автоматизированной обработки текстов. Она была сконструирована как естественно-языковой интерфейс к базе данных кораблей ВМС США. Она использовала семантическую грамматику, в которой функционировали метки типа «КОРАБЛЬ» или «ХАРАКТЕРИСТИКА» вместо синтаксических меток по типу «существительное» или «глагол». Это означало, что система, как и SHRDLU, была тесно привязана к области, для которой была изначально сконструирована. Тем не менее, использование разработчиками семантической грамматики дало ряд преимуществ в разработке дружественного к пользователю интерфейса по сравнению с SHRDLU. Например, в систему была включена возможность определения новых словарей, определения парафразов (например, чтобы сделать возможным быстрый доступ), возможность обработки незаконченного или неполного ввода. Эти свойства сами по себе были очень впечатляющими, но исследовательская группа приступила к программе строгой оценки и опубликовала доклад, ставший настоящим сокровищем для тех, кто стремился глубоко изучать автоматическую обработку текстов. Одним из выводов доклада было то, что люди быстро подстраивались под машину и пытались использовать очень неполные предложения, заменяя нормальный естественный язык подобием неформального языка запросов.

С середины семидесятых годов во всем мире наблюдается устойчивое возрастание интереса к машинному переводу. В Москве в 1974 в институте ИНФОРМ-ЭЛЕКТРО начались работы по созданию системы франко-русского перевода (ЭТАП-1) и системы англо-русского перевода (ЭТАП-2). В том же году создается Всесоюзный центр переводов (ВЦП), в котором ряд научных коллективов работает над системами машинного перевода – АМПАР (англо-русский перевод), НЕРПА (немецко-русский перевод) и ФРАП (французско-русский перевод). С этого времени промышленные системы машинного перевода разрабатываются и широко используются в США, Европе и Японии.

Семантические системы 1970-х совершенно сознательно избегали использования синтаксической обработки, некоторые пытались вообще очистить от синтаксической информации свои системы. Синтаксис всегда рассматривался большинством лингвистов-теоретиков как основополагающая часть человеческого языка. Инженеры же увидели в синтаксисе полезный способ разрешения омонимии с относительно небольшим объемом необходимых знаний (по крайней мере, по сравнению с объемом знаний, требуемым для этой цели семантической обработкой). Теоретические лингвисты также выступали критически против всеобщего признания трансформационной (порождающей) грамматики Н. Хомского.

Результатом стали грамматики, оперирующие более детализированными синтаксическими характеристиками объектов информации (например, часть речи – существительное, лицо – третье, время – прошедшее, число – множественное и т. д.), а не одноатомные категории (глагол, существительное, прилагательное и т. д.). Эти грамматики могли дать гораздо более точный анализ предложения. С другой стороны, для детализированных характеристик необходимы гораздо более сложные методы сопоставления в поисковых алгоритмах. Отсюда такие грамматики получили название унификационных, так как сопоставление характеристик могло быть достигнуто посредством метода унификации.

Есть несколько грамматик, которые используют унификацию как главную операцию для комбинирования информации. Из них Грамматика Обобщенной Фразовой Структуры (GPSG – Generalized Phrase Structure Grammar), была одно время очень популярной, но, видимо, самым широко используемым формализмом стала Грамматика Лексических Функционалов (EFG – Eexical Functional Grammar).

В 80-е годы в большой мере формируется фундамент современного подхода к структуре машинного перевода. Благодаря росту производительности и развитию возможностей компьютеров, разработка систем машинного перевода стала реальностью. Разработка первых систем была основана на лингвистических знаниях. Но лингвистике не удалось покрыть широкий диапазон актуальных феноменов использования языка. Анализ производился для ограниченных случаев. В 80-е годы ученые инициировали разработки в области описания грамматик. Грамматики, основанные на формальных, правильно написанных текстах, не имели полной практической ценности. Только про 60 % грамматических правил, выработанных лингвистами, можно было сказать, что они работают на практике. В реальности, различные варианты в языке были слишком многочисленны.

В начале 90-х годов IBM выпустила систему статистического машинного перевода (SMT-statistical machine translation). Данная система обнаруживала ряд английских и французских выражений, которые не могли бы быть распознаны вручную, посредством «чистой» методологии машинной трансляции. Базовыми характеристиками данной системы являлись большой объем памяти и высокая производительность компьютеров, большой объем качественных пар слов для перевода (обучающие данные).

Основным вопросом, вставшим перед компьютерной лингвистикой с 90-х годов, когда основным направлением стала статистическая обработка текстов, оказалась проблема получения достаточно большого набора реальных лингвистических данных, чтобы произвести внятный анализ или автоматически построить грамматику. Во многих случаях у исследователей недостает данных для анализа лингвистических феноменов в результате разбросанного характера данных. Например, когда они пытаются определить вероятность для каждой из пар последовательно идущих терминов, они не могут найти лингвистических данных с какими-то из анализируемых пар, хотя сочетания подобного рода являются правильными с точки зрения языка. Один из подходов состоит в улучшении точности приближения путем статистической обработки небольших рабочих образцов.

В реальности, исследователям приходится работать с низкокачественными данными в сопоставляемых для перевода парах. Когда данные не могут быть сопоставлены, используются двуязыковые корпуса в той же предметной области. Как минимум для решения проблемы требуются словари для базовых лексиконов и быстрые компьютеры с большим объемом памяти. При этом парадигмы машинного обучения выглядят на сегодняшний день мало подходящими для целей автоматической обработки текстов.

На сегодняшний день максимальную долю российского рынка систем машинного перевода составляют продукты компаний PROMT и ABBYY (Lingvo). В основу фундамента технологии перевода PROMT были заложены формализм расширенных сетей переходов (ATN – Augmented Transition Network) и использование двух «переводческих технологий» в одном продукте – технологии машинного перевода (Machine Translation) и технологии Translation Memory. Эффект от взаимного применения двух технологий позволяет обеспечить практически 100 %-ное качество перевода при работе с повторяющимися текстами.

Программы, разработанные на основе технологии машинного перевода осуществляют связный перевод текста, используя определенные лингвистические алгоритмы. Сначала система анализирует структурные элементы входного предложения, затем преобразует его в соответствии со структурой языка и синтезирует окончательный вариант. Кроме того, для повышения качества перевода программа должна уметь распознавать устойчивые выражения, а также иметь большой словарный запас. Для перевода тематических текстов обычно требуется подключать специализированные словари. С помощью систем с технологией машинного перевода можно быстро получить черновой вариант перевода, отражающий общий смысл текста.

Во второй лекции нашей работы, посвященной описанию разнообразных программ компьютерного перевода, технология Translation Memory была подробно описана. Повторимся, что память переводов (ТМ) использует базу данных, где хранятся выполненные профессионалом переводы в виде сегментов текста оригинал-перевод. Эта технология базируется на сравнении документа, который нужно перевести, с данными, хранящимися в предварительно созданной базе переводов. Память переводов работает по принципу накопления: в процессе перевода в базе сохраняется исходный сегмент (предложение) и его перевод. При обработке нового текста, поступившего на перевод, система сравнивает каждое его предложение с сохраненными в базе сегментами. Если идентичный или подобный исходному сегмент найден, то перевод этого сегмента отображается вместе с переводом и указанием совпадения в процентах. Слова и фразы, которые отличаются от сохраненного текста, выделяются подсветкой. Таким образом, переводчику остается перевести только новые сегменты и отредактировать частично совпадающие. Каждое изменение или новый перевод сохраняются в базе. В результате необходимость в повторном переводе одного и того же предложения отпадает.

Современная компьютерная лингвистика является междисциплинарной наукой. Человека окружает очень большое количество цифровой информации; существует множество бизнес-проектов, успех которых зависит от обработки информации, эти проекты могут относиться к сфере маркетинга, политики, экономики и т. д. И очень важно уметь обращаться с этой информацией эффективно – главное не только быстрота обработки информации, но и легкость, с которой пользователь способен извлекать необходимые ему данные и создавать из них цельную картину.

Компьютерная лингвистика как особая прикладная дисциплина выделяется, прежде всего, по инструменту – т. е. по использованию компьютерных средств обработки языковых данных. Поскольку компьютерные программы, моделирующие те или иные аспекты функционирования языка, могут использовать самые различные средства программирования, то об общем понятийном аппарате компьютерной лингвистики говорить вроде бы не приходится. Однако это не так. Существуют общие принципы компьютерного моделирования мышления, которые так или иначе реализуются в любой компьютерной модели. В их основе лежит теория знаний, первоначально разрабатывавшаяся в области искусственного интеллекта, а в дальнейшем ставшая одним из разделов когнитивной науки. Важнейшими понятийными категориями компьютерная лингвистика являются такие структуры знаний, как «фреймы» (понятийные, или, как принято говорить, концептуальные структуры для декларативного представления знаний о типизированной тематически единой ситуации), «сценарии» (концептуальные структуры для процедурного представления знаний о стереотипной ситуации или стереотипном поведении), «планы» (структуры знаний, фиксирующие представления о возможных действиях, ведущих к достижению определенной цели). Тесно связано с категорией фрейма понятие «сцена». Категория сцены преимущественно используется в литературе по компьютерной лингвистике как обозначение концептуальной структуры для декларативного представления актуализованных в речевом акте и выделенных языковыми средствами (лексемами, синтаксическими конструкциями, грамматическими категориями и пр.) ситуаций и их частей.

Определенным образом организованный набор структур знаний формирует «модель мира» когнитивной системы и ее компьютерной модели. В системах искусственного интеллекта модель мира образует особый блок, в который в зависимости от выбранной архитектуры могут входить общие знания о мире (в виде простых пропозиций типа «зимой холодно» или в виде правил продукций «если на улице идет дождь, то надо надеть плащ или взять зонтик»), некоторые специфические факты («Самая высокая вершина в мире – Эверест»), а также ценности и их иерархии, иногда выделяемые в особый «аксиологический блок».

Большинство элементов понятий инструментария компьютерной лингвистики омонимично: они одновременно обозначают некоторые реальные сущности когнитивной системы человека и способы представления этих сущностей, используемые при их теоретическом описании и моделировании. Иными словами, элементы понятийного аппарата компьютерной лингвистики имеют онтологический и инструментальный аспекты. Например, в онтологическом аспекте разделение декларативных и процедурных знаний соответствует различным типам знаний, имеющимся у человека – так называемым знаниям ЧТО (декларативным; таково, например, знание почтового адреса какого-либо NN), с одной стороны, и знаниям КАК (процедурным; таково, например, знание, позволяющее найти квартиру этого NN, даже не зная ее формального адреса) – с другой. В инструментальном аспекте знание может быть воплощено в совокупности дескрипций (описаний), в наборе данных, с одной стороны, и в алгоритме, инструкции, которую выполняет компьютерная или какая-либо другая модель когнитивной системы, с другой.

Одна из ключевых задач современной компьютерной лингвистики – это совершенствование структуры семантических сетей, когда поиск происходит не просто по совпадению слов, а по смыслу. Ведь все сайты, так или иначе, размечены по семантике. Это может быть полезно, например, для полицейских или медицинских отчетов, которые пишутся каждый день. Анализ внутренних связей дает много нужной информации, а читать и считать это вручную невероятно долго[19].

С другой стороны, компьютерная лингвистика занимается, например, созданием искусственных текстов. Например, существуют механизмы генерации текстов на темы, на которые человеку писать довольно-таки скучно: изменение цен на недвижимость, прогноз погоды, отчет о футбольных матчах. Заказ подобных текстов стоит немалых денежных затрат, но написаны компьютерные тексты на данные темы связным человеческим языком.

В современной России одним из наиболее успешных проектов, реализованных в области компьютерной лингвистике, является Национальный корпус русского языка (http://ruscorpora.ru/). Это один из лучших национальных корпусов в мире, который стремительно развивается и открывает невероятные возможности по научным и прикладным исследованиям. В современном англоязычном мире большим достижением компьютерной лингвистики является концептуальная сеть Ргатепе![20], где формально представлены все возможные связи какого-то конкретного слова с другими словами. Например, есть слово «летать» – кто может летать, куда, с каким предлогом употребляется это слово, с какими словами оно сочетается и так далее. Этот ресурс помогает связать язык с реальной жизнью, то есть проследить, как ведет себя конкретное слово на уровне морфологии и синтаксиса.

В качестве послесловия необходимо отметить, что пока не известно, какие возможности даст человечеству надвигающаяся новая компьютерная революция. Однако можно надеяться, что компьютерная лингвистика перейдет на совершенно новую технологическую базу, основа которой закладывается в наше время, в эпоху научных разработок в области искусственного интеллекта.

Вопросы для самоконтроля

1. Каковы основные задачи, решаемые современной компьютерной лингвистикой?

2. Что такое искусственный интеллект?

3. Перечислить основные этапы становления и развития компьютерной лингвистики.

4. Каково приоритетное направление развития современной компьютерной лингвистике?

5. Что такое Национальный корпус русского языка и Framenet?

Задания для самостоятельного исследования

Подготовить доклад по одной из ниже перечисленных тем.

1. Компьютерная лингвистика как междисциплинарное научное направление.

2. Когнитивный инструментарий компьютерной лингвистики. «Фреймы», «сценарии» и «планы».

3. Компьютерное обеспечение представления знаний.

4. Естественные и искусственные языки. Виды искусственных языков.

5. Автоматизированный анализ: распознавание и синтез устной и письменной речи.

6. Морфологический анализ, проблемы семантического анализа, синтаксический анализ.

7. Лингвистические базы данных: модели и типы данных. Создания общих искусственных языков для представления информации.

8. Компьютерная лексикография как одно из направлений прикладной лингвистики. Словарные процессоры.

9. Основные понятия структуры словаря: словник, словарная статья, грамматические, стилистические пометы; иллюстративный материал.

10. Типология электронных словарей.

11. Тезаурусы и терминологические словари.

12. Компьютерные технологии составления и эксплуатации словарей.



Поделиться книгой:

На главную
Назад