|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
05.06.2011, 21:00 | #1 |
Регистрация: 05.06.2011
Сообщений: 7
|
разработка лексико-морфологического анализатора с эстонского на русский язык.
Здравствуйте!
Задача состоит в том, чтобы разработать двухоконный редактор в одном окне которого находится исходный текст на эстонском языке, а во втором результат работы программы – осмысленный подстрочный перевод на русском язык. Прямой частотный словарь используется для наполнения самого словаря и лингвистической базы данных. Прямой частотный словарь в совокупности со словарем окружений позволяет выделить наиболее значимые слова эстонского языка, для которых необходим особый алгоритм обработки. С помощью словаря окружений в совокупности с правилами грамматики эстонского языка строится система признаков, приписываемая к каждому эстонскому слову (обороту). Каждый признак является набором подпрограмм. Заданный набор признаков позволяет выделять именные и глагольные группы входного языка. После выделения глагольных групп слова согласовываются между собой в роде числе и падеже. В программе должна быть предусмотрена возможность работы в режиме командной строки через запуск исполнимого с двум параметрами: именем файла с исходным текстом и именем файла, в который будет записан результат перевода. Система должна взаимодействовать с лингвистической базой. Входными данными является текст на эстонском языке, а также инфор-мация из лингвистической база данных: словарь, таблицы парадигм (существительное, прилагательное, глагол), также таблиц предлогов. Процесс получения перевода, можно разделить на несколько частей: 1. Ввод исходного текста – осуществляется двумя способами: по средствам клавиатуры, из файла. 2. Выделение слов из текста – выделяется предложение, конец предло-жения можно определить по знакам препинания: точка, вопросительный и восклицательный знаки. Убирая все остальные знаки, слова выделяются через пробел. 3. Анализ слов – включает в себя поиск корня совпадения машинной основы слова в исходном слове и словаре. Словарь должен состоять из шести полей: - машинная основа; - номер типовой парадигмы и смещение; - набор признаков; - машинная основа выходного языка (русского); - номер типовой парадигмы и смещение выходного языка. Разбирая окончание (предлоги) по номеру в таблицах окончаний (существительное, прилагательное, глагол) определяется правильность перевода. В словаре каждому машинному слову приписывается набор признаков. По набору признаков и номеру и типу окончания определяется номер и тип окончания русского перевода (т.е. определяется род, число, падеж и др.). 4. Перевод слов на русский язык - происходит подстановка признаков и номера смещения исходного слова к машинной основе выходного (русского) языка. 5. Вывод результата – происходит вывод результата в окно перевода или в указанный файл. вот такое вот нехитрое задание, помогите справиться.. |
06.06.2011, 02:20 | #2 |
Участник клуба
Регистрация: 07.07.2009
Сообщений: 1,385
|
Ну, во-первых, надо вначале решить проблему с наполнением. Вы прекрасно знаете, что реализация связного переводчика с эстонского на русский (не одного слова, а предложения или фразы), в силу особенностей языка, очень проблематична - иначе бы он давно был создан.
Все это возможно реализовать в сотрудничестве с лингивистом или филологом эстонского языка. Свинтить два текстовых окошка в форме (в какой среде Вы все это будете реализовывать, кстати?) - как раз самое простое.... Я уж не знаю, как Вы будете реализовывать синтаксический анализ - хорошо, с глаголами еще можно разобраться.... Но с существительными - где суффиксов очень много, и с трансформацией существительного в omastav-osastav тоже можно такого горя хватануть.. Плюс ко всему порядок слов в предложении - он очень сильно будет отличаться от принципов, которые используются в русском языке. Это как Вам такая идея пришла в голову? Она конечно супер, но только подготовка самой базы займет массу времени. Может, у преподавателей Тартуского университета есть какие-то наработки, с которых можно хоть как-то начинать...
"Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan
Последний раз редактировалось Blondy; 06.06.2011 в 02:25. |
06.06.2011, 02:23 | #3 |
Участник клуба
Регистрация: 07.07.2009
Сообщений: 1,385
|
Вы для пробы попытайтесь, к примеру, для начала прописать реакцию на -ma/-da инфинитив.
и на глаголы в лицах и во времени....Чтобы уже были хоть какие-то наработки.
"Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan
|
08.06.2011, 05:29 | #4 |
Регистрация: 05.06.2011
Сообщений: 7
|
Всё это интересно, а ещё больше интересно, чем всё закончится.
Пока имеем что имеем: -среда разработки Visual Studio; -язык программирования C#; -профессор языковед с кафедры лингвистики; -двухоконный редактор текста; -ООП. Нужно сделать базу данных слов, и таблицы с парадигмами эстонского и русского языка, для начала. И думать как переводятся те или иные части речи.. Скорее всего будет класс Sentence от которого унаследуются все виды предложений(вопросительное, повествовательное, восклицательное). Также класс Word, и наследуемые типы, из набора объектов которых будет состоять каждое предложение. Каждое слово, при анализе и частично из базы приобретает набор признаков, и переводится по определенному алгоритму. Потом обрабатываются предложения, тоже по каким-то признакам. Ну, или что-то такое.. Последний раз редактировалось Timophey; 08.06.2011 в 05:34. |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
C++ на русский язык | fkorto | Общие вопросы C/C++ | 6 | 29.04.2010 15:12 |
Русский язык | Sanek_ntsk | Общие вопросы C/C++ | 9 | 06.03.2008 16:50 |
Русский язык | Elefanter | Свободное общение | 14 | 22.02.2008 16:23 |
Русский язык | [Smarik] | Паскаль, Turbo Pascal, PascalABC.NET | 7 | 01.02.2008 22:58 |
РУССКИЙ ЯЗЫК | vicdon | Паскаль, Turbo Pascal, PascalABC.NET | 3 | 19.11.2007 14:34 |