Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 05.06.2011, 21:00   #1
Timophey
 
Регистрация: 05.06.2011
Сообщений: 7
Радость разработка лексико-морфологического анализатора с эстонского на русский язык.

Здравствуйте!
Задача состоит в том, чтобы разработать двухоконный редактор в одном окне которого находится исходный текст на эстонском языке, а во втором результат работы программы – осмысленный подстрочный перевод на русском язык.

Прямой частотный словарь используется для наполнения самого словаря и лингвистической базы данных. Прямой частотный словарь в совокупности со словарем окружений позволяет выделить наиболее значимые слова эстонского языка, для которых необходим особый алгоритм обработки. С помощью словаря окружений в совокупности с правилами грамматики эстонского языка строится система признаков, приписываемая к каждому эстонскому слову (обороту). Каждый признак является набором подпрограмм. Заданный набор признаков позволяет выделять именные и глагольные группы входного языка. После выделения глагольных групп слова согласовываются между собой в роде числе и падеже.

В программе должна быть предусмотрена возможность работы в режиме командной строки через запуск исполнимого с двум параметрами: именем файла с исходным текстом и именем файла, в который будет записан результат перевода.
Система должна взаимодействовать с лингвистической базой.

Входными данными является текст на эстонском языке, а также инфор-мация из лингвистической база данных: словарь, таблицы парадигм (существительное, прилагательное, глагол), также таблиц предлогов.

Процесс получения перевода, можно разделить на несколько частей:
1. Ввод исходного текста – осуществляется двумя способами: по средствам клавиатуры, из файла.
2. Выделение слов из текста – выделяется предложение, конец предло-жения можно определить по знакам препинания: точка, вопросительный и восклицательный знаки. Убирая все остальные знаки, слова выделяются через пробел.
3. Анализ слов – включает в себя поиск корня совпадения машинной основы слова в исходном слове и словаре. Словарь должен состоять из шести полей:
- машинная основа;
- номер типовой парадигмы и смещение;
- набор признаков;
- машинная основа выходного языка (русского);
- номер типовой парадигмы и смещение выходного языка.
Разбирая окончание (предлоги) по номеру в таблицах окончаний (существительное, прилагательное, глагол) определяется правильность перевода. В словаре каждому машинному слову приписывается набор признаков. По набору признаков и номеру и типу окончания определяется номер и тип окончания русского перевода (т.е. определяется род, число, падеж и др.).


4. Перевод слов на русский язык - происходит подстановка признаков и номера смещения исходного слова к машинной основе выходного (русского) языка.

5. Вывод результата – происходит вывод результата в окно перевода или в указанный файл.

вот такое вот нехитрое задание, помогите справиться..
Timophey вне форума Ответить с цитированием
Старый 06.06.2011, 02:20   #2
Blondy
Участник клуба
 
Аватар для Blondy
 
Регистрация: 07.07.2009
Сообщений: 1,385
По умолчанию

Ну, во-первых, надо вначале решить проблему с наполнением. Вы прекрасно знаете, что реализация связного переводчика с эстонского на русский (не одного слова, а предложения или фразы), в силу особенностей языка, очень проблематична - иначе бы он давно был создан.

Все это возможно реализовать в сотрудничестве с лингивистом или филологом эстонского языка. Свинтить два текстовых окошка в форме (в какой среде Вы все это будете реализовывать, кстати?) - как раз самое простое....

Я уж не знаю, как Вы будете реализовывать синтаксический анализ - хорошо, с глаголами еще можно разобраться.... Но с существительными - где суффиксов очень много, и с трансформацией существительного в omastav-osastav тоже можно такого горя хватануть.. Плюс ко всему порядок слов в предложении - он очень сильно будет отличаться от принципов, которые используются в русском языке.

Это как Вам такая идея пришла в голову? Она конечно супер, но только подготовка самой базы займет массу времени. Может, у преподавателей Тартуского университета есть какие-то наработки, с которых можно хоть как-то начинать...
"Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan

Последний раз редактировалось Blondy; 06.06.2011 в 02:25.
Blondy вне форума Ответить с цитированием
Старый 06.06.2011, 02:23   #3
Blondy
Участник клуба
 
Аватар для Blondy
 
Регистрация: 07.07.2009
Сообщений: 1,385
По умолчанию

Вы для пробы попытайтесь, к примеру, для начала прописать реакцию на -ma/-da инфинитив.
и на глаголы в лицах и во времени....Чтобы уже были хоть какие-то наработки.
"Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan
Blondy вне форума Ответить с цитированием
Старый 08.06.2011, 05:29   #4
Timophey
 
Регистрация: 05.06.2011
Сообщений: 7
Радость

Всё это интересно, а ещё больше интересно, чем всё закончится.

Пока имеем что имеем:

-среда разработки Visual Studio;
-язык программирования C#;
-профессор языковед с кафедры лингвистики;
-двухоконный редактор текста;
-ООП.

Нужно сделать базу данных слов, и таблицы с парадигмами эстонского и русского языка, для начала. И думать как переводятся те или иные части речи.. Скорее всего будет класс Sentence от которого унаследуются все виды предложений(вопросительное, повествовательное, восклицательное). Также класс Word, и наследуемые типы, из набора объектов которых будет состоять каждое предложение. Каждое слово, при анализе и частично из базы приобретает набор признаков, и переводится по определенному алгоритму. Потом обрабатываются предложения, тоже по каким-то признакам. Ну, или что-то такое..

Последний раз редактировалось Timophey; 08.06.2011 в 05:34.
Timophey вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
C++ на русский язык fkorto Общие вопросы C/C++ 6 29.04.2010 15:12
Русский язык Sanek_ntsk Общие вопросы C/C++ 9 06.03.2008 16:50
Русский язык Elefanter Свободное общение 14 22.02.2008 16:23
Русский язык [Smarik] Паскаль, Turbo Pascal, PascalABC.NET 7 01.02.2008 22:58
РУССКИЙ ЯЗЫК vicdon Паскаль, Turbo Pascal, PascalABC.NET 3 19.11.2007 14:34