разработка лексико-морфологического анализатора с эстонского на русский язык. - Помощь студентам

Timophey · 05.06.2011, 21:00

Здравствуйте!
Задача состоит в том, чтобы разработать двухоконный редактор в одном окне которого находится исходный текст на эстонском языке, а во втором результат работы программы – осмысленный подстрочный перевод на русском язык.

Прямой частотный словарь используется для наполнения самого словаря и лингвистической базы данных. Прямой частотный словарь в совокупности со словарем окружений позволяет выделить наиболее значимые слова эстонского языка, для которых необходим особый алгоритм обработки. С помощью словаря окружений в совокупности с правилами грамматики эстонского языка строится система признаков, приписываемая к каждому эстонскому слову (обороту). Каждый признак является набором подпрограмм. Заданный набор признаков позволяет выделять именные и глагольные группы входного языка. После выделения глагольных групп слова согласовываются между собой в роде числе и падеже.

В программе должна быть предусмотрена возможность работы в режиме командной строки через запуск исполнимого с двум параметрами: именем файла с исходным текстом и именем файла, в который будет записан результат перевода.
Система должна взаимодействовать с лингвистической базой.

Входными данными является текст на эстонском языке, а также инфор-мация из лингвистической база данных: словарь, таблицы парадигм (существительное, прилагательное, глагол), также таблиц предлогов.

Процесс получения перевода, можно разделить на несколько частей:
1. Ввод исходного текста – осуществляется двумя способами: по средствам клавиатуры, из файла.
2. Выделение слов из текста – выделяется предложение, конец предло-жения можно определить по знакам препинания: точка, вопросительный и восклицательный знаки. Убирая все остальные знаки, слова выделяются через пробел.
3. Анализ слов – включает в себя поиск корня совпадения машинной основы слова в исходном слове и словаре. Словарь должен состоять из шести полей:
- машинная основа;
- номер типовой парадигмы и смещение;
- набор признаков;
- машинная основа выходного языка (русского);
- номер типовой парадигмы и смещение выходного языка.
Разбирая окончание (предлоги) по номеру в таблицах окончаний (существительное, прилагательное, глагол) определяется правильность перевода. В словаре каждому машинному слову приписывается набор признаков. По набору признаков и номеру и типу окончания определяется номер и тип окончания русского перевода (т.е. определяется род, число, падеж и др.).

4. Перевод слов на русский язык - происходит подстановка признаков и номера смещения исходного слова к машинной основе выходного (русского) языка.

5. Вывод результата – происходит вывод результата в окно перевода или в указанный файл.

вот такое вот нехитрое задание, помогите справиться..

Blondy · 06.06.2011, 02:20

Ну, во-первых, надо вначале решить проблему с наполнением. Вы прекрасно знаете, что реализация связного переводчика с эстонского на русский (не одного слова, а предложения или фразы), в силу особенностей языка, очень проблематична - иначе бы он давно был создан.

Все это возможно реализовать в сотрудничестве с лингивистом или филологом эстонского языка. Свинтить два текстовых окошка в форме (в какой среде Вы все это будете реализовывать, кстати?) - как раз самое простое....

Я уж не знаю, как Вы будете реализовывать синтаксический анализ - хорошо, с глаголами еще можно разобраться.... Но с существительными - где суффиксов очень много, и с трансформацией существительного в omastav-osastav тоже можно такого горя хватануть.. Плюс ко всему порядок слов в предложении - он очень сильно будет отличаться от принципов, которые используются в русском языке.

Это как Вам такая идея пришла в голову? Она конечно супер, но только подготовка самой базы займет массу времени. Может, у преподавателей Тартуского университета есть какие-то наработки, с которых можно хоть как-то начинать...

Blondy · 06.06.2011, 02:23

Вы для пробы попытайтесь, к примеру, для начала прописать реакцию на -ma/-da инфинитив.
и на глаголы в лицах и во времени....Чтобы уже были хоть какие-то наработки.

Timophey · 08.06.2011, 05:29

Всё это интересно, а ещё больше интересно, чем всё закончится.

Пока имеем что имеем:

-среда разработки Visual Studio;
-язык программирования C#;
-профессор языковед с кафедры лингвистики;
-двухоконный редактор текста;
-ООП.

Нужно сделать базу данных слов, и таблицы с парадигмами эстонского и русского языка, для начала. И думать как переводятся те или иные части речи.. Скорее всего будет класс Sentence от которого унаследуются все виды предложений(вопросительное, повествовательное, восклицательное). Также класс Word, и наследуемые типы, из набора объектов которых будет состоять каждое предложение. Каждое слово, при анализе и частично из базы приобретает набор признаков, и переводится по определенному алгоритму. Потом обрабатываются предложения, тоже по каким-то признакам. Ну, или что-то такое..

05.06.2011, 21:00	#1
Timophey Регистрация: 05.06.2011 Сообщений: 7	разработка лексико-морфологического анализатора с эстонского на русский язык. Здравствуйте! Задача состоит в том, чтобы разработать двухоконный редактор в одном окне которого находится исходный текст на эстонском языке, а во втором результат работы программы – осмысленный подстрочный перевод на русском язык. Прямой частотный словарь используется для наполнения самого словаря и лингвистической базы данных. Прямой частотный словарь в совокупности со словарем окружений позволяет выделить наиболее значимые слова эстонского языка, для которых необходим особый алгоритм обработки. С помощью словаря окружений в совокупности с правилами грамматики эстонского языка строится система признаков, приписываемая к каждому эстонскому слову (обороту). Каждый признак является набором подпрограмм. Заданный набор признаков позволяет выделять именные и глагольные группы входного языка. После выделения глагольных групп слова согласовываются между собой в роде числе и падеже. В программе должна быть предусмотрена возможность работы в режиме командной строки через запуск исполнимого с двум параметрами: именем файла с исходным текстом и именем файла, в который будет записан результат перевода. Система должна взаимодействовать с лингвистической базой. Входными данными является текст на эстонском языке, а также инфор-мация из лингвистической база данных: словарь, таблицы парадигм (существительное, прилагательное, глагол), также таблиц предлогов. Процесс получения перевода, можно разделить на несколько частей: 1. Ввод исходного текста – осуществляется двумя способами: по средствам клавиатуры, из файла. 2. Выделение слов из текста – выделяется предложение, конец предло-жения можно определить по знакам препинания: точка, вопросительный и восклицательный знаки. Убирая все остальные знаки, слова выделяются через пробел. 3. Анализ слов – включает в себя поиск корня совпадения машинной основы слова в исходном слове и словаре. Словарь должен состоять из шести полей: - машинная основа; - номер типовой парадигмы и смещение; - набор признаков; - машинная основа выходного языка (русского); - номер типовой парадигмы и смещение выходного языка. Разбирая окончание (предлоги) по номеру в таблицах окончаний (существительное, прилагательное, глагол) определяется правильность перевода. В словаре каждому машинному слову приписывается набор признаков. По набору признаков и номеру и типу окончания определяется номер и тип окончания русского перевода (т.е. определяется род, число, падеж и др.). 4. Перевод слов на русский язык - происходит подстановка признаков и номера смещения исходного слова к машинной основе выходного (русского) языка. 5. Вывод результата – происходит вывод результата в окно перевода или в указанный файл. вот такое вот нехитрое задание, помогите справиться..

06.06.2011, 02:20	#2
Blondy Участник клуба Регистрация: 07.07.2009 Сообщений: 1,385	Ну, во-первых, надо вначале решить проблему с наполнением. Вы прекрасно знаете, что реализация связного переводчика с эстонского на русский (не одного слова, а предложения или фразы), в силу особенностей языка, очень проблематична - иначе бы он давно был создан. Все это возможно реализовать в сотрудничестве с лингивистом или филологом эстонского языка. Свинтить два текстовых окошка в форме (в какой среде Вы все это будете реализовывать, кстати?) - как раз самое простое.... Я уж не знаю, как Вы будете реализовывать синтаксический анализ - хорошо, с глаголами еще можно разобраться.... Но с существительными - где суффиксов очень много, и с трансформацией существительного в omastav-osastav тоже можно такого горя хватануть.. Плюс ко всему порядок слов в предложении - он очень сильно будет отличаться от принципов, которые используются в русском языке. Это как Вам такая идея пришла в голову? Она конечно супер, но только подготовка самой базы займет массу времени. Может, у преподавателей Тартуского университета есть какие-то наработки, с которых можно хоть как-то начинать... "Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan Последний раз редактировалось Blondy; 06.06.2011 в 02:25.

06.06.2011, 02:23	#3
Blondy Участник клуба Регистрация: 07.07.2009 Сообщений: 1,385	Вы для пробы попытайтесь, к примеру, для начала прописать реакцию на -ma/-da инфинитив. и на глаголы в лицах и во времени....Чтобы уже были хоть какие-то наработки. "Все мы жаждем чудес. Чисто человеческое свойство." Carl Sagan

08.06.2011, 05:29	#4
Timophey Регистрация: 05.06.2011 Сообщений: 7	Всё это интересно, а ещё больше интересно, чем всё закончится. Пока имеем что имеем: -среда разработки Visual Studio; -язык программирования C#; -профессор языковед с кафедры лингвистики; -двухоконный редактор текста; -ООП. Нужно сделать базу данных слов, и таблицы с парадигмами эстонского и русского языка, для начала. И думать как переводятся те или иные части речи.. Скорее всего будет класс Sentence от которого унаследуются все виды предложений(вопросительное, повествовательное, восклицательное). Также класс Word, и наследуемые типы, из набора объектов которых будет состоять каждое предложение. Каждое слово, при анализе и частично из базы приобретает набор признаков, и переводится по определенному алгоритму. Потом обрабатываются предложения, тоже по каким-то признакам. Ну, или что-то такое.. Последний раз редактировалось Timophey; 08.06.2011 в 05:34.

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
C++ на русский язык	fkorto	Общие вопросы C/C++	6	29.04.2010 15:12
Русский язык	Sanek_ntsk	Общие вопросы C/C++	9	06.03.2008 16:50
Русский язык	Elefanter	Свободное общение	14	22.02.2008 16:23
Русский язык	[Smarik]	Паскаль, Turbo Pascal, PascalABC.NET	7	01.02.2008 22:58
РУССКИЙ ЯЗЫК	vicdon	Паскаль, Turbo Pascal, PascalABC.NET	3	19.11.2007 14:34