|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
29.08.2010, 00:47 | #1 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
Программа на matlab за денежное вознаграждение
короче у меня проблемка с курсовой работой:есть теоретическая часть,но не могу осилить практическую часть.программа нужна на matlab.суть всей работы заключается в поиске дубликатов текстовых файлов.имеется массив данных и с ее помощью нужно сравнить тексты на сколько близкими они являются. программа строится в два этапа.на первом мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1 либо другие способы tf,tf-idf....и тд.потом с помощью различных мер мы сравниваем полученные значения(мера Жаккарда,косинусная мера...).полученное значение от 0 до 1.чем ближе значение к 1 тем более близкие наши тексты(один-дубликат второго).по деньгам думаю 2-2.5к. Только сразу условие.если вы в этой области шарите-тогда пишите, так как работу надо сделать в очень короткие сроки и качественно.
P.S. В помощь для начала есть программа считающая md5 для текста,и вторая программа, считывающая из директории все текстовые файлы в txt и проводит разбор текстов. |
29.08.2010, 06:06 | #2 |
Программист
Участник клуба
Регистрация: 23.06.2009
Сообщений: 1,772
|
Пишите подробнее black.fregat@gmail.com
Пока достаточно мало понятно, что именно Вы хотите сделать. Наибольшие вопросы вызывает вот эта фраза: "мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1". Дело в том, что перечисленные хэш-функции дают большое изменение функции при малых изменениях текста. Так что никакая мера над значениями md5 и sha-1 не позволит оценить близость самих текстов. Или вы будете насчитывать много md5 и sha-1 по разным кусочкам текстов? Честно говоря, тоже представляется весьма сомнительным.. Последний раз редактировалось Black Fregat; 29.08.2010 в 06:09. |
29.08.2010, 06:52 | #3 |
Новичок
Джуниор
Регистрация: 03.07.2010
Сообщений: 1
|
согласен, задача поставлена весьма туманно - каким образом с помощью md5 можно определить близость текстов... впрочем, можно обсудить и разобраться что действительно вам нужно, ДенSID Для связи ICQ 577886327, почта klopin12@gmail.com или в Л/С.
|
29.08.2010, 20:13 | #4 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
Md5 используется по сути для определения точных дубликатов,на сколько мне известно.и md5 у меня вычисляется для всего файла. Остальные 2 метода хэширования используются в алгоритмах tf, tf-idf и так далее. так вот например есть алгоритм представления текста называется LONG SENT: Весь текст разбивается на предложения,которые сортируются в порядке убывания длины.Потом берутся 2 самых длинных предложения и из них составляется строка.Потом для этой строки считается crc32 это и будет сигнатура документа. ну и все в таком духе.всего 19 методов представления текста и 9 мер.
|
29.08.2010, 20:18 | #5 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
Black Fregat я Вам написал на почту,но вы пока не отвечаете
|
29.08.2010, 21:56 | #6 |
Заблокирован
Регистрация: 12.05.2010
Сообщений: 0
|
номер ICQ: 565460353 или 480964456
mikefreelance@rambler.ru |
31.08.2010, 00:09 | #7 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
Работа взята.Закройте тему
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Программа на матрицу. Вознаграждение | soon-end | Помощь студентам | 3 | 31.05.2010 22:41 |
Программа на матрицу 2. Вознаграждение | soon-end | Помощь студентам | 4 | 31.05.2010 18:33 |
Программа на матрицу. Вознаграждение | soon-end | Фриланс | 13 | 20.05.2010 06:46 |
Программа на массивы. Вознаграждение! | soon-end | Помощь студентам | 1 | 20.05.2010 05:00 |