![]() |
|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
![]() |
|
Опции темы | Поиск в этой теме |
![]() |
#1 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
![]()
короче у меня проблемка с курсовой работой:есть теоретическая часть,но не могу осилить практическую часть.программа нужна на matlab.суть всей работы заключается в поиске дубликатов текстовых файлов.имеется массив данных и с ее помощью нужно сравнить тексты на сколько близкими они являются. программа строится в два этапа.на первом мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1 либо другие способы tf,tf-idf....и тд.потом с помощью различных мер мы сравниваем полученные значения(мера Жаккарда,косинусная мера...).полученное значение от 0 до 1.чем ближе значение к 1 тем более близкие наши тексты(один-дубликат второго).по деньгам думаю 2-2.5к. Только сразу условие.если вы в этой области шарите-тогда пишите, так как работу надо сделать в очень короткие сроки и качественно.
P.S. В помощь для начала есть программа считающая md5 для текста,и вторая программа, считывающая из директории все текстовые файлы в txt и проводит разбор текстов. |
![]() |
![]() |
![]() |
#2 |
Программист
Участник клуба
Регистрация: 23.06.2009
Сообщений: 1,772
|
![]()
Пишите подробнее black.fregat@gmail.com
Пока достаточно мало понятно, что именно Вы хотите сделать. Наибольшие вопросы вызывает вот эта фраза: "мы представляем текст в заданном виде например хэш-коды md5,crc32,sha-1". Дело в том, что перечисленные хэш-функции дают большое изменение функции при малых изменениях текста. Так что никакая мера над значениями md5 и sha-1 не позволит оценить близость самих текстов. Или вы будете насчитывать много md5 и sha-1 по разным кусочкам текстов? Честно говоря, тоже представляется весьма сомнительным.. Последний раз редактировалось Black Fregat; 29.08.2010 в 06:09. |
![]() |
![]() |
![]() |
#3 |
Новичок
Джуниор
Регистрация: 03.07.2010
Сообщений: 1
|
![]()
согласен, задача поставлена весьма туманно - каким образом с помощью md5 можно определить близость текстов... впрочем, можно обсудить и разобраться что действительно вам нужно, ДенSID
![]() |
![]() |
![]() |
![]() |
#4 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
![]()
Md5 используется по сути для определения точных дубликатов,на сколько мне известно.и md5 у меня вычисляется для всего файла. Остальные 2 метода хэширования используются в алгоритмах tf, tf-idf и так далее. так вот например есть алгоритм представления текста называется LONG SENT: Весь текст разбивается на предложения,которые сортируются в порядке убывания длины.Потом берутся 2 самых длинных предложения и из них составляется строка.Потом для этой строки считается crc32 это и будет сигнатура документа. ну и все в таком духе.всего 19 методов представления текста и 9 мер.
|
![]() |
![]() |
![]() |
#5 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
![]()
Black Fregat я Вам написал на почту,но вы пока не отвечаете
|
![]() |
![]() |
![]() |
#6 |
Заблокирован
Регистрация: 12.05.2010
Сообщений: 0
|
![]()
номер ICQ: 565460353 или 480964456
mikefreelance@rambler.ru |
![]() |
![]() |
![]() |
#7 |
Новичок
Джуниор
Регистрация: 28.08.2010
Сообщений: 0
|
![]()
Работа взята.Закройте тему
|
![]() |
![]() |
![]() |
![]() |
||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Программа на матрицу. Вознаграждение | soon-end | Помощь студентам | 3 | 31.05.2010 22:41 |
Программа на матрицу 2. Вознаграждение | soon-end | Помощь студентам | 4 | 31.05.2010 18:33 |
Программа на матрицу. Вознаграждение | soon-end | Фриланс | 13 | 20.05.2010 06:46 |
Программа на массивы. Вознаграждение! | soon-end | Помощь студентам | 1 | 20.05.2010 05:00 |