Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 12.03.2009, 16:56   #1
Денис Е
 
Регистрация: 12.03.2009
Сообщений: 4
По умолчанию Помогите с дипломом Делфи

Помогите сделать програмулину: Нужно сделать БД текстовых файлов, что бы при загрузке нового файла программа сравнивала этот файл с БД и находила похожие!
Помогите кто чем!
ICQ 446442131
Денис Е вне форума Ответить с цитированием
Старый 12.03.2009, 17:33   #2
NeshSoft
Максим Николаев
Форумчанин
 
Аватар для NeshSoft
 
Регистрация: 15.02.2009
Сообщений: 170
По умолчанию

Смысл вот в чем: для каждого текстового файла нужно посчитать сколько каждое слово встречается в тексте, кроме общих слов (предлоги, вводные слова, и т.д.), затем в БД записать допустим ТОП 10 слов по встречаемости и необходимые данные о файле. Теперь когда загружаем новый файл, прога ищет его самые встречаемые слова и сравнивает с тем что есть в базе. Находит файлы по базе, в которых их ТОП10 максимально похож на ТОП10 нового файла, и выводит результаты.

Думаю как то так.
NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru
NeshSoft вне форума Ответить с цитированием
Старый 12.03.2009, 17:58   #3
Денис Е
 
Регистрация: 12.03.2009
Сообщений: 4
По умолчанию

как создать БД чтобы можно было туда загрузить текстовый док-т и сохранить его там? есть книга С. И. Бобровский. Delphi 7. Учебный курс .pdf может подскажите где там можно посмотреть, а то незнаю с чего начать!
Денис Е вне форума Ответить с цитированием
Старый 12.03.2009, 18:01   #4
NeshSoft
Максим Николаев
Форумчанин
 
Аватар для NeshSoft
 
Регистрация: 15.02.2009
Сообщений: 170
По умолчанию

Цитата:
Тема диплома такая: разработка программы помогающая оценить стпень оригинальности студеньческого отчёта! Т.е нужно чтобы программа выявляла похожесть отчётов("выявление студеньческого плагиата") наверно нужно что бы она сравнивал не слова, а педложение как то так!
Тогда из тех похожих файлов, которые мы нашли, открываем первые 5, и уже сравниваем по предложениям эти 5 файлов с новым.

Просто не эффективно сравнивать сразу по предложениям новый файл со всеми имеющимися.
NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru
NeshSoft вне форума Ответить с цитированием
Старый 12.03.2009, 18:05   #5
NeshSoft
Максим Николаев
Форумчанин
 
Аватар для NeshSoft
 
Регистрация: 15.02.2009
Сообщений: 170
По умолчанию

Цитата:
Сообщение от Денис Е Посмотреть сообщение
как создать БД чтобы можно было туда загрузить текстовый док-т и сохранить его там?
Лучше создать файл индекс - где хранить описание текстовых файлов, а сами текстовые файлы хранить по отдельности в какой либо папке, иначе файл БД будет очень быстро расти в размерах и будет очень долго считываться.
NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru
NeshSoft вне форума Ответить с цитированием
Старый 12.03.2009, 18:14   #6
Денис Е
 
Регистрация: 12.03.2009
Сообщений: 4
По умолчанию

почему не эффективно? Если взять педложение и последующие педложения по порядку из загруженого док-та и сравнивать с предложениями уже имеющихся док-ов по очереди т.е сделать счётчик совпадений с каждым док-ом!
Денис Е вне форума Ответить с цитированием
Старый 12.03.2009, 18:16   #7
Денис Е
 
Регистрация: 12.03.2009
Сообщений: 4
По умолчанию

можно по подробнее про файл-индекс
Денис Е вне форума Ответить с цитированием
Старый 12.03.2009, 18:35   #8
NeshSoft
Максим Николаев
Форумчанин
 
Аватар для NeshSoft
 
Регистрация: 15.02.2009
Сообщений: 170
По умолчанию

Зачем сравнивать все предложения, если можно сравнить всего 10 слов (ТОП10), ну или для точности рассширить до ТОП100.
Также, неполучиться сделать индекс предложений, прейдется сравнивать со всеми файлами.

В файле индексе я предполагаю хранить номер файла, и его ключевые слова (т.е. ТОП10).

К примеру, если есть 10 файлов по 100 предложений каждый, то при индексации нужно будет сравнить 10 новых ключевых слов с 10*10=100 ключевых слов в базе, т.е. 1000 сравнений, и затем сравнить каждое из 100 предложений нового файла с 5*100 = 500 предложениями 5 файлов по наибольшему совпаданию ТОП10, Итого 1000+500*100=51000 сравнений, а если сравнивать как предлагаете Вы, т.е. все предложения нового файла со всеми предложениями всех файлов, то получиться 100*10*100=100 000, т.е. разница в 20 раз при 10 файлах в базе. А если будет 100 файлов, то разница будет 60 000 против 1 000 000... и т.д...
NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru

Последний раз редактировалось NeshSoft; 12.03.2009 в 18:38.
NeshSoft вне форума Ответить с цитированием
Старый 12.03.2009, 18:44   #9
NeshSoft
Максим Николаев
Форумчанин
 
Аватар для NeshSoft
 
Регистрация: 15.02.2009
Сообщений: 170
По умолчанию

Кстати если взять ТОП100 слов, то прога будет довольно точно указывать на плагиат, чем если тупо сравнивать предложения, ведь, если в предложениях поменять слова местами, то оно уже не будет равно.
NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru
NeshSoft вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
помогите с заданиями по делфи Flur Фриланс 14 19.03.2015 10:34
Помогите с дипломом WEB программирование cheldonec Помощь студентам 4 01.04.2008 18:39
Шифр Атбаш. Зашиваюсь с дипломом! Регина Помощь студентам 2 06.04.2007 15:47