Помогите с дипломом Делфи - Помощь студентам

Денис Е · 12.03.2009, 16:56

Помогите сделать програмулину: Нужно сделать БД текстовых файлов, что бы при загрузке нового файла программа сравнивала этот файл с БД и находила похожие!
Помогите кто чем!
ICQ 446442131

NeshSoft · 12.03.2009, 17:33

Смысл вот в чем: для каждого текстового файла нужно посчитать сколько каждое слово встречается в тексте, кроме общих слов (предлоги, вводные слова, и т.д.), затем в БД записать допустим ТОП 10 слов по встречаемости и необходимые данные о файле. Теперь когда загружаем новый файл, прога ищет его самые встречаемые слова и сравнивает с тем что есть в базе. Находит файлы по базе, в которых их ТОП10 максимально похож на ТОП10 нового файла, и выводит результаты.

Думаю как то так.

Денис Е · 12.03.2009, 17:58

как создать БД чтобы можно было туда загрузить текстовый док-т и сохранить его там? есть книга С. И. Бобровский. Delphi 7. Учебный курс .pdf может подскажите где там можно посмотреть, а то незнаю с чего начать!

NeshSoft · 12.03.2009, 18:01

Цитата:

Тема диплома такая: разработка программы помогающая оценить стпень оригинальности студеньческого отчёта! Т.е нужно чтобы программа выявляла похожесть отчётов("выявление студеньческого плагиата") наверно нужно что бы она сравнивал не слова, а педложение как то так!

Тогда из тех похожих файлов, которые мы нашли, открываем первые 5, и уже сравниваем по предложениям эти 5 файлов с новым.

Просто не эффективно сравнивать сразу по предложениям новый файл со всеми имеющимися.

NeshSoft · 12.03.2009, 18:05

Цитата:

Сообщение от Денис Е

как создать БД чтобы можно было туда загрузить текстовый док-т и сохранить его там?

Лучше создать файл индекс - где хранить описание текстовых файлов, а сами текстовые файлы хранить по отдельности в какой либо папке, иначе файл БД будет очень быстро расти в размерах и будет очень долго считываться.

Денис Е · 12.03.2009, 18:14

почему не эффективно? Если взять педложение и последующие педложения по порядку из загруженого док-та и сравнивать с предложениями уже имеющихся док-ов по очереди т.е сделать счётчик совпадений с каждым док-ом!

Денис Е · 12.03.2009, 18:16

можно по подробнее про файл-индекс

NeshSoft · 12.03.2009, 18:35

Зачем сравнивать все предложения, если можно сравнить всего 10 слов (ТОП10), ну или для точности рассширить до ТОП100.
Также, неполучиться сделать индекс предложений, прейдется сравнивать со всеми файлами.

В файле индексе я предполагаю хранить номер файла, и его ключевые слова (т.е. ТОП10).

К примеру, если есть 10 файлов по 100 предложений каждый, то при индексации нужно будет сравнить 10 новых ключевых слов с 10*10=100 ключевых слов в базе, т.е. 1000 сравнений, и затем сравнить каждое из 100 предложений нового файла с 5*100 = 500 предложениями 5 файлов по наибольшему совпаданию ТОП10, Итого 1000+500*100=51000 сравнений, а если сравнивать как предлагаете Вы, т.е. все предложения нового файла со всеми предложениями всех файлов, то получиться 100*10*100=100 000, т.е. разница в 20 раз при 10 файлах в базе. А если будет 100 файлов, то разница будет 60 000 против 1 000 000... и т.д...

NeshSoft · 12.03.2009, 18:44

Кстати если взять ТОП100 слов, то прога будет довольно точно указывать на плагиат, чем если тупо сравнивать предложения, ведь, если в предложениях поменять слова местами, то оно уже не будет равно.

12.03.2009, 16:56	#1
Денис Е Регистрация: 12.03.2009 Сообщений: 4	Помогите с дипломом Делфи Помогите сделать програмулину: Нужно сделать БД текстовых файлов, что бы при загрузке нового файла программа сравнивала этот файл с БД и находила похожие! Помогите кто чем! ICQ 446442131

12.03.2009, 17:33	#2
NeshSoft Максим Николаев Форумчанин Регистрация: 15.02.2009 Сообщений: 170	Смысл вот в чем: для каждого текстового файла нужно посчитать сколько каждое слово встречается в тексте, кроме общих слов (предлоги, вводные слова, и т.д.), затем в БД записать допустим ТОП 10 слов по встречаемости и необходимые данные о файле. Теперь когда загружаем новый файл, прога ищет его самые встречаемые слова и сравнивает с тем что есть в базе. Находит файлы по базе, в которых их ТОП10 максимально похож на ТОП10 нового файла, и выводит результаты. Думаю как то так. NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru

12.03.2009, 18:35	#8
NeshSoft Максим Николаев Форумчанин Регистрация: 15.02.2009 Сообщений: 170	Зачем сравнивать все предложения, если можно сравнить всего 10 слов (ТОП10), ну или для точности рассширить до ТОП100. Также, неполучиться сделать индекс предложений, прейдется сравнивать со всеми файлами. В файле индексе я предполагаю хранить номер файла, и его ключевые слова (т.е. ТОП10). К примеру, если есть 10 файлов по 100 предложений каждый, то при индексации нужно будет сравнить 10 новых ключевых слов с 1010=100 ключевых слов в базе, т.е. 1000 сравнений, и затем сравнить каждое из 100 предложений нового файла с 5100 = 500 предложениями 5 файлов по наибольшему совпаданию ТОП10, Итого 1000+500100=51000 сравнений, а если сравнивать как предлагаете Вы, т.е. все предложения нового файла со всеми предложениями всех файлов, то получиться 10010100=100 000, т.е. разница в 20 раз при 10 файлах в базе. А если будет 100 файлов, то разница будет 60 000 против 1 000 000... и т.д... NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru Последний раз редактировалось NeshSoft; 12.03.2009 в 18:38.*

12.03.2009, 18:44	#9
NeshSoft Максим Николаев Форумчанин Регистрация: 15.02.2009 Сообщений: 170	Кстати если взять ТОП100 слов, то прога будет довольно точно указывать на плагиат, чем если тупо сравнивать предложения, ведь, если в предложениях поменять слова местами, то оно уже не будет равно. NeshSoft. Программирование на заказ для студентов. Delphi/Pascal. Подробнее на сайте neshsoft.narod.ru

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
помогите с заданиями по делфи	Flur	Фриланс	14	19.03.2015 10:34
Помогите с дипломом WEB программирование	cheldonec	Помощь студентам	4	01.04.2008 18:39
Шифр Атбаш. Зашиваюсь с дипломом!	Регина	Помощь студентам	2	06.04.2007 15:47

12.03.2009, 17:58	#3
Денис Е Регистрация: 12.03.2009 Сообщений: 4	как создать БД чтобы можно было туда загрузить текстовый док-т и сохранить его там? есть книга С. И. Бобровский. Delphi 7. Учебный курс .pdf может подскажите где там можно посмотреть, а то незнаю с чего начать!

12.03.2009, 18:14	#6
Денис Е Регистрация: 12.03.2009 Сообщений: 4	почему не эффективно? Если взять педложение и последующие педложения по порядку из загруженого док-та и сравнивать с предложениями уже имеющихся док-ов по очереди т.е сделать счётчик совпадений с каждым док-ом!

12.03.2009, 18:16	#7
Денис Е Регистрация: 12.03.2009 Сообщений: 4	можно по подробнее про файл-индекс