|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
30.05.2012, 21:35 | #21 | |
Старожил
Регистрация: 04.02.2009
Сообщений: 17,351
|
Цитата:
Маньяк-самоучка
Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика |
|
30.05.2012, 21:42 | #22 |
Старожил
Регистрация: 19.08.2009
Сообщений: 2,119
|
vedro-compota
… получить N наиболее часто встречающихся элементов … Ну, например, вот так: Код:
Parsed 55*862 unique words in 0,312 sec. и => 20*319 в => 10*223 не => 8*469 что => 7*850 на => 6*454 он => 5*986 с => 5*760 его => 3*866 как => 3*705 то => 3*635
А вы почему со мной не соглашаетесь, у вас что, импотенция? (c) ACE Valery
|
30.05.2012, 21:52 | #23 | |
Участник клуба
Регистрация: 21.11.2007
Сообщений: 1,690
|
Цитата:
Да и в добавок если символы другого алфавита тоже являются мусором, т.е. вы заранее знаете что в тексте должна быть только латиница и кириллица + дополнительные символы присущие тематике текста, которые можно посчитать как значимые слова(мат символы например), а в др. ситуациях их нужно игнорить. |
|
30.05.2012, 22:32 | #24 |
Старожил
Регистрация: 04.02.2009
Сообщений: 17,351
|
А зачем utf? Человеку интересны алгоритмы. Но пусть даже и так - для Войны и мир ему все закорючки не нужны. Достаточно общеупотребительных.
Маньяк-самоучка
Utkin появился в результате деления на нуль. Осторожно! Альтернативная логика |
31.05.2012, 12:03 | #25 |
C++, Java
Старожил
Регистрация: 10.04.2010
Сообщений: 2,665
|
Rififi, как сложно.. Мой код - это чисто С++ с использованием STL, при том всё короче и проще
|
31.05.2012, 12:54 | #26 |
Старожил
Регистрация: 19.08.2009
Сообщений: 2,119
|
_-Re@l-_
Мой код - это чисто С++ с использованием STL, при том всё короче и проще "Короче и проще" не всегда означает "лучше", вот ведь какая штука получается oO :D провел замер скрости: раскопировал войну и мир в себя до тех пор, пока размер результирующего файла не стал 195mb, запустил парсер: Parsed 55*862 unique words of total 29*994*048 in 19,41 sec. и => 1*300*416 в => 654*272 не => 542*016 что => 502*400 на => 413*056 он => 383*104 с => 368*640 его => 247*424 как => 237*120 то => 232*640 И где он кстати, твой короткий и простой код? можно будет получить грант на них. (100 тыщ) 100тыщ - чё-то как-то кисло, тем более для Моськи, у меня велик дороже стоит :D
А вы почему со мной не соглашаетесь, у вас что, импотенция? (c) ACE Valery
|
31.05.2012, 16:14 | #27 | |
C++, Java
Старожил
Регистрация: 10.04.2010
Сообщений: 2,665
|
Цитата:
И ещё , мне как бы интересно, почему вы заранее меня стараетесь принизить. Последний раз редактировалось _-Re@l-_; 31.05.2012 в 16:16. |
|
01.06.2012, 14:10 | #28 |
Старожил
Регистрация: 19.08.2009
Сообщений: 2,119
|
_-Re@l-_
И ещё , мне как бы интересно, почему вы заранее меня стараетесь принизить. В чего это вдруг? Как я вижу, это вы ко мне обратились сначала с критическим комментом, а затем перевели стрелку на свое секретное решение (а вот у меня... да только C++ и STL... короче и проще ...) Так что, боюсь, ваши БДСМ oO предположения о том, что кто-то хочет вас принизить - плод богатого воображения.
А вы почему со мной не соглашаетесь, у вас что, импотенция? (c) ACE Valery
|
01.06.2012, 16:01 | #29 | |
C++, Java
Старожил
Регистрация: 10.04.2010
Сообщений: 2,665
|
Цитата:
|
|
01.06.2012, 20:23 | #30 |
Старожил
Регистрация: 08.04.2012
Сообщений: 3,229
|
Алгоритм решения этой задачи имеет сложность O(n*log(n)).
Естественно, таких алгоритмов несколько разных. По опыту: миллиард слов обрабатывается порядка часа, а миллион - порядка секунды. |
|
Опции темы | Поиск в этой теме |
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
из текстового файл получить 5 наиболее часто встречающихся слов и число их появлений (на Delphi) | sifa | Помощь студентам | 5 | 09.01.2012 18:34 |
в тексте слова, содержащие ровно одну из 10 наиболее часто встречающихся букв | yaroslav_bondarev | Паскаль, Turbo Pascal, PascalABC.NET | 3 | 16.12.2011 10:11 |
дан текст, написать код, нахождения 10 наиболее часто встречающихся букв | yaroslav_bondarev | Паскаль, Turbo Pascal, PascalABC.NET | 9 | 14.12.2011 22:08 |
Получить массив из элементов, встречающихся в исходном массиве ровно один раз без повторений | Shikarmo4000 | Помощь студентам | 0 | 25.05.2010 01:27 |
Найти (в процентах) частоту появления каждого из m наиболее часто встречающихся элементов | sk1p | Паскаль, Turbo Pascal, PascalABC.NET | 2 | 26.09.2008 23:57 |