Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Помощь студентам
Регистрация

Восстановить пароль

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 18.01.2013, 22:54   #11
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

Цитата:
Сообщение от Smitt&Wesson Посмотреть сообщение
Предположим, что у всех слов, есть 6 вариантов написания (очень писсимистичное предположение, т.к. у некоторых слов вариантов нет). В словаре, 14-16 тысяч слов. 16000*6=96000. Учитывая, что в текстовом файле, каждая буква занимает 2 байта, а слово в среднем (опять-же максимально предположительно) состоит из 10-букв получим 96000*10*2-1920000 байт. Разделим это число на 1024 и получим 1875 Кбайт. Не очень много, а? Ну, прибавим ещё тех.инфу. Итого: 2 МБ.
6 вариантов - это у существительных. У глаголов - 17 варианта спряжения. У прилагательных - 28. Конечно, там много повторений. Возьмем все равно максимально среднее за 17.

Объем словаря обычного человека - под сотню тысяч слов, которые он понимает и использует. Хотя тут конечно есть деление на активный словарный запас и на словарный запас вообще.

Слово в среднем, действительно, длиной в 10 букв. 8-12 буквенные слова - их максимальное количество.
25-буквенных слов - всего семнадцать штук в вышеупомянутой базе))

Так что выходит, что наш с вами мозг способен распознавать и определять 1 700 000 отдельных слов (офигеть, не правда ли?).

Умножая на 10 и кодируя в cp1251, получается 17 метров.
Smogg вне форума Ответить с цитированием
Старый 18.01.2013, 23:17   #12
Bob256
Пользователь
 
Регистрация: 28.10.2011
Сообщений: 13
По умолчанию

Если считать словом непрерывную последовательность русских букв различая большие и маленькие то в ~100 Gb текста (Traum Library) было найдено 7928830 уникальных слов. Встречались более 1000 раз 148788 слова. Длина от 1 до 35 букв, в среднем 5.5.

http://www.programmersclub.ru/словар...усского-языка/
Bob256 вне форума Ответить с цитированием
Старый 18.01.2013, 23:53   #13
Smogg
Участник клуба
 
Регистрация: 14.06.2011
Сообщений: 1,138
По умолчанию

Bob256, Спасибо)
А за частотность - особенно.

UPD Кстати, никто не подскажет, как Ворд заставить удалить подчеркнутые красным слова?

Последний раз редактировалось Smogg; 19.01.2013 в 02:01.
Smogg вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
некорректное отображение русского языка zlo_999 HTML и CSS 11 10.02.2015 13:19
Windows 8 - кракозябры русского языка tatianak99 Windows 0 24.11.2012 15:25
проблема русского языка в vcf malloy84 Свободное общение 1 14.01.2011 10:43
Словарь служебных слов языка delphi Kate68 Помощь студентам 1 09.11.2009 22:06