|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
Опции темы | Поиск в этой теме |
08.03.2012, 15:23 | #1 |
Пользователь
Регистрация: 28.02.2010
Сообщений: 14
|
Удаление знаков препинания из текстов. С++
Доброго времени суток
У меня следующая проблема. Имеется текстовые файлы. Нужно составить по ним словарь. Текст уже лемматизирован (слова приведены в начальную форму). Перед проходом по текстам и составлением словаря осталось только удалить знаки препинания и всякий мусор вроде чисел, решеток #, скобок, тире и тд и тп. Как это можно сделать качественно и быстро? подскажите как эти символы можно идентифицировать? Кодировка текста utf8. Да, и еще небольшое дополнение. Текстов очень много (7000) Заранее спасибо за помощь |
08.03.2012, 15:35 | #2 |
Участник клуба
Регистрация: 30.01.2011
Сообщений: 1,578
|
тут принцип удаления... и тут есть... а по поводу того что текстов много... я так понимаю файлики....
то легче всего это просканить названия этих файлов и загнать в массив... и применить вышеуказанные приемы удаления знаков... загнав это все в цикл... и на каждом ходе цикла будет юзаться 1 файлик из массива названия файлов...
пишу код не только за печеньки
|
08.03.2012, 15:49 | #3 |
Пользователь
Регистрация: 28.02.2010
Сообщений: 14
|
Спасибо, идею понял... в принципе не плохо. Но бывают ситуации, когда встречаются слова типа "1)слон". Было бы не плохо 1) тоже выбросить. В принципе делается тоже как то в этом стиле)))
|
08.03.2012, 15:52 | #4 |
Участник клуба
Регистрация: 30.01.2011
Сообщений: 1,578
|
что, где и откуда выбросить это у же вам решать... а приемы реализации вам даны...) при просмотре данных тем... так же и своей... внизу приведены похожие темы... + при вопросах касающихся кода... при его оформлении используйте #... )... удачи...
пишу код не только за печеньки
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Посчитать кол-во знаков препинания в тексте. | Dane4ka | Помощь студентам | 10 | 08.05.2011 20:50 |
Удаление знаков | boomeer | Общие вопросы C/C++ | 4 | 04.08.2010 22:04 |
последовательность знаков препинания | Владимир_король | Помощь студентам | 3 | 29.04.2010 10:56 |
Удаление текстов ссылок | PeterMinin | Microsoft Office Word | 11 | 22.10.2009 12:45 |
Программа удаления знаков препинания... | hen | Общие вопросы C/C++ | 17 | 11.10.2009 16:57 |