|
|
Регистрация Восстановить пароль |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
22.10.2023, 06:50 | #31 | |
МегаМодератор
СуперМодератор
Регистрация: 09.11.2010
Сообщений: 7,341
|
Цитата:
Подготовка текста нормальная, но поиск подстроки в таком огромном тексте все равно "недешевый". Согласен с p51x, что эта фича совсем не для поиска, а просто навороченный switch-case для более компактного написания кода. Вот такой прототип (docx документ только читается, а результат пишется в новый html; отказ от регулярок в пользу префиксных деревьев): Код:
Пишите язык программирования - это форум программистов, а не экстрасенсов. (<= это подпись )
|
|
26.10.2023, 15:14 | #32 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
пока тоже....
решил сделать калоборацию вба+питон питон из 1 млн кандидатов на замены делает список из 100% кандидатов их получается чуть более 30000 шт. и тратит на это 4 часа, потом он их пишет в файл, а потом подключается вба: Код:
|
27.10.2023, 08:55 | #33 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
BDA для понимания, где ищу:
юридические документы, ну та же Конституция РФ и по нисходящей, кодексы, законы, указы, приказы, постановления что ищу юридические термины - "гражданская ответственность" и т.д. бухгалтерские термины - "бухгалтерский учёт" и т.д. медицинские термины - "брюшной тиф" и т.д. бытовые "я пошел в" и т.д. даты все в разных вариациях меры веса, скорости, длины они все со склонениями понравилась мысль про Префиксное дерево (trie) но курил его так и не понял как для моего случая это применить можете показать пример? сейчас я ищу в цикле Код:
|
27.10.2023, 12:47 | #34 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
по окончанию работы мой скрипт отрапортовал:
Ошибок нет, в заменах НЕ имеется замены, где третье слово является цифрой 0-9 или знаком вопроса Количество обработанных js файлов с заменами: 4 Количество замен во всех обработанных js файлах: 915929 Количество обработанных с документами htm файлов: 30 Количество абзацев в файле со всеми обрабатываемыми htm документами: 185467 Количество замен из текстового файла, которые имеются в doc файле: 32446 Результат работы записан в файл: i:/replaces/lst_replace_in_doc.js Начато 2023-10-27 10:16:24.463556 Окончено 2023-10-27 14:26:09.119631 Продолжительность работы 4:09:44.656075 то что делало долго в этом случай пофиг, но для прокачки своих скилов по питону не помешало бы прокачать или префиксное дерево или регулярки....... |
28.10.2023, 10:04 | #35 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
код пришлось переделать, так как нужен утф-16, финишный код вба:
Код:
|
28.10.2023, 11:53 | #36 | |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
с таким файлом
Цитата:
лет 100-пустая затея))=отрицательный опыт а разбивать этот документ как он и был соединён на тоже смысла нет....... |
|
28.10.2023, 20:57 | #37 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
BDA, дошли руки, до разбора Вашего последнего кода (код в сообщении № 31)
код спотыкается на строке: Код:
Traceback (most recent call last): File "C:\pythonProject\sudrf.ru1.py" , line 68, in <module> main() File "C:\pythonProject\sudrf.ru1.py" , line 61, in main f.write(text[last_idx:]) File "C:\Users\q8902\AppData\Local\Progr ams\Python\Python311\Lib\encodings\ cp1251.py", line 19, in encode return codecs.charmap_encode(input,self.er rors,encoding_table)[0] ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ ^^^^^^^^^^^^^^^^^^^^ UnicodeEncodeError: 'charmap' codec can't encode character '\u25e6' in position 0: character maps to <undefined> стал смотреть, что успело записать в файл с результатом: общая часть-ПОСЛЕДНЯЯ ЗАПИСЬ В ФАЙЛЕ ◦раздел i-ТО, ЧТО ИДЁТ СЛЕДОМ может проблема в наличии знака "◦" как поправить код? спасибо |
29.10.2023, 10:40 | #38 |
Старожил
Регистрация: 24.01.2011
Сообщений: 3,116
|
ниже под строкой:
Код:
Код:
но опять тормоз, в документе есть таблица, которая вордом была исковеркана, потому как она построена из знаков "_", "|", уголочков "┘" нужно подумать.......... |
01.11.2023, 02:34 | #39 | |
МегаМодератор
СуперМодератор
Регистрация: 09.11.2010
Сообщений: 7,341
|
Цитата:
/keyword.py). Может быть и есть. Сейчас только одно ядро процессора трудится, а если разбить текст на куски и каждый кусок обрабатывать на своем ядре, то получится быстрее. Попробуйте так: Код:
Пишите язык программирования - это форум программистов, а не экстрасенсов. (<= это подпись )
|
|
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Шрифт текста в файле пдф | Alifhan | Фриланс | 2 | 24.08.2019 11:21 |
изменить шрифт | detalik | Помощь студентам | 2 | 15.04.2011 16:22 |
Как изменить шрифт | FIREVISTA | Общие вопросы C/C++ | 12 | 24.04.2010 19:08 |
Искаженный шрифт в скомпилированном файле справки | Fantom | Общие вопросы Delphi | 0 | 19.09.2008 12:51 |
ШРИФТ в файле справки | prog38 | Помощь студентам | 7 | 13.09.2008 08:36 |