Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Скриптовые языки программирования > Python
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 27.10.2023, 14:14   #1
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,043
По умолчанию Удалить теги в htm файле

здравствуйте, нашёл в сети пример
Код:
RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())
и на выходе получил в документах, например:
.s0 {font-family: "times new roman", serif; font-style: normal; font-weight: normal; font-size: 12pt; }
то есть пролетел, есть у кого внятный пример?
в сети полно примеров
но как правило какие\то теги удаляются с танцами с бубнами
спасибо
Ципихович Эндрю вне форума Ответить с цитированием
Старый 27.10.2023, 15:46   #2
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,043
По умолчанию

краткость сестра таланта-без холивара
https://ansmirnov.ru/python-remove-html-from-string/
увы опробовав этот пример - тоже остались теги........
Ципихович Эндрю вне форума Ответить с цитированием
Старый 28.10.2023, 00:40   #3
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,043
По умолчанию

Код:
from bs4 import BeautifulSoup
html = """
<html>
  <body>
    <h1>Hello, МИР</h1>
  </body>
</html>"""
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)
установка модуля-pip install beautifulsoup4
Ципихович Эндрю вне форума Ответить с цитированием
Старый 25.12.2023, 15:12   #4
Ципихович Эндрю
Старожил
 
Регистрация: 24.01.2011
Сообщений: 3,043
По умолчанию

нашлись в процессе использования проблемы:
Код:
with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
    soup = BeautifulSoup(f_in.read(), 'html.parser')
    # 1. txt = soup.get_text().strip() = Боковой ветерНизколетящие самолетыТоннель  = ПЛОХО!!!
    # 2. txt = soup.get_text("\n", strip=True) = тогда множество строк вида:
    # (в ред.
    # Постановления
    # Правительства РФ от 14.12.2005 N 767) = ПЛОХО!!!
    # 3. txt = soup.get_text(' ', strip=True) = ПЛОХО!!!, потому как будет:
    # "Уголовный кодекс Российской Федерации" от 13.06.1996 N 63-ФЗ
    # (ред. от 04.08.2023)
    # (с изм. и доп., вступ. в силу с 12.10.2023) "Уголов…………. — эта строка будет длинная, весь кодекс поместиться в неё
    # 4. for tag in soup.findAll():
    #        tag.decompose()
    #    txt = soup.get_text().strip()
    # ПЛОХО!! будет пустая переменная txt
какой-то треш, 4 варианта и все мимо, как же уладить этот вопрос? спасибо

Последний раз редактировалось Ципихович Эндрю; 25.12.2023 в 15:16.
Ципихович Эндрю вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц



Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Удалить все комментарии JS в текстовом файле Ципихович Эндрю Python 7 17.10.2021 13:01
Удалить корректно поля в файле пдф Ципихович Эндрю Фриланс 4 18.07.2018 15:01
Удалить из sql базы теги, запрос Karyuudo Помощь студентам 2 10.10.2015 14:31
удалить секцию в Ini файле Viten2 Общие вопросы Delphi 6 11.07.2011 18:13
удалить пустые строки в txt файле andreton Помощь студентам 3 05.06.2010 21:35