Удалить теги в htm файле - Python

Ципихович Эндрю · 27.10.2023, 14:14

здравствуйте, нашёл в сети пример

Код:

RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)  # удаление тегов
            def strip_tags_TAGS(text, marker=''):
                return RE_TAGS.sub(marker, text)
            text_RE_TAGS = strip_tags_TAGS(f_in.read())

и на выходе получил в документах, например:
.s0 {font-family: "times new roman", serif; font-style: normal; font-weight: normal; font-size: 12pt; }
то есть пролетел, есть у кого внятный пример?
в сети полно примеров
но как правило какие\то теги удаляются с танцами с бубнами
спасибо

Ципихович Эндрю · 27.10.2023, 15:46

краткость сестра таланта-без холивара
https://ansmirnov.ru/python-remove-html-from-string/
увы опробовав этот пример - тоже остались теги........

Ципихович Эндрю · 28.10.2023, 00:40

Код:

from bs4 import BeautifulSoup
html = """
<html>
  <body>
    <h1>Hello, МИР</h1>
  </body>
</html>"""
soup = BeautifulSoup(html, 'html.parser')
text = soup.get_text().strip()
print(text)

установка модуля-pip install beautifulsoup4

Ципихович Эндрю · 25.12.2023, 15:12

нашлись в процессе использования проблемы:

Код:

with open(patch_doc + file, 'r', encoding='utf-8') as f_in:  # исходные документы htm
    soup = BeautifulSoup(f_in.read(), 'html.parser')
    # 1. txt = soup.get_text().strip() = Боковой ветерНизколетящие самолетыТоннель  = ПЛОХО!!!
    # 2. txt = soup.get_text("\n", strip=True) = тогда множество строк вида:
    # (в ред.
    # Постановления
    # Правительства РФ от 14.12.2005 N 767) = ПЛОХО!!!
    # 3. txt = soup.get_text(' ', strip=True) = ПЛОХО!!!, потому как будет:
    # "Уголовный кодекс Российской Федерации" от 13.06.1996 N 63-ФЗ
    # (ред. от 04.08.2023)
    # (с изм. и доп., вступ. в силу с 12.10.2023) "Уголов…………. — эта строка будет длинная, весь кодекс поместиться в неё
    # 4. for tag in soup.findAll():
    #        tag.decompose()
    #    txt = soup.get_text().strip()
    # ПЛОХО!! будет пустая переменная txt

какой-то треш, 4 варианта и все мимо, как же уладить этот вопрос? спасибо

27.10.2023, 14:14	#1
Ципихович Эндрю Старожил Регистрация: 24.01.2011 Сообщений: 3,043	Удалить теги в htm файле здравствуйте, нашёл в сети пример Код: `RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE) # удаление тегов def strip_tags_TAGS(text, marker=''): return RE_TAGS.sub(marker, text) text_RE_TAGS = strip_tags_TAGS(f_in.read())` и на выходе получил в документах, например: .s0 {font-family: "times new roman", serif; font-style: normal; font-weight: normal; font-size: 12pt; } то есть пролетел, есть у кого внятный пример? в сети полно примеров но как правило какие\то теги удаляются с танцами с бубнами спасибо

28.10.2023, 00:40	#3
Ципихович Эндрю Старожил Регистрация: 24.01.2011 Сообщений: 3,043	Код: `from bs4 import BeautifulSoup html = """ <html> <body> <h1>Hello, МИР</h1> </body> </html>""" soup = BeautifulSoup(html, 'html.parser') text = soup.get_text().strip() print(text)` установка модуля-pip install beautifulsoup4

Похожие темы
Тема	Автор	Раздел	Ответов	Последнее сообщение
Удалить все комментарии JS в текстовом файле	Ципихович Эндрю	Python	7	17.10.2021 13:01
Удалить корректно поля в файле пдф	Ципихович Эндрю	Фриланс	4	18.07.2018 15:01
Удалить из sql базы теги, запрос	Karyuudo	Помощь студентам	2	10.10.2015 14:31
удалить секцию в Ini файле	Viten2	Общие вопросы Delphi	6	11.07.2011 18:13
удалить пустые строки в txt файле	andreton	Помощь студентам	3	05.06.2010 21:35

27.10.2023, 15:46	#2
Ципихович Эндрю Старожил Регистрация: 24.01.2011 Сообщений: 3,043	краткость сестра таланта-без холивара https://ansmirnov.ru/python-remove-html-from-string/ увы опробовав этот пример - тоже остались теги........