Анализ с помощью Python html.parser: доступ и использование необработанных тегов

Анализ с помощью Python html.parser: доступ и использование необработанных тегов ⇐ Html

1 сообщение • Страница 1 из 1

Anonymous

Анализ с помощью Python html.parser: доступ и использование необработанных тегов

Цитата

Сообщение Anonymous » 29 окт 2025, 14:10

Я не специалист по Python, так что потерпите. Я пытаюсь заменить парсер на основе Perl HTML::TokeParser, который я использую для перевода шаблонов на иностранные языки, на использование Python html.parser. Вот код прототипа, который почти дает мне то, что я хочу.

Код: Выделить всё

import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)

и т. д. и т. д. и

Код: Выделить всё

deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)

Однако мне также хотелось бы иметь доступ к необработанному HTML-коду во время его прохождения через фид, чтобы избежать повторной сборки более простых или непереведенных тегов.

Подробнее здесь: https://stackoverflow.com/questions/798 ... g-raw-tags

1761736205

Anonymous

Я не специалист по Python, так что потерпите. Я пытаюсь заменить парсер на основе Perl HTML::TokeParser, который я использую для перевода шаблонов на иностранные языки, на использование Python html.parser. Вот код прототипа, который почти дает мне то, что я хочу.
[code]import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)
[/code]
и т. д. и т. д. и
[code]deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)
[/code]
Однако мне также хотелось бы иметь доступ к необработанному HTML-коду во время его прохождения через фид, чтобы избежать повторной сборки более простых или непереведенных тегов.
 

Подробнее здесь: [url]https://stackoverflow.com/questions/79803689/parsing-with-python-html-parser-accessing-and-using-raw-tags[/url]