Анализ с помощью Python html.parser: доступ и использование необработанных теговHtml

Программисты Html
Ответить
Anonymous
 Анализ с помощью Python html.parser: доступ и использование необработанных тегов

Сообщение Anonymous »

Я не специалист по Python, так что потерпите. Я пытаюсь заменить парсер на основе Perl HTML::TokeParser, который я использую для перевода шаблонов на иностранные языки, на использование Python html.parser. Вот код прототипа, который почти дает мне то, что я хочу.

Код: Выделить всё

import deepl
from html.parser import HTMLParser

class MyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):
result = ''
print('start ' + str(result))
for attr in attrs:
print("     attr:", attr)

def handle_endtag(self, tag):
result = ''
print('end ' + str(result))
#print("End tag  :", tag)

def handle_data(self, data):
self.translate_data(data)
#print("Data     :", data)
и т. д. и т. д. и

Код: Выделить всё

deepl_client = deepl.DeepLClient(auth_key)

#Translate a formal document from English to French
input_path = "blabla"
output_path = "blabla"

parser = MyHTMLParser()

with open(input_path, 'r') as file:
content = file.read()
parser.feed(content)
Однако мне также хотелось бы иметь доступ к необработанному HTML-коду во время его прохождения через фид, чтобы избежать повторной сборки более простых или непереведенных тегов.


Подробнее здесь: https://stackoverflow.com/questions/798 ... g-raw-tags
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Html»