Как очистить текст узла, внутри которого есть ? [закрыто]Python

Программы на Python
Ответить
Гость
 Как очистить текст узла, внутри которого есть ? [закрыто]

Сообщение Гость »


Я пишу веб-сканер для сбора информации с досок объявлений. Я завершил работу над своим первым сканером, но есть еще некоторые проблемы, которые нужно решить.

Для названий некоторых компаний в результате я получаю такой ПАО\xa0. Этот текст на кириллице, но я запрашиваю и сохраняю его в кодировке UTF-8. Проверка атрибутов и содержимого узла для этих случаев показала следующее текстовое содержимое:

ПАО 'Имя компании' Этот не позволяет парсеру работать должным образом, и я еще не решил эту проблему. Сталкивались ли вы с этим во время работы с парсингом и можете ли вы предложить правильный способ справиться с этим?

Для обработки я использую scrapy.

ОБНОВЛЕНИЕ вот код
импортировать Scrapy класс HHSpider(scrapy.Spider): name = 'хх-паук' start_urls = [ 'https://hh.ru/search/vacancy?area=1&ore ... 96&search_ period=30&text=Android&order_by=publication_time' ] защита __init__(сам): self.BASE_URL = 'https://hh.ru' self.JOB_SELECTOR = '.vacancy-serp-item-body' self.JOB_TITLE_SELECTOR = '.serp-item__title::text' self.JOB_COMPANY_SELECTOR = '.bloko-link_kind-tertiary::text' self.JOB_COMPANY_URL_SELECTOR = '.bloko-link_kind-tertiary::attr(href)' self.JOB_COMPENSATION_SELECTOR = '.bloko-header-section-2::text' self.NEXT_SELECTOR = '.bloko-button[data-qa="pager-next"]::attr(href)' def parse(self, ответ): на вакансию в ответе.css(self.JOB_SELECTOR): урожай { 'jobTitle': vacancy.css(self.JOB_TITLE_SELECTOR).get(), «компенсация»: vacancy.css(self.JOB_COMPENSATION_SELECTOR).get(), «компания»: vacancy.css(self.JOB_COMPANY_SELECTOR).get(), 'companyUrl': self.BASE_URL + vacancy.css(self.JOB_COMPANY_URL_SELECTOR).get() } следующая_страница = ответ.css(self.NEXT_SELECTOR).get() если next_page не имеет значения None: выход Scrapy.Request(response.urljoin(next_page))
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»