Как очистить текст узла, внутри которого есть ? [закрыто] ⇐ Python
-
Гость
Как очистить текст узла, внутри которого есть ? [закрыто]
Я пишу веб-сканер для сбора информации с досок объявлений. Я завершил работу над своим первым сканером, но есть еще некоторые проблемы, которые нужно решить.
Для названий некоторых компаний в результате я получаю такой ПАО\xa0. Этот текст на кириллице, но я запрашиваю и сохраняю его в кодировке UTF-8. Проверка атрибутов и содержимого узла для этих случаев показала следующее текстовое содержимое:
ПАО 'Имя компании' Этот не позволяет парсеру работать должным образом, и я еще не решил эту проблему. Сталкивались ли вы с этим во время работы с парсингом и можете ли вы предложить правильный способ справиться с этим?
Для обработки я использую scrapy.
ОБНОВЛЕНИЕ вот код
импортировать Scrapy класс HHSpider(scrapy.Spider): name = 'хх-паук' start_urls = [ 'https://hh.ru/search/vacancy?area=1&ore ... 96&search_ period=30&text=Android&order_by=publication_time' ] защита __init__(сам): self.BASE_URL = 'https://hh.ru' self.JOB_SELECTOR = '.vacancy-serp-item-body' self.JOB_TITLE_SELECTOR = '.serp-item__title::text' self.JOB_COMPANY_SELECTOR = '.bloko-link_kind-tertiary::text' self.JOB_COMPANY_URL_SELECTOR = '.bloko-link_kind-tertiary::attr(href)' self.JOB_COMPENSATION_SELECTOR = '.bloko-header-section-2::text' self.NEXT_SELECTOR = '.bloko-button[data-qa="pager-next"]::attr(href)' def parse(self, ответ): на вакансию в ответе.css(self.JOB_SELECTOR): урожай { 'jobTitle': vacancy.css(self.JOB_TITLE_SELECTOR).get(), «компенсация»: vacancy.css(self.JOB_COMPENSATION_SELECTOR).get(), «компания»: vacancy.css(self.JOB_COMPANY_SELECTOR).get(), 'companyUrl': self.BASE_URL + vacancy.css(self.JOB_COMPANY_URL_SELECTOR).get() } следующая_страница = ответ.css(self.NEXT_SELECTOR).get() если next_page не имеет значения None: выход Scrapy.Request(response.urljoin(next_page))
Я пишу веб-сканер для сбора информации с досок объявлений. Я завершил работу над своим первым сканером, но есть еще некоторые проблемы, которые нужно решить.
Для названий некоторых компаний в результате я получаю такой ПАО\xa0. Этот текст на кириллице, но я запрашиваю и сохраняю его в кодировке UTF-8. Проверка атрибутов и содержимого узла для этих случаев показала следующее текстовое содержимое:
ПАО 'Имя компании' Этот не позволяет парсеру работать должным образом, и я еще не решил эту проблему. Сталкивались ли вы с этим во время работы с парсингом и можете ли вы предложить правильный способ справиться с этим?
Для обработки я использую scrapy.
ОБНОВЛЕНИЕ вот код
импортировать Scrapy класс HHSpider(scrapy.Spider): name = 'хх-паук' start_urls = [ 'https://hh.ru/search/vacancy?area=1&ore ... 96&search_ period=30&text=Android&order_by=publication_time' ] защита __init__(сам): self.BASE_URL = 'https://hh.ru' self.JOB_SELECTOR = '.vacancy-serp-item-body' self.JOB_TITLE_SELECTOR = '.serp-item__title::text' self.JOB_COMPANY_SELECTOR = '.bloko-link_kind-tertiary::text' self.JOB_COMPANY_URL_SELECTOR = '.bloko-link_kind-tertiary::attr(href)' self.JOB_COMPENSATION_SELECTOR = '.bloko-header-section-2::text' self.NEXT_SELECTOR = '.bloko-button[data-qa="pager-next"]::attr(href)' def parse(self, ответ): на вакансию в ответе.css(self.JOB_SELECTOR): урожай { 'jobTitle': vacancy.css(self.JOB_TITLE_SELECTOR).get(), «компенсация»: vacancy.css(self.JOB_COMPENSATION_SELECTOR).get(), «компания»: vacancy.css(self.JOB_COMPANY_SELECTOR).get(), 'companyUrl': self.BASE_URL + vacancy.css(self.JOB_COMPANY_URL_SELECTOR).get() } следующая_страница = ответ.css(self.NEXT_SELECTOR).get() если next_page не имеет значения None: выход Scrapy.Request(response.urljoin(next_page))
Мобильная версия