Запуск Scrapy Spider, но вывод пустой. питон

Запуск Scrapy Spider, но вывод пустой. питон ⇐ Python

1 сообщение • Страница 1 из 1

Гость

Запуск Scrapy Spider, но вывод пустой. питон

Цитата

Сообщение Гость » 22 сен 2023, 23:51

Я пытаюсь заставить этого паука просмотреть список из 1600 URL-адресов, содержащихся в CSV-файле, и извлечь со страницы адреса электронной почты и номера телефонов. Если у кого-нибудь уже есть такая программа, я был бы рад ее использовать, но также мне хотелось бы знать, где я ошибся. Вот мой код, я передал его через чат gpt, чтобы уточнить и аннотировать.

импортировать Scrapy импортировать панд как pd импортировать ОС импортировать повторно журнал импорта класс Паук(scrapy.Spider): имя = 'business_scrape' защита Extract_emails (я, текст): # Извлекаем адреса электронной почты, используя комплексный шаблон регулярного выражения электронная почта = re.findall( r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', текст) возвращать электронные письма защита Extract_phone (я, текст): # Извлекаем номера телефонов phone_numbers = re.findall( r'(?:(?:\+\d{1,2}\s?)?\(?\d{3}\)?[-.\s]?)?\d{3,4}[ -.\s]?\d{4}', текст) вернуть номера_телефонов защита start_requests (сам): # Прочитайте исходный файл CSV со столбцами [имя, URL, категория] csv = 'bozeman_businesses.csv' # Укажите свой CSV-файл init_df = pd.read_csv(csv) для _ введите строку в init_df.iterrows(): имя = строка['имя'] URL = строка['url'] категория = строка['категория'] выход Scrapy.Request (url = URL, callback = self.parse_link, мета = {'name': имя, 'категория': категория}) def parse_link(сам, ответ): имя = ответ.мета['имя'] категория = response.meta['категория'] # Инициализируем ведение журнала logging.basicConfig( filename='scrapy.log', format='%(levelname)s: %(message)s', level=logging.INFO) # Зафиксировать начало сканирования logging.info('Сканирование началось.') для слова в self.reject: если слово в str(response.url): возвращаться html_text = str(response.text) пытаться: # Извлеките адреса электронной почты с помощью функции mail_list = self.extract_emails(html_text) # Извлекаем номера телефонов с помощью функции phone_numbers = self.extract_phone(html_text) # Убедитесь, что списки «электронная почта» и «телефон» имеют одинаковую длину min_length = min(len(mail_list), len(phone_numbers)) список_почты = список_почты[:min_length] номер_телефона = номер_телефона[:min_length] dic = {'name': [имя], 'категория': [категория], 'электронная почта': mail_list, 'телефон': phone_numbers, 'url': [str(response.url)]} кроме исключения как e: # Обработайте сбой, установив значения «NA» self.logger.error(f'Ошибка очистки {response.url}: {e}') dic = {'name': [имя], 'категория': [категория], 'электронная почта': ['NA'], 'phone': ['NA'], 'url': [str(response.url)]} # Проверяем, существует ли выходной файл, и сообщаем пользователю, существует ли он если os.path.exists(self.path): ответ = self.ask_user('Файл уже существует, заменить?') если ответ ложный: возвращаться # Создать или перезаписать выходной файл self.create_or_overwrite_file(self.path) # Добавляем данные в выходной CSV-файл df = pd.DataFrame(dic) df.to_csv(self.path, mode='a', header=False, index=False) # Определите список отклонения и путь к выходному файлу ignore = ['example.com', 'example2.com'] # Отрегулируйте по мере необходимости path = 'output.csv' # При необходимости измените путь к выходному файлу def Ask_user(я, вопрос): ответ = ввод (вопрос + 'y/n' + '\n') вернуть ответ.lower() == 'y' Защиту create_or_overwrite_file(self, путь): ответ = Ложь если os.path.exists(путь): ответ = self.ask_user('Файл уже существует, заменить?') если ответ ложный: возвращаться с open(path, 'wb') как файлом: файл.закрыть() Мой журнал довольно длинный, поэтому вот несколько выдержек:

21.09.2023 15:51:02 [scrapy.core.engine] ОТЛАДКА: просканировано (200) (ссылка: нет) 2023-09-21 15:51:02 [scrapy.spidermiddlewares.httperror] ИНФОРМАЦИЯ: игнорирование ответа : код состояния HTTP не обрабатывается или не разрешен 2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (308) на с 2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (301) на с 2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (301) на из 2023-09-21 15:51:03 [scrapy.core.engine] ОТЛАДКА: просканировано (200) (референт: нет) 2023-09-21 15:51:03 [root] ИНФО: Началось сканирование. Пока всё хорошо

файл "/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py", строка 502, в dict_to_mgr return arrays_to_mgr(массивы, столбцы, индекс, dtype=dtype, typ=typ, консолидация=копировать) Файл «/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py», строка 120, в arrays_to_mgr индекс = _extract_index(массивы) Файл «/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py», строка 674, в _extract_index поднять ValueError("Все массивы должны быть одинаковой длины" Мне кажется, что проблема в ошибке в длине массива. Я попытался добавить значения NA, если процесс не удался. Кажется, не помогло

Эта ошибка тоже всплывала.

21.09.2023, 15:52:03 [scrapy.downloadermiddlewares.retry] ОШИБКА: прекращена повторная попытка (3 раза не удалось): [] 2023-09-21 15:52:03 [scrapy.downloadermiddlewares.robotstxt] ОШИБКА: Ошибка загрузки : [] Остальная часть журнала по сути повторяется.

Что я сделал и чего ожидал:
[*]Я попробовал добавить попытку, за исключением циклов, позволяющих пропускать проблемные сайты и вводить значения NA. [*]Я ожидал, что даже если я не смогу получить нужную информацию, у меня все равно будет CSV-файл с названием компании, URL-адресом и значениями NA. [*]Мне также было бы интересно узнать, как мне лучше отладить это самостоятельно.

1695415869

Гость


Я пытаюсь заставить этого паука просмотреть список из 1600 URL-адресов, содержащихся в CSV-файле, и извлечь со страницы адреса электронной почты и номера телефонов. Если у кого-нибудь уже есть такая программа, я был бы рад ее использовать, но также мне хотелось бы знать, где я ошибся. Вот мой код, я передал его через чат gpt, чтобы уточнить и аннотировать.
 
импортировать Scrapy импортировать панд как pd импортировать ОС импортировать повторно журнал импорта класс Паук(scrapy.Spider):     имя = 'business_scrape'     защита Extract_emails (я, текст):         # Извлекаем адреса электронной почты, используя комплексный шаблон регулярного выражения         электронная почта = re.findall(             r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}', текст)         возвращать электронные письма     защита Extract_phone (я, текст):         # Извлекаем номера телефонов         phone_numbers = re.findall(             r'(?:(?:\+\d{1,2}\s?)?\(?\d{3}\)?[-.\s]?)?\d{3,4}[ -.\s]?\d{4}', текст)         вернуть номера_телефонов     защита start_requests (сам):         # Прочитайте исходный файл CSV со столбцами [имя, URL, категория]         csv = 'bozeman_businesses.csv' # Укажите свой CSV-файл         init_df = pd.read_csv(csv)         для _ введите строку в init_df.iterrows():             имя = строка['имя']             URL = строка['url']             категория = строка['категория']             выход Scrapy.Request (url = URL, callback = self.parse_link, мета = {'name': имя, 'категория': категория})     def parse_link(сам, ответ):         имя = ответ.мета['имя']         категория = response.meta['категория']         # Инициализируем ведение журнала         logging.basicConfig(             filename='scrapy.log', format='%(levelname)s: %(message)s', level=logging.INFO)         # Зафиксировать начало сканирования         logging.info('Сканирование началось.')         для слова в self.reject:             если слово в str(response.url):                 возвращаться         html_text = str(response.text)         пытаться:             # Извлеките адреса электронной почты с помощью функции             mail_list = self.extract_emails(html_text)             # Извлекаем номера телефонов с помощью функции             phone_numbers = self.extract_phone(html_text)             # Убедитесь, что списки «электронная почта» и «телефон» имеют одинаковую длину             min_length = min(len(mail_list), len(phone_numbers))             список_почты = список_почты[:min_length]             номер_телефона = номер_телефона[:min_length]             dic = {'name': [имя], 'категория': [категория], 'электронная почта': mail_list,                    'телефон': phone_numbers, 'url': [str(response.url)]}         кроме исключения как e:             # Обработайте сбой, установив значения «NA»             self.logger.error(f'Ошибка очистки {response.url}: {e}')             dic = {'name': [имя], 'категория': [категория], 'электронная почта': ['NA'],                    'phone': ['NA'], 'url': [str(response.url)]}         # Проверяем, существует ли выходной файл, и сообщаем пользователю, существует ли он         если os.path.exists(self.path):             ответ = self.ask_user('Файл уже существует, заменить?')             если ответ ложный:                 возвращаться         # Создать или перезаписать выходной файл         self.create_or_overwrite_file(self.path)         # Добавляем данные в выходной CSV-файл         df = pd.DataFrame(dic)         df.to_csv(self.path, mode='a', header=False, index=False)     # Определите список отклонения и путь к выходному файлу     ignore = ['example.com', 'example2.com'] # Отрегулируйте по мере необходимости     path = 'output.csv' # При необходимости измените путь к выходному файлу     def Ask_user(я, вопрос):         ответ = ввод (вопрос + 'y/n' + '\n')         вернуть ответ.lower() == 'y'     Защиту create_or_overwrite_file(self, путь):         ответ = Ложь         если os.path.exists(путь):             ответ = self.ask_user('Файл уже существует, заменить?')             если ответ ложный:                 возвращаться         с open(path, 'wb') как файлом:             файл.закрыть()  Мой журнал довольно длинный, поэтому вот несколько выдержек:
 
21.09.2023 15:51:02 [scrapy.core.engine] ОТЛАДКА: просканировано (200)  (ссылка: нет) 2023-09-21 15:51:02 [scrapy.spidermiddlewares.httperror] ИНФОРМАЦИЯ: игнорирование ответа : код состояния HTTP не обрабатывается или не разрешен 2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (308) на  с  2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (301) на  с  2023-09-21 15:51:03 [scrapy.downloadermiddlewares.redirect] ОТЛАДКА: перенаправление (301) на  из  2023-09-21 15:51:03 [scrapy.core.engine] ОТЛАДКА: просканировано (200)  (референт: нет) 2023-09-21 15:51:03 [root] ИНФО: Началось сканирование.  Пока всё хорошо
 
файл "/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py", строка 502, в dict_to_mgr     return arrays_to_mgr(массивы, столбцы, индекс, dtype=dtype, typ=typ, консолидация=копировать)   Файл «/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py», строка 120, в arrays_to_mgr     индекс = _extract_index(массивы)   Файл «/Users/me/opt/anaconda3/lib/python3.9/site-packages/pandas/core/internals/construction.py», строка 674, в _extract_index     поднять ValueError("Все массивы должны быть одинаковой длины"  Мне кажется, что проблема в ошибке в длине массива. Я попытался добавить значения NA, если процесс не удался. Кажется, не помогло :(
 
Эта ошибка тоже всплывала.
 
21.09.2023, 15:52:03 [scrapy.downloadermiddlewares.retry] ОШИБКА: прекращена повторная попытка  (3 раза не удалось): [] 2023-09-21 15:52:03 [scrapy.downloadermiddlewares.robotstxt] ОШИБКА: Ошибка загрузки : []  Остальная часть журнала по сути повторяется.
 
Что я сделал и чего ожидал:
  [*]Я попробовал добавить попытку, за исключением циклов, позволяющих пропускать проблемные сайты и вводить значения NA. [*]Я ожидал, что даже если я не смогу получить нужную информацию, у меня все равно будет CSV-файл с названием компании, URL-адресом и значениями NA. [*]Мне также было бы интересно узнать, как мне лучше отладить это самостоятельно.

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Обработка ошибок Scrapy Spider (scrapy.core.scraper)

Последнее сообщение Anonymous « 09 ноя 2024, 10:58
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 10:58 » в форуме Python

Прочитав несколько часов решений, я так и не смог найти ответ на свою проблему.
Я пытаюсь очистить веб-страницу супермаркета, думаю, ошибка в функции синтаксического анализа. Пожалуйста, если кто-то может мне помочь.
import scrapy
from bs4 import...

0 Ответы

50 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 10:58
Запуск кода, когда Scrapy Spider закончил ползать

Последнее сообщение Anonymous « 09 мар 2025, 10:57
Добавлено в форуме Python

Anonymous » 09 мар 2025, 10:57 » в форуме Python

Есть ли способ получить скрапу для выполнения кода, как только ползание полностью закончено, чтобы справиться с перемещением / очисткой данных? Я уверен, что это тривиально, но мой Google-Fu, похоже, оставил меня для этой проблемы.

Подробнее здесь:

0 Ответы

4 Просмотры

Последнее сообщение Anonymous
09 мар 2025, 10:57
Можете ли вы просмотреть мой код и предоставить отзыв и аудит лучших практик для Scrapy Spider? [закрыто]

Последнее сообщение Anonymous « 27 июн 2024, 23:55
Добавлено в форуме Python

Anonymous » 27 июн 2024, 23:55 » в форуме Python

Я написал Scrapy-паук для сбора данных о продуктах с веб-сайта. Паук перемещается по нескольким страницам, чтобы найти конкретный продукт, и извлекает такие детали, как название продукта, цена, цвет, размер и отзывы. Буду очень признателен, если вы...

0 Ответы

22 Просмотры

Последнее сообщение Anonymous
27 июн 2024, 23:55
Получить блок запроса в Python Scrapy Spider, но тот же запрос работает в почтальоне. ПОЧЕМУ

Последнее сообщение Anonymous « 27 сен 2024, 12:50
Добавлено в форуме Python

Anonymous » 27 сен 2024, 12:50 » в форуме Python

Я делаю запрос на получение в почтальоне, и результат — 200. Однако, когда я копирую и вставляю тот же запрос из почтальона в Scrapy Spider, он не работает и возвращает ошибку 403. Затем я отправляю запрос py, но он тоже не работает и возвращает...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
27 сен 2024, 12:50
Scrapy Spider использует промежуточное программное обеспечение seleniumbase, очищающее URL-адреса «chrome-extension», ко

Последнее сообщение Anonymous « 21 окт 2024, 22:00
Добавлено в форуме Python

Anonymous » 21 окт 2024, 22:00 » в форуме Python

В настоящее время я использую Scrapy Spider, используя промежуточное программное обеспечение Seleniumbase, и по какой-то причине он очищает URL-адреса расширений Chrome. Я считываю веб-сайт и мой парсер ни в коем случае не запрашивает ничего, кроме...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
21 окт 2024, 22:00

Вернуться в «Python»