Я создал новые проекты Scrapy с помощью паука (их можно добавить несколько). Паук работает без каких-либо проблем, если он запущен с помощью
scrapy Craw myspider
Однако, когда я пытаюсь запустить парсер из пользовательского скрипта, он работает не начать. Я разбил сценарий до минимума, который не работает:
from scrapy.spiderloader import SpiderLoader
from scrapy.crawler import CrawlerRunner
from scrapy.utils.project import get_project_settings
from scrapy.utils.log import configure_logging
from twisted.internet import reactor
settings = get_project_settings()
configure_logging(settings)
runner = CrawlerRunner(settings)
spider_loader = SpiderLoader.from_settings(settings)
for spider in spider_loader.list():
print(f"Adding Spider: {spider}")
runner.crawl(spider_loader.load(spider))
d = runner.join()
d.addBoth(lambda _: reactor.stop())
reactor.run()
Вывод скрипта:
$ python3 minimal.py
Adding Spider: myspider
2024-12-06 14:52:02 [scrapy.addons] INFO: Enabled addons:
[]
Скрипт зависает, и никакие дополнительные сообщения от паука не выводятся. Я подтвердил, что никакого сетевого трафика, связанного со сканированием, не наблюдается. Код очень близок к документации, поэтому я немного понятия не имею, в чем может быть проблема и где искать.
Изменить:
Это минимальный сканер, который не запускается:
import scrapy
class GoogleSpider(scrapy.Spider):
name = "google"
allowed_domains = ["google.com"]
start_urls = ["https://www.google.com"]
def parse(self, response):
pass
Подробнее здесь: https://stackoverflow.com/questions/792 ... rt-spiders
Scrapy-скрипт не запускает пауков ⇐ Python
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Попытка ответить на капчу Amazon с нечетким и странным поведением генератора пауков
Anonymous » » в форуме Python - 0 Ответы
- 13 Просмотры
-
Последнее сообщение Anonymous
-