Scrapy + Playwright: вызов синхронной функции parse_single из асинхронной функции анализа

Scrapy + Playwright: вызов синхронной функции parse_single из асинхронной функции анализа ⇐ Python

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Anonymous

Scrapy + Playwright: вызов синхронной функции parse_single из асинхронной функции анализа

Цитата

Сообщение Anonymous » 01 июл 2024, 03:17

Я работаю с Scrapy + Playwright.
Упрощенная версия паука, который у меня сейчас есть:

Код: Выделить всё

class MySpider(CodeSpider):
def start_requests(self):
url = 'https://www.google.com/search?q=product+designer+nyc&ibp=htl;jobs'
yield Request(url, headers=headers, meta={
'playwright': True,
'playwright_include_page': True,
'errback': self.errback,
})

async def parse(self, response):
page = response.meta["playwright_page"]
jobs = page.locator("//li")

num_jobs = await jobs.count()

for idx in range(num_jobs):
await jobs.nth(idx).click()
job_details = page.locator("#tl_ditsc")

job_details_html = await job_details.inner_html()
soup = BeautifulSoup(job_details_html, 'html.parser')
data = self.parse_single_jd(soup)

yield {
'idx': idx,
'data': data,
}

def parse_single_jd(self, soup):
print("parse_single_jd running!")
title_of_role = soup.h2.text

data = {
"title": title_of_role,
}
return data

Паук запускается: он открывает браузер Playwright, переходит по URL-адресу, просматривает задания на странице и нажимает на каждое из них.
Однако функция self.parse_single_jd НЕ выполняется должным образом — полученные данные в конечном итоге становятся /code>. Действительно, строка print("parse_single_jd Running!") никогда не срабатывает.
Я подозреваю, что это связано с запуском синхронной функции parse_single_jd из асинхронного анализа. функция. Как заставить parse_single_jd запускаться/оцениваться в этой ситуации?

Подробнее здесь: https://stackoverflow.com/questions/786 ... an-async-p

1719793058

Anonymous

Я работаю с Scrapy + Playwright.
Упрощенная версия паука, который у меня сейчас есть:
[code]class MySpider(CodeSpider):
def start_requests(self):
url = 'https://www.google.com/search?q=product+designer+nyc&ibp=htl;jobs'
yield Request(url, headers=headers, meta={
'playwright': True,
'playwright_include_page': True,
'errback': self.errback,
})

async def parse(self, response):
page = response.meta["playwright_page"]
jobs = page.locator("//li")

num_jobs = await jobs.count()

for idx in range(num_jobs):
await jobs.nth(idx).click()
job_details = page.locator("#tl_ditsc")

job_details_html = await job_details.inner_html()
soup = BeautifulSoup(job_details_html, 'html.parser')
data = self.parse_single_jd(soup)

yield {
'idx': idx,
'data': data,
}

def parse_single_jd(self, soup):
print("parse_single_jd running!")
title_of_role = soup.h2.text

data = {
"title": title_of_role,
}
return data
[/code]
Паук запускается: он открывает браузер Playwright, переходит по URL-адресу, просматривает задания на странице и нажимает на каждое из них.
Однако функция self.parse_single_jd НЕ выполняется должным образом — полученные данные в конечном итоге становятся /code>. Действительно, строка print("parse_single_jd Running!") никогда не срабатывает.
Я подозреваю, что это связано с запуском синхронной функции parse_single_jd из асинхронного анализа.  функция. Как заставить parse_single_jd запускаться/оцениваться в этой ситуации? 

Подробнее здесь: [url]https://stackoverflow.com/questions/78653369/scrapy-playwright-calling-a-synchronous-parse-single-function-from-an-async-p[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Scrapy + Playwright: вызов синхронной функции parse_single из асинхронной функции анализа

Последнее сообщение Anonymous « 21 июн 2024, 18:57
Добавлено в форуме Python

Anonymous » 21 июн 2024, 18:57 » в форуме Python

Я работаю с Scrapy + Playwright.
Упрощенная версия паука, который у меня сейчас есть:
class MySpider(CodeSpider):
def start_requests(self):
url = '
yield Request(url, headers=headers, meta={
'playwright': True,
'playwright_include_page': True,...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
21 июн 2024, 18:57
Вызов асинхронной функции из синхронной функции внутри Юпитера

Последнее сообщение Anonymous « 17 май 2025, 17:17
Добавлено в форуме Python

Anonymous » 17 май 2025, 17:17 » в форуме Python

В нашем проекте ряд функций состоит из 2 вкуса: асинхронно и синхронно. Мы пишем асинхронную версию и предоставляем runa () обертку вокруг Asyncio.run () функция:
async def read_sensor_async():
print( Reading sensor... )
# Actual code
return 9 #...

0 Ответы

7 Просмотры

Последнее сообщение Anonymous
17 май 2025, 17:17
Вызов асинхронной функции из синхронной функции внутри Юпитера

Последнее сообщение Anonymous « 17 май 2025, 19:39
Добавлено в форуме Python

Anonymous » 17 май 2025, 19:39 » в форуме Python

В нашем проекте ряд функций состоит из 2 вкуса: асинхронно и синхронно. Мы пишем асинхронную версию и предоставляем runa () обертку вокруг Asyncio.run () функция:
async def read_sensor_async():
print( Reading sensor... )
# Actual code
return 9 #...

0 Ответы

9 Просмотры

Последнее сообщение Anonymous
17 май 2025, 19:39
Дублирование кода для синхронной и асинхронной реализации.

Последнее сообщение Anonymous « 25 май 2024, 02:44
Добавлено в форуме Python

Anonymous » 25 май 2024, 02:44 » в форуме Python

При реализации классов, которые используются как в синхронных, так и в асинхронных приложениях, я использую практически идентичный код для обоих вариантов использования.

В качестве примера рассмотрим:

from time import sleep
import asyncio

class...

0 Ответы

20 Просмотры

Последнее сообщение Anonymous
25 май 2024, 02:44
Перехват ошибок из асинхронной функции в блоке try..catch вне асинхронной функции

Последнее сообщение Anonymous « 19 янв 2025, 22:02
Добавлено в форуме Javascript

Anonymous » 19 янв 2025, 22:02 » в форуме Javascript

Итак, я делаю урок, в котором есть часть об асинхронном JavaScript. Я чувствую, что у меня все хорошо написано, но он включает в себя этот раздел, который, по моему мнению, не подходит для обнаружения ошибок?
async function myFunction {
// ...
await...

0 Ответы

43 Просмотры

Последнее сообщение Anonymous
19 янв 2025, 22:02

Вернуться в «Python»