Как эффективно извлекать данные из тега скрипта с помощью BeautifulSoup в Python

Как эффективно извлекать данные из тега скрипта с помощью BeautifulSoup в Python ⇐ Python

Ответить

1 сообщение • Страница 1 из 1

Anonymous

Как эффективно извлекать данные из тега скрипта с помощью BeautifulSoup в Python

Цитата

Сообщение Anonymous » 09 окт 2024, 12:59

Я извлекаю данные из тега с помощью Python по URL-адресу, как показано ниже:

Код: Выделить всё

response = session.get("example.com")

soup = BeautifulSoup(response.content,features='html.parser')
all_scripts = soup.find_all('script')
desiredScript = all_scripts[2].get_text()
desiredData = json.loads(re.match(r'data = ({.*?});', desiredScript)[0])

Код: Выделить всё

desiredScript

выглядит примерно так, как показано ниже

Код: Выделить всё

$(document).ready(function() {
try {
var data = {.....}
}.....
})

Проблема в том, что, поскольку требуемый скрипт очень велик (данные var очень велики в iteslf), и, следовательно, для приведенного ниже кода требуется ~9 секунд. операция завершена:

Код: Выделить всё

desiredData = json.loads(re.match(r'data = ({.*?});', desiredScript)[0])

Как сократить время выполнения для поиска переменных данных из сценария, извлеченных с помощью BeautifulSoup? Есть ли лучший и более быстрый способ сделать это?
Может быть, не использовать библиотеку re, а что-то другое, что может быстрее находить данные из желаемого сценария?
Использование re.match() занимает 9 секунд, что увеличивает общее время выполнения моего сценария.

Подробнее здесь: https://stackoverflow.com/questions/790 ... -in-python

1728467949

Anonymous

Я извлекаю данные из тега с помощью Python по URL-адресу, как показано ниже:
[code]response = session.get("example.com")

soup = BeautifulSoup(response.content,features='html.parser')
all_scripts = soup.find_all('script')
desiredScript = all_scripts[2].get_text()
desiredData = json.loads(re.match(r'data = ({.*?});', desiredScript)[0])
[/code]
[code]desiredScript[/code] выглядит примерно так, как показано ниже
[code]$(document).ready(function() {
try {
var data = {.....}
}.....
})
[/code]
Проблема в том, что, поскольку требуемый скрипт очень велик (данные var очень велики в iteslf), и, следовательно, для приведенного ниже кода требуется ~9 секунд. операция завершена:
[code]desiredData = json.loads(re.match(r'data = ({.*?});', desiredScript)[0])
[/code]
Как сократить время выполнения для поиска переменных данных из сценария, извлеченных с помощью BeautifulSoup? Есть ли лучший и более быстрый способ сделать это?
Может быть, не использовать библиотеку re, а что-то другое, что может быстрее находить данные из желаемого сценария? 
Использование re.match() занимает 9 секунд, что увеличивает общее время выполнения моего сценария. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79069561/how-to-effectively-extract-data-from-script-tag-using-beautifulsoup-in-python[/url]