Я пытаюсь создать парсер для веб-сайта olx (www.olx.pl), используя запросы и beautifulsoup. С большинством данных у меня проблем нет, но номер телефона скрыт (нужно сначала нажать на него). Я уже пытался использовать проверку Chrome, чтобы увидеть, что происходит на вкладке «Сеть», когда я нажимаю ее вручную.
Существует ajax-запрос с этой информацией. "?pt=5d1480fbad0a1f2006e865bfdf7a6fb07f244b82e17ab0ea4c5eaddc43f9da3 91b098e1926642564ffb781655d55be270c6913f7526a08298f43b24c0169636b"
Это телефонный токен, который можно найти в исходном коде веб-сайта (он меняется при каждой загрузке страницы).
Я пытался отправить такой запрос, используя библиотеку запросов, но получил в ответ «000 000 000».
Я могу получить номер телефона с помощью Selenium, но он загружается очень медленно.
Вопрос:
Есть ли способ обойти эти токены телефона безопасности?
/>или
Как ускорить Selenium для очистки номера телефона, скажем, за 1-2 секунды?
Пример объявления:
https://www.olx.pl/561666735
РЕДАКТИРОВАТЬ:
Собственно, теперь в ответ я получаю сообщение о том, что мой IP-адрес заблокирован. (Но только при использовании запросов, ip не блокируется, когда я загружаю страницу вручную).
К сожалению, я внес некоторые изменения и не могу воспроизвести код, чтобы получить в ответ «000 000 000». Сейчас это часть моего кода.
def scrape_phone(id):
s = requests.Session()
url = "https://www.olx.pl/{}".format(id)
response = s.get(url, headers=headers)
page_text = response.text
# getting short id
index_of_short_id = page_text.index("'id':'")
short_id = page_text[index_of_short_id:index_of_short_id+11].split("'")[-1]
# getting phone token
index_of_token = page_text.index("phoneToken")
phone_token = page_text[index_of_token+10:index_of_token+150].split("'")[1]
url = "https://www.olx.pl/ajax/misc/contact/ph ... (short_id)
data = {
'pt': phone_token
}
response = s.post(url, data=data, headers=headers)
print(response.text)
scrape_phone(540006276)
Подробнее здесь: https://stackoverflow.com/questions/587 ... rom-olx-ad
Парсинг номера телефона из рекламы Olx ⇐ Python
Программы на Python
1769684183
Anonymous
Я пытаюсь создать парсер для веб-сайта olx (www.olx.pl), используя запросы и beautifulsoup. С большинством данных у меня проблем нет, но номер телефона скрыт (нужно сначала нажать на него). Я уже пытался использовать проверку Chrome, чтобы увидеть, что происходит на вкладке «Сеть», когда я нажимаю ее вручную.
Существует ajax-запрос с этой информацией. "?pt=5d1480fbad0a1f2006e865bfdf7a6fb07f244b82e17ab0ea4c5eaddc43f9da3 91b098e1926642564ffb781655d55be270c6913f7526a08298f43b24c0169636b"
Это телефонный токен, который можно найти в исходном коде веб-сайта (он меняется при каждой загрузке страницы).
Я пытался отправить такой запрос, используя библиотеку запросов, но получил в ответ «000 000 000».
Я могу получить номер телефона с помощью Selenium, но он загружается очень медленно.
Вопрос:
Есть ли способ обойти эти токены телефона безопасности?
/>или
Как ускорить Selenium для [b]очистки[/b] номера телефона, скажем, за 1-2 секунды?
Пример объявления:
https://www.olx.pl/561666735
РЕДАКТИРОВАТЬ:
Собственно, теперь в ответ я получаю сообщение о том, что мой IP-адрес заблокирован. (Но только при использовании запросов, ip не блокируется, когда я загружаю страницу вручную).
К сожалению, я внес некоторые изменения и не могу воспроизвести код, чтобы получить в ответ «000 000 000». Сейчас это часть моего кода.
def scrape_phone(id):
s = requests.Session()
url = "https://www.olx.pl/{}".format(id)
response = s.get(url, headers=headers)
page_text = response.text
# getting short id
index_of_short_id = page_text.index("'id':'")
short_id = page_text[index_of_short_id:index_of_short_id+11].split("'")[-1]
# getting phone token
index_of_token = page_text.index("phoneToken")
phone_token = page_text[index_of_token+10:index_of_token+150].split("'")[1]
url = "https://www.olx.pl/ajax/misc/contact/phone/{}".format(short_id)
data = {
'pt': phone_token
}
response = s.post(url, data=data, headers=headers)
print(response.text)
scrape_phone(540006276)
Подробнее здесь: [url]https://stackoverflow.com/questions/58737623/scraping-phone-number-from-olx-ad[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия