У меня есть небольшой код, который я пытаюсь создать, чтобы взять определенную страницу tumblr, а затем последовательно сканировать ее по посту # и проверять, существует ли страница. Если это произойдет, он напечатает этот полный URL-адрес в текстовый файл, а если нет, то пропустит.
Я смог определить, что если сообщение не существует, то tumblr будет иметь определенное имя класса для div, где будет отображаться диалоговое окно «публикация не найдена», что означает, что я могу проверить, существует ли этот div, а если нет, то он сохранит URL-адрес.
Проблема, с которой я сталкиваюсь, заключается в том, что BeautifulSoup, Selenium и Драматург не хочет работать ни на что. Я пробовал делать отложенный запуск, если страница все еще загружалась, но у меня заканчиваются идеи. У кого-нибудь есть какие-нибудь мысли по этому поводу?
Код довольно простой: он должен проверять код состояния 200, чтобы убедиться, что сервер обработал и ответил, а затем проверяет элементы страницы на наличие имени класса. Следующие шаги зависят от результатов этого логического теста.
import requests
from bs4 import BeautifulSoup
def page_has_div_class(url, class_name):
try:
r = requests.get(url, timeout=10)
if r.status_code != 200:
return False # Page not valid
soup = BeautifulSoup(r.text, "html.parser")
# Find ANY whose full class attribute matches exactly
for div in soup.find_all("div"):
if div.get("class") and " ".join(div.get("class")) == class_name:
return True
return False
except Exception as e:
print("Error:", e)
return False
url = "https://www.tumblr.com/BLOG_NAME_TO_SCAN/posts/1"
class_name = "XLWxA H4bQ8"
if page_has_div_class(url, class_name):
print("Found the div class!")
else:
print("Class not found on page.")
Подробнее здесь: https://stackoverflow.com/questions/798 ... eb-crawler
Веб-сканер, ориентированный на URL-адрес ⇐ Python
Программы на Python
1763879106
Anonymous
У меня есть небольшой код, который я пытаюсь создать, чтобы взять определенную страницу tumblr, а затем последовательно сканировать ее по посту # и проверять, существует ли страница. Если это произойдет, он напечатает этот полный URL-адрес в текстовый файл, а если нет, то пропустит.
Я смог определить, что если сообщение не существует, то tumblr будет иметь определенное имя класса для div, где будет отображаться диалоговое окно «публикация не найдена», что означает, что я могу проверить, существует ли этот div, а если нет, то он сохранит URL-адрес.
Проблема, с которой я сталкиваюсь, заключается в том, что BeautifulSoup, Selenium и Драматург не хочет работать ни на что. Я пробовал делать отложенный запуск, если страница все еще загружалась, но у меня заканчиваются идеи. У кого-нибудь есть какие-нибудь мысли по этому поводу?
Код довольно простой: он должен проверять код состояния 200, чтобы убедиться, что сервер обработал и ответил, а затем проверяет элементы страницы на наличие имени класса. Следующие шаги зависят от результатов этого логического теста.
import requests
from bs4 import BeautifulSoup
def page_has_div_class(url, class_name):
try:
r = requests.get(url, timeout=10)
if r.status_code != 200:
return False # Page not valid
soup = BeautifulSoup(r.text, "html.parser")
# Find ANY whose full class attribute matches exactly
for div in soup.find_all("div"):
if div.get("class") and " ".join(div.get("class")) == class_name:
return True
return False
except Exception as e:
print("Error:", e)
return False
url = "https://www.tumblr.com/BLOG_NAME_TO_SCAN/posts/1"
class_name = "XLWxA H4bQ8"
if page_has_div_class(url, class_name):
print("Found the div class!")
else:
print("Class not found on page.")
Подробнее здесь: [url]https://stackoverflow.com/questions/79827724/url-targeted-web-crawler[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия