Проанализируйте HTML -код для всей веб -страницы, прокрученной вниз

Проанализируйте HTML -код для всей веб -страницы, прокрученной вниз ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Проанализируйте HTML -код для всей веб -страницы, прокрученной вниз

Цитата

Сообщение Anonymous » 31 авг 2025, 02:37

from bs4 import BeautifulSoup
import urllib,sys
reload(sys)
sys.setdefaultencoding("utf-8")
r = urllib.urlopen('https://twitter.com/ndtv').read()
soup = BeautifulSoup(r)
< /code>

Это дало бы мне не всю веб -страницу, прокрученную в конце, что я хочу, но только часть ее.from selenium import webdriver
from selenium.common.exceptions import StaleElementReferenceException, TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import urllib,sys,requests
reload(sys)
sys.setdefaultencoding("utf-8")

class wait_for_more_than_n_elements_to_be_present(object):
def __init__(self, locator, count):
self.locator = locator
self.count = count

def __call__(self, driver):
try:
elements = EC._find_elements(driver, self.locator)
return len(elements) > self.count
except StaleElementReferenceException:
return False

def return_html_code(url):
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
# initial wait for the tweets to load
wait = WebDriverWait(driver, 10)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "li[data-item-id]")))
# scroll down to the last tweet until there is no more tweets loaded
while True:
tweets = driver.find_elements_by_css_selector("li[data-item-id]")
number_of_tweets = len(tweets)
print number_of_tweets
driver.execute_script("arguments[0].scrollIntoView();", tweets[-1])
try:
wait.until(wait_for_more_than_n_elements_to_be_present((By.CSS_SELECTOR, "li[data-item-id]"), number_of_tweets))
except TimeoutException:
break
html_full_source=driver.page_source
driver.close()
return html_full_source

url='https://twitter.com/thecoolstacks'
#using selenium browser
html_source=return_html_code(url)
soup_selenium = BeautifulSoup(html_source)
print soup_selenium
text_tweet=[]
alltweets_selenium = soup_selenium.find_all(attrs={'data-item-type' : 'tweet'})
for tweet in alltweets_selenium:
#Text of tweet
html_tweet= tweet.find_all("p", class_="TweetTextSize TweetTextSize--16px js-tweet-text tweet-text")
text_tweet.append(''.join(html_tweet[0].findAll(text=True)))
print text_tweet
< /code>

Предполагаемый вывод: < /p>

import requests from bs4 import BeautifulSoup url='https://twitter.com/thecoolstacks'
req = requests.get(url)
soup = BeautifulSoup(req.content)
alltweets = soup.find_all(attrs={'data-item-type' : 'tweet'})
print alltweets[0]

Подробнее здесь: https://stackoverflow.com/questions/309 ... olled-down

1756597049

Anonymous

from bs4 import BeautifulSoup
import urllib,sys
reload(sys)
sys.setdefaultencoding("utf-8")
r = urllib.urlopen('https://twitter.com/ndtv').read()
soup = BeautifulSoup(r)
< /code>

Это дало бы мне не всю веб -страницу, прокрученную в конце, что я хочу, но только часть ее.from selenium import webdriver
from selenium.common.exceptions import StaleElementReferenceException, TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from bs4 import BeautifulSoup
import urllib,sys,requests
reload(sys)
sys.setdefaultencoding("utf-8")

class wait_for_more_than_n_elements_to_be_present(object):
def __init__(self, locator, count):
self.locator = locator
self.count = count

def __call__(self, driver):
try:
elements = EC._find_elements(driver, self.locator)
return len(elements) > self.count
except StaleElementReferenceException:
return False

def return_html_code(url):
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
# initial wait for the tweets to load
wait = WebDriverWait(driver, 10)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, "li[data-item-id]")))
# scroll down to the last tweet until there is no more tweets loaded
while True:
tweets = driver.find_elements_by_css_selector("li[data-item-id]")
number_of_tweets = len(tweets)
print number_of_tweets
driver.execute_script("arguments[0].scrollIntoView();", tweets[-1])
try:
wait.until(wait_for_more_than_n_elements_to_be_present((By.CSS_SELECTOR, "li[data-item-id]"), number_of_tweets))
except TimeoutException:
break
html_full_source=driver.page_source
driver.close()
return html_full_source

url='https://twitter.com/thecoolstacks'
#using selenium browser
html_source=return_html_code(url)
soup_selenium = BeautifulSoup(html_source)
print soup_selenium
text_tweet=[]
alltweets_selenium = soup_selenium.find_all(attrs={'data-item-type' : 'tweet'})
for tweet in alltweets_selenium:
#Text of tweet
html_tweet= tweet.find_all("p", class_="TweetTextSize TweetTextSize--16px js-tweet-text tweet-text")
text_tweet.append(''.join(html_tweet[0].findAll(text=True)))
print text_tweet
< /code>

Предполагаемый вывод: < /p>

import requests from bs4 import BeautifulSoup      url='https://twitter.com/thecoolstacks'
req = requests.get(url)
soup = BeautifulSoup(req.content)
alltweets = soup.find_all(attrs={'data-item-type' : 'tweet'})
print alltweets[0]
 

Подробнее здесь: [url]https://stackoverflow.com/questions/30982176/parse-the-html-code-for-a-whole-webpage-scrolled-down[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Есть ли способ прокручивать вверх и вниз до определенной области/элемента внутри веб-страницы, а не всей веб-страницы, и

Последнее сообщение Anonymous « 04 июл 2024, 09:24
Добавлено в форуме Python

Anonymous » 04 июл 2024, 09:24 » в форуме Python

В настоящее время я пытаюсь прокрутить определенную область на этой веб-странице, которую я тестирую, потому что кнопка «Сохранить», которую мне нужно нажать, находится внизу и не видна, пока вы не прокрутите вниз, поэтому всякий раз, когда я...

0 Ответы

34 Просмотры

Последнее сообщение Anonymous
04 июл 2024, 09:24
Хотите автоматически перезагрузить данные HTTP-запроса и обновить данные в HTML без перезагрузки всей веб-страницы.

Последнее сообщение Anonymous « 02 июл 2024, 23:01
Добавлено в форуме Python

Anonymous » 02 июл 2024, 23:01 » в форуме Python

Я пишу приложение Flask, которое принимает пользовательский ввод (предполагаемое «имя»), используя форму html. С другой стороны, у меня есть функция, которая отправляет http-запросы на веб-страницу и возвращает результаты (предполагаемое «имя»:...

0 Ответы

23 Просмотры

Последнее сообщение Anonymous
02 июл 2024, 23:01
Проанализируйте файл с разделителями табуляции и создайте другой текстовый файл только с одним столбцом в качестве вывод

Последнее сообщение Гость « 20 сен 2023, 17:44
Добавлено в форуме Php

Гость » 20 сен 2023, 17:44 » в форуме Php

Мне нужно прочитать текстовый файл (input.txt) с разделителем '\t' и отобразить только один столбец в качестве вывода в другом текстовом файле (output.txt).
Я новичок в этом и надеюсь на какое-нибудь решение.
Файл
input.txt выглядит примерно так:...

0 Ответы

93 Просмотры

Последнее сообщение Гость
20 сен 2023, 17:44
Импортируйте Excel с вложенными ячейками (заголовками) и проанализируйте его в json.

Последнее сообщение Гость « 21 сен 2023, 20:49
Добавлено в форуме Javascript

Гость » 21 сен 2023, 20:49 » в форуме Javascript

Мне нужно импортировать файл Excel, получить JSON и нарисовать ту же таблицу в форме.

Я использовал XLSX и XLSX.utils.sheet_to_json(sheet, {header: 1, defval: ''}) , но проблема в объединенных ячейках.

Я пытаюсь проанализировать этот файл Excel...

0 Ответы

50 Просмотры

Последнее сообщение Гость
21 сен 2023, 20:49
Импортируйте Excel с вложенными ячейками (заголовками) и проанализируйте его в json.

Последнее сообщение Гость « 21 сен 2023, 22:08
Добавлено в форуме Javascript

Гость » 21 сен 2023, 22:08 » в форуме Javascript

Мне нужно импортировать файл Excel, получить JSON и нарисовать ту же таблицу в форме.

Я использовал XLSX и XLSX.utils.sheet_to_json(sheet, {header: 1, defval: ''}) , но проблема в объединенных ячейках.

Я пытаюсь проанализировать этот файл Excel...

0 Ответы

34 Просмотры

Последнее сообщение Гость
21 сен 2023, 22:08

Вернуться в «Python»