Нужна помощь в очистке HTML из справочника по баскетболу

Нужна помощь в очистке HTML из справочника по баскетболу ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Нужна помощь в очистке HTML из справочника по баскетболу

Сообщение Anonymous » 26 окт 2025, 10:58

Я новичок в парсинге веб-страниц с помощью python/BeautifulSoup/urllib.request и уже долгое время пытаюсь понять, как парсить эту таблицу. Я нашел в Интернете другой код, опробовал его, пытался понять, как они работают, и модифицировал их, но они всегда отфильтровывают первый столбец, который мне нужен.
Код:

Код: Выделить всё

from urllib.request import urlopen
from bs4 import BeautifulSoup
import pandas as pd
import numpy

# NBA season we will be analyzing
month = "january"
# URL page we will scrape (see image above)
url = "https://www.basketball-reference.com/leagues/NBA_2021_games-{}.html".format(month)
# this is the HTML for given URL
html = urlopen(url)
soup = BeautifulSoup(html)

# use findALL() to get the column headers
soup.findAll()
# use getText()to extract the text we need into a list
headers = [th.getText() for th in soup.findAll('tr', limit=2)[0].findAll('th')]
# exclude the first column as we will not need the ranking order from Basketball Reference for the analysis
headers=headers[1:]

# avoid the first header row
rows = soup.findAll('tr')[1:]

player_stats = [[td.getText() for td in rows[i].findAll('td')]

for i in range(len(rows))]
df = pd.DataFrame(player_stats, columns = headers)

Может кто-нибудь показать мне, как найти таблицу на этом веб-сайте? Я не могу понять этого хоть убей
https://www.basketball-reference.com/le ... nuary.html

Подробнее здесь: https://stackoverflow.com/questions/657 ... -reference

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»