Я пытаюсь получить данные с сайта baseball-reference.com. Я написал код для получения данных из других частей сайта, где таблицы написаны немного проще, но конкретный набор страниц, видимо, сложнее. Вот код, который у меня есть на данный момент.
из urllib.request import urlopen
из bs4 import BeautifulSoup
Код: Выделить всё
# Declare URL
test_url = 'https://www.baseball-reference.com/boxes/SLN/SLN201704020.shtml'
# Query the website and return the HTML
page = urlopen(test_url)
# Parse the HTML and store
soup = BeautifulSoup(page, 'lxml')
table = soup.find("div", {"class": "table_outer_container"})
Однако это не находит нужные мне таблицы (на этой конкретной странице две таблицы с At-Bats, RBI, HR, пробегами и т. д.). Я пробовал еще несколько вещей, например
Код: Выделить всё
table = soup.find_all("table" , {"class": "sortable stats_table"})
но это тоже не работает. Я также пытался прочитать сайт с помощью панд, но безуспешно, поэтому, если есть более простой способ с пандами, я тоже открыт для этого.
Подробнее здесь:
https://stackoverflow.com/questions/483 ... sted-table