URL-адрес веб-сайта: нажмите здесь
Снимок экрана веб-сайта:

Файлы для загрузки здесь, на веб-сайте, обновляются каждый час и ежедневно. Я не думаю, что какая-либо информация на этом веб-сайте изменится, за исключением содержимого файла xlsx, который вы видите на веб-сайте.
Я хочу загрузить две вещи с этого URL: метаинформацию и файлы xlsx, которые вы видите на снимке экрана.
Сначала я хочу загрузить эту метаинформацию и сделать из нее фрейм данных, как показано ниже.
Теперь я вручную выбираю их и копирую сюда. Но я хочу сделать это по URL
url_meta_df =
ID Type Name URL
CAL Region California https://www.eia.gov/electricity/gridmon ... n_CAL.xlsx
CAR Region Carolinas https://www.eia.gov/electricity/gridmon ... n_CAR.xlsx
CENT Region Central https://www.eia.gov/electricity/gridmon ... _CENT.xlsx
FLA Region Florida https://www.eia.gov/electricity/gridmon ... n_FLA.xlsx
Второе: загрузите каждый файл xlsx, сохраните его.
Мой код: я попробовал следовать ответу здесь, в SO
from bs4 import BeautifulSoup
import requests
r = requests.get(url)
data = r.text
soup = BeautifulSoup(data)
for link in soup.find_all('a'):
print(link.get('href'))
Существующий результат:
None
https://twitter.com/EIAgov
None
https://www.facebook.com/eiagov
None
#page-sub-nav
/
#
/petroleum/
/petroleum/weekly/
/petroleum/supply/weekly/
/naturalgas/
http://ir.eia.gov/ngs/ngs.html
/naturalgas/weekly/
/electricity/
/electricity/monthly/
....
Мобильная версия