Веб-страницы следуют следующему шаблону:
htt ps:// www.examples.com/user/username#page1-videos («1» в «page1» — это изменяющийся элемент).
Ссылки на веб-странице следуют следующему шаблону:
htt ps://www.example.com/video/1423061
У меня есть несколько вопросов:
- Исходный код относится к «name_list» и «link_list». Мне не нужен столбец «name» в окончательном CSV-файле, только 1 столбец (т. е. URL-адреса). Я попытался просто удалить все, что связано с name_list, но df оказался пустым. Как это исправить?
- Я хочу поместить все URL-адреса, которые нужно скопировать, в файл .txt и выполнить итерацию кода по каждому из них. строка в txt. Как мне это сделать?
Код: Выделить всё
import requests
from bs4 import BeautifulSoup
import pandas as pd
i=0
name_list =[]
link_list = []
while(i
Подробнее здесь: [url]https://stackoverflow.com/questions/78709420/python-scraping-links-from-multiple-urls[/url]