Парсинг URL-адреса с помощью Beautiful SoupPython

Программы на Python
Ответить
Anonymous
 Парсинг URL-адреса с помощью Beautiful Soup

Сообщение Anonymous »

Я новичок в сборе данных.
В этом случае я хочу получить URL-адрес типа «https:// . . .», но результатом является список в переменной link, содержащий все ссылки в Интернете. Вот код ниже;

Код: Выделить всё

import requests
from bs4 import BeautifulSoup
url = 'https://www.detik.com/search/searchall?query=KPK'
page = requests.get(url)
soup = BeautifulSoup(page.content, 'html.parser')
artikel = soup.findAll('div', {'class' : 'list media_rows list-berita'})
p = 1
link = []
for p in artikel:
s = p.findAll('a', href=True)['href']
link.append(s)
Результатом выполнения приведенного выше кода является ошибка, например:

Код: Выделить всё

TypeError                                 Traceback (most recent call last)
 in 
3 link = []
4 for p in artikel:
5         s = p.findAll('a', href=True)['href']
6         link.append(s)
TypeError: list indices must be integers or slices, not str
В результате я хочу получить все ссылки https:// . . . в

Подробнее здесь: https://stackoverflow.com/questions/680 ... tiful-soup
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»