Использование BeautifulSoup в списке без потери атрибутов URL

Использование BeautifulSoup в списке без потери атрибутов URL ⇐ Html

1 сообщение • Страница 1 из 1

Гость

Использование BeautifulSoup в списке без потери атрибутов URL

Сообщение Гость » 21 сен 2023, 23:34

Я успешно очистил страницу для всех li и создал фрейм данных. Часть, с которой у меня возникли проблемы, — это извлечение и сохранение части «url_for_rowN» в каждой строке. Мне нужен файл .csv, который фиксирует два текстовых поля и URL-адрес, примененный к одному из них; пример формата приведен в коде ниже.

Бонусом было бы, если бы я мог каким-то образом захватить «дату» из h3 и сохранить ее в .csv, но все элементы списка на странице объединены в один, перемежающийся вставленным H3.

Мой текущий код:
из импорта bs4 BeautifulSoup импортировать панд как pd # # Пример формата файла, который я хочу извлечь """ Дата1 [*]Часть 1_строки1: Часть2_строки1 . . . [*]Часть 1_строкиN: Часть2_строки Дата2 [*]Часть 1_строкиNplus1: Часть2_строкиNplus1[/url] . . """ # Желаемый результат — это файл .csv, где каждая строка содержит ["date","part1_of_rowN","Part2_of_rowN","url_for_rowN"] с open("myfile.html", "r") как og_file: страница = ул(og_file.read()) суп = BeautifulSoup(страница, "html5lib") list_items = суп.find_all('li') #разделяем каждый ли в объекте супа на столбцы список_выход = [] для Ли в list_items: компания = li.find_all('промежуток') row = [li.text для ли в компании] list_output.append (строка) df = pd.DataFrame(list_output, columns=["Компания", "Роль", "C", "D", "E"]) #уберите хлам в графе «Компания» df["Компания"] = df["Компания"].str.replace(':','') df["Компания"] = df["Компания"].str.strip() с open('scrape.csv', 'w', newline='') как файл: df.to_csv('scrape.csv')

Гость

1 сообщение • Страница 1 из 1

Вернуться в «Html»