Поиск третьего дочернего элемента URL-адреса, когда URL-адреса первого и второго дочерних элементов уже известны в Pytho

Поиск третьего дочернего элемента URL-адреса, когда URL-адреса первого и второго дочерних элементов уже известны в Pytho ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Поиск третьего дочернего элемента URL-адреса, когда URL-адреса первого и второго дочерних элементов уже известны в Pytho

Сообщение Anonymous » 21 сен 2023, 06:48

Я делаю проект на Python. У меня есть URL, скажем, http://funny.moa-times.net/o/medal/abcdefg.html. Есть еще один такой URL: http://funny.moa-times.net/o/medal/mnopqrs.html. Итак, оба этих URL-адреса являются дочерними элементами /medal/ (или, как я думал). Теперь есть еще один дочерний URL, например

http://funny.moa-times.net/o/medal/something_else.html. Мне нужно выяснить, что это такое_еще

Я пробовал это:

`запросы на импорт из bs4 импорт BeautifulSoup URL = 'http://funny.moa-times.net/' захват = запросы.получить (URL-адреса) суп = BeautifulSoup(grab.text, 'html.parser') # открытие файла в режиме записи f = open("test1.txt", "w") # переход по абзацам из супа для ссылки в супе.find_all("a"): данные = link.get('href') f.write(данные) f.write("\n") е.закрыть() ` Этот код дал мне только 1 URL http://www.moa-times.net/. когда я применил тот же код к этому URL-адресу, он дал мне около 100 разных URL-адресов. Ни у одного из них не было формата /o/medal/

Я также пробовал приведенный выше код

urls = 'http://funny.moa-times.net/o/medal/' это дало мне ошибку

Предупреждение (из модуля предупреждений): Файл «C:\Users\Owner\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.11_qbz5n2kfra8p0\LocalCache\local-packages\Python311\site-packages\bs4\builder\__init__.py», строка 545 предупреждения.предупреждать( XMLParsedAsHTMLWarning: Похоже, вы анализируете XML-документ с помощью анализатора HTML. Если это действительно HTML-документ (может быть, XHTML?), вы можете игнорировать или фильтровать это предупреждение. Если это XML, вы должны знать, что использование анализатора XML будет более надежным. Чтобы проанализировать этот документ как XML, убедитесь, что у вас установлен пакет lxml, и передайте аргумент ключевого слова `features="xml"` в конструктор BeautifulSoup. но когда я попытался использовать синтаксический анализатор xml

импортировать CSV запросы на импорт импортировать xml.etree.ElementTree как ET дерево = ET.parse('http://storage.moj-posao.net/o/hunt/') это дало мне:

Файл «C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.11_3.11.1520.0_x64__qbz5n2kfra8p0\Lib\xml\etree\ElementTree.py», строка 1218, в анализе Tree.parse(источник, парсер) Файл "C:\Program Files\WindowsApps\PythonSoftwareFoundation.Python.3.11_3.11.1520.0_x64__qbz5n2kfra8p0\Lib\xml\etree\ElementTree.py", строка 569, в анализе источник = открытый (источник, «рб») Ошибка ОС: [Errno 22] Неверный аргумент: Я новичок в парсинге веб-страниц. Любая помощь приветствуется. Спасибо.

Anonymous

1 сообщение • Страница 1 из 1

Вернуться в «Python»