Как использовать if/else в понимании списка с красивой логикой супа, которая будет проходить через html-страницу

Как использовать if/else в понимании списка с красивой логикой супа, которая будет проходить через html-страницу ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Как использовать if/else в понимании списка с красивой логикой супа, которая будет проходить через html-страницу

Цитата

Сообщение Anonymous » 29 сен 2024, 15:05

Я пытаюсь изучить упражнение на YouTube, которое будет очищать определенный блок HTML со страницы вики https://en.wikipedia.org/wiki/Toy_Story_3, меня интересуют данные пары ключ-значение внутри информационного окна с этой страницы и поместил его в объект dict Python в моем блокноте Jupyter для обучения панде. часть html представляет собой таблицу с именем класса «infobox vevent». в основном я просматриваю тег "" и части "" и "", чтобы получить данные. вот код с YouTube, но я пытаюсь поступить другим способом, если это возможно, с пониманием списка.

Код: Выделить всё

   r = requests.get("https://en.wikipedia.org/wiki/Toy_Story_3")
soup = bs(r.content)
contents =soup.prettify()

info_box = soup.find(class_="infobox vevent")
info_rows = info_box.find_all("tr")

movie_info = {}
for index, row in enumerate(info_rows):
if index == 0:
movie_info['title'] = row.find("th").get_text()
elif index == 1:
continue
else:
content_key = row.find("th").get_text()
content_value =[row_data.get_text() for row_data in row.find("td").find_all("li")]
movie_info[content_key] = content_value

movie_info`

выход такой

Код: Выделить всё

`{'title': 'Toy Story 3',
'Directed by': [],
'Screenplay by': [],
'Story by': ['John Lasseter', 'Andrew Stanton', 'Lee Unkrich'],
'Produced by': [],
'Starring': ['Tom Hanks',
'Tim Allen',
'Joan Cusack',
'Don Rickles',
'Wallace Shawn',
'John Ratzenberger',
'Estelle Harris',
'Ned Beatty',
'Michael Keaton',
'Jodi Benson',
'John Morris'],
'Cinematography': ['Jeremy Lasky', 'Kim White'],...}

вот часть HTML, которую я очищаю,

Код: Выделить всё


Toy Story 3
Screenplay byMichael Arndt
Story by
.mw-parser-output .plainlist ol,.mw-parser-output .plainlist ul{line-height:inherit;list-style:none;margin:0;padding:0}.mw-parser-output .plainlist ol li,.mw-parser-output .plainlist ul li{margin-bottom:0}

[list]
[*]John Lasseter
[*]Andrew Stanton
[*]Lee Unkrich
[/list]

 Produced byDarla K. Anderson
Starring

[list][*][url=/wiki/Tom_Hanks]Tom Hanks[/url]
[*][url=/wiki/Tim_Allen]Tim Allen[/url]
[*][url=/wiki/Joan_Cusack]Joan Cusack[/url]
[*][url=/wiki/Don_Rickles]Don Rickles[/url]
[*][url=/wiki/Wallace_Shawn]Wallace Shawn[/url]
[*][url=/wiki/John_Ratzenberger]John Ratzenberger[/url]
[*][url=/wiki/Estelle_Harris]Estelle Harris[/url]
[*][url=/wiki/Ned_Beatty]Ned Beatty[/url]
[*][url=/wiki/Michael_Keaton]Michael Keaton[/url]
[*][url=/wiki/Jodi_Benson]Jodi Benson[/url]
[*][url=/wiki/John_Morris_(American_actor)]John Morris[/url][/list]
.... more html code here

Как видите, есть пустое значение. только те, у кого есть дочерний элемент , смогли вернуть данные, логическая ошибка находится в этой строке кода content_value =[row_data.get_text() для row_data в row.find("td").find_all("li ")] , он игнорирует без дочернего элемента . нужна помощь, как добавить логику else в эту строку сжатия списка. я попробовал content_value =[row_data.get_text() для row_data в row.find("td").find_all("li") else row_data.ge_text()]. я получаю синтаксическую ошибку.

Подробнее здесь: https://stackoverflow.com/questions/790 ... t-will-tra

1727611545

Anonymous

Я пытаюсь изучить упражнение на YouTube, которое будет очищать определенный блок HTML со страницы вики https://en.wikipedia.org/wiki/Toy_Story_3, меня интересуют данные пары ключ-значение внутри информационного окна с этой страницы и поместил его в объект dict Python в моем блокноте Jupyter для обучения панде. часть html представляет собой таблицу с именем класса «infobox vevent». в основном я просматриваю тег "" и части "" и "", чтобы получить данные. вот код с YouTube, но я пытаюсь поступить другим способом, если это возможно, с пониманием списка.
[code]   r = requests.get("https://en.wikipedia.org/wiki/Toy_Story_3")
soup = bs(r.content)
contents =soup.prettify()

info_box = soup.find(class_="infobox vevent")
info_rows = info_box.find_all("tr")

movie_info = {}
for index, row in enumerate(info_rows):
if index == 0:
movie_info['title'] = row.find("th").get_text()
elif index == 1:
continue
else:
content_key = row.find("th").get_text()
content_value =[row_data.get_text() for row_data in row.find("td").find_all("li")]
movie_info[content_key] = content_value

movie_info`
[/code]
выход такой
[code]`{'title': 'Toy Story 3',
'Directed by': [],
'Screenplay by': [],
'Story by': ['John Lasseter', 'Andrew Stanton', 'Lee Unkrich'],
'Produced by': [],
'Starring': ['Tom Hanks',
'Tim Allen',
'Joan Cusack',
'Don Rickles',
'Wallace Shawn',
'John Ratzenberger',
'Estelle Harris',
'Ned Beatty',
'Michael Keaton',
'Jodi Benson',
'John Morris'],
'Cinematography': ['Jeremy Lasky', 'Kim White'],...}

[/code]
вот часть HTML, которую я очищаю,
[code]

Toy Story 3
Screenplay byMichael Arndt
Story by
.mw-parser-output .plainlist ol,.mw-parser-output .plainlist ul{line-height:inherit;list-style:none;margin:0;padding:0}.mw-parser-output .plainlist ol li,.mw-parser-output .plainlist ul li{margin-bottom:0}

[list]
[*]John Lasseter
[*]Andrew Stanton
[*]Lee Unkrich
[/list]

 Produced byDarla K. Anderson
Starring

[list][*][url=/wiki/Tom_Hanks]Tom Hanks[/url]
[*][url=/wiki/Tim_Allen]Tim Allen[/url]
[*][url=/wiki/Joan_Cusack]Joan Cusack[/url]
[*][url=/wiki/Don_Rickles]Don Rickles[/url]
[*][url=/wiki/Wallace_Shawn]Wallace Shawn[/url]
[*][url=/wiki/John_Ratzenberger]John Ratzenberger[/url]
[*][url=/wiki/Estelle_Harris]Estelle Harris[/url]
[*][url=/wiki/Ned_Beatty]Ned Beatty[/url]
[*][url=/wiki/Michael_Keaton]Michael Keaton[/url]
[*][url=/wiki/Jodi_Benson]Jodi Benson[/url]
[*][url=/wiki/John_Morris_(American_actor)]John Morris[/url][/list]
.... more html code here



[/code]
Как видите, есть пустое значение. только те, у кого есть дочерний элемент , смогли вернуть данные, логическая ошибка находится в этой строке кода content_value =[row_data.get_text() для row_data в row.find("td").find_all("li ")] , он игнорирует  без дочернего элемента  . нужна помощь, как добавить логику else в эту строку сжатия списка.  я попробовал content_value =[row_data.get_text() для row_data в row.find("td").find_all("li") else row_data.ge_text()]. я получаю синтаксическую ошибку. 

Подробнее здесь: [url]https://stackoverflow.com/questions/79036332/how-to-use-if-else-in-list-comprehension-with-beautiful-soup-logic-that-will-tra[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

Как использовать if/else в понимании списка с красивой логикой супа, которая будет проходить через html-страницу [закрыт

Последнее сообщение Anonymous « 29 сен 2024, 16:50
Добавлено в форуме Python

Anonymous » 29 сен 2024, 16:50 » в форуме Python

Я пытаюсь изучить упражнение на YouTube, которое будет очищать определенный блок HTML со страницы вики меня интересуют данные пары ключ-значение внутри информационного окна с этой страницы и поместил его в объект dict Python в моем блокноте Jupyter...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
29 сен 2024, 16:50
Replace() и if/else в понимании списка, чтобы создать новый список

Последнее сообщение Anonymous « 04 ноя 2024, 11:08
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 11:08 » в форуме Python

Задача викторины заключается в замене имени файла .hpp на .h, сохраняя при этом остальную часть, используя понимание списка. В некоторых сообщениях предлагается указать порядок , но это тоже не сработало. Сообщение об ошибке продолжало указывать на...

0 Ответы

24 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 11:08
Replace() и if/else в понимании списка, чтобы создать новый список

Последнее сообщение Anonymous « 04 ноя 2024, 11:29
Добавлено в форуме Python

Anonymous » 04 ноя 2024, 11:29 » в форуме Python

Задача викторины заключается в замене имени файла .hpp на .h, сохраняя при этом остальную часть, используя понимание списка. В некоторых сообщениях предлагается указать порядок , но это тоже не сработало. Сообщение об ошибке продолжало указывать на...

0 Ответы

12 Просмотры

Последнее сообщение Anonymous
04 ноя 2024, 11:29
Эффективная векторизация функций cpp с логикой if/else

Последнее сообщение Anonymous « 20 май 2024, 12:33
Добавлено в форуме C++

Anonymous » 20 май 2024, 12:33 » в форуме C++

Предположим, у меня есть функция C++:
int arr_1 ;
double arr_2 ;

// arr_1 and arr_2 to be assigned values.
// This step is neglected. Not important.

double val(int i){

int a = arr_1 ;
int b = arr_1 ;

if (a == b) {
return 0.0;
}
else {
// arr_1...

0 Ответы

19 Просмотры

Последнее сообщение Anonymous
20 май 2024, 12:33
Как конвертировать уценку в html, чтобы сделать ее более красивой и красочной с помощью Python

Последнее сообщение Anonymous « 05 дек 2024, 20:31
Добавлено в форуме Python

Anonymous » 05 дек 2024, 20:31 » в форуме Python

Я хочу преобразовать текст уценки в html с помощью Python, но когда я гуглил, я получаю только такой результат о библиотеке Markdown:
import markdown

md_text =
```python
# some Python code
hi = 'Hello'
print(hi)
```

html =...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
05 дек 2024, 20:31

Вернуться в «Python»