Как вытащить отдельные абзацы из SEC 10-KsCSS

Разбираемся в CSS
Ответить
Anonymous
 Как вытащить отдельные абзацы из SEC 10-Ks

Сообщение Anonymous »

Я работаю над проектом, в котором мне нужно разбить 10-K на составляющие абзацы. Для некоторых 10-К я могу сделать что-то простое, например суп.find_all('p'), но я также вижу другие 10-К, которые используют для всего вместо
теги. Я вижу три разных способа, которыми компании объявляют разрывы абзацев:

Случай, когда пустые теги div используются для создания пространства между абзацами:

Код: Выделить всё

Text of a paragraph
Случай, когда поля/отступы используются сверху или снизу для создания пространства:

Код: Выделить всё

Text of a paragraph`, `
Случай, когда компания использует теги
:

Код: Выделить всё

Text of paragraph

Мне пришлось писать новый код для каждого из этих трех случаев, и я беспокоюсь, что могут существовать другие способы разметки абзацев, с которыми я еще не сталкивался.

ВОПРОС: Есть ли пакет или метод, который я могу использовать для стандартизации всех этих различных способов объявления разрывов абзацев, или мне следует продолжать писать код для каждого нового случая, с которым я сталкиваюсь?

Подробнее здесь: https://stackoverflow.com/questions/438 ... -sec-10-ks
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «CSS»