Запрос HTML-контента в общем наборе данных сканирования с помощью Amazon Athena

Запрос HTML-контента в общем наборе данных сканирования с помощью Amazon Athena ⇐ Python

1 сообщение • Страница 1 из 1

Anonymous

Запрос HTML-контента в общем наборе данных сканирования с помощью Amazon Athena

Цитата

Сообщение Anonymous » 20 окт 2024, 20:17

В настоящее время я изучаю огромный набор данных Common Crawl, размещенный на Amazon S3, и пытаюсь использовать Amazon Athena для запроса этого набора данных. Моя цель — выполнить поиск в HTML-содержимом веб-страниц, чтобы определить те из них, которые содержат определенные строки в своих тегах. По сути, я хочу отфильтровать веб-сайты, HTML-контент которых соответствует определенным критериям.
Я знаю, что Athena способна выполнять запросы к большим наборам данных на S3 с использованием стандартного SQL. Однако я не совсем уверен в возможности и подходе к прямому запросу внутри HTML-контента веб-страниц в наборе данных Common Crawl.
Вот упрощенная версия того, что я ищу. достичь:

Код: Выделить всё

sql

SELECT *
FROM "common_crawl_dataset"
WHERE html_content LIKE '%specific-string%';

Можно ли напрямую запрашивать HTML-содержимое веб-страниц в наборе данных Common Crawl с помощью Athena? Если да, то какой
лучший подход для достижения этой цели с учетом эффективности и
экономической эффективности? Существуют ли какие-либо ограничения или проблемы, о которых мне
следует знать?

Подробнее здесь: https://stackoverflow.com/questions/772 ... zon-athena

1729444647

Anonymous

В настоящее время я изучаю огромный набор данных Common Crawl, размещенный на Amazon S3, и пытаюсь использовать Amazon Athena для запроса этого набора данных. Моя цель — выполнить поиск в HTML-содержимом веб-страниц, чтобы определить те из них, которые содержат определенные строки в своих тегах. По сути, я хочу отфильтровать веб-сайты, HTML-контент которых соответствует определенным критериям.
Я знаю, что Athena способна выполнять запросы к большим наборам данных на S3 с использованием стандартного SQL. Однако я не совсем уверен в возможности и подходе к прямому запросу внутри HTML-контента веб-страниц в наборе данных Common Crawl.
Вот упрощенная версия того, что я ищу. достичь:
[code]sql

SELECT *
FROM "common_crawl_dataset"
WHERE html_content LIKE '%specific-string%';
[/code]
Можно ли напрямую запрашивать HTML-содержимое веб-страниц в наборе данных Common Crawl с помощью Athena? Если да, то какой
лучший подход для достижения этой цели с учетом эффективности и
экономической эффективности? Существуют ли какие-либо ограничения или проблемы, о которых мне
следует знать? 

Подробнее здесь: [url]https://stackoverflow.com/questions/77241390/querying-html-content-in-common-crawl-dataset-using-amazon-athena[/url]

Ответить Пред. тема След. тема

1 сообщение • Страница 1 из 1

Быстрый ответ

Заголовок:

Имя пользователя:

Изменение регистра текста:

Смайлики

Ещё смайлики…

К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми. Можно прикреплять файлы, перетаскивая их в окно сообщения.

Максимально разрешённый размер вложения: 15 МБ.

Имя файла:

Комментарий к файлу:

Имя файла	Комментарий к файлу	Размер	Статус

Похожие темы

Ответы

Просмотры

Последнее сообщение

ОШИБКА: Ошибка сканирования Checkmarx: нет файлов для сканирования в Jenkins во время сканирования CxSAST

Последнее сообщение Anonymous « 23 май 2024, 11:01
Добавлено в форуме JAVA

Anonymous » 23 май 2024, 11:01 » в форуме JAVA

Я пытаюсь запустить сканирование Checkmarx в разделе после сборки Jenkins.

В моем задании jenkins следующие шаги -->

1-й) Получение исходного кода из SVN Connection to Checkmarx прошел успешно.

2-й) Сборка кода с использованием Maven --- Шаги 1 и...

0 Ответы

61 Просмотры

Последнее сообщение Anonymous
23 май 2024, 11:01
ОШИБКА: Ошибка сканирования Checkmarx: нет файлов для сканирования в Jenkins во время сканирования CxSAST

Последнее сообщение Anonymous « 21 сен 2024, 19:03
Добавлено в форуме JAVA

Anonymous » 21 сен 2024, 19:03 » в форуме JAVA

Я пытаюсь запустить сканирование Checkmarx в разделе после сборки Jenkins.

В моем задании jenkins этапы -->

1-й) Получение исходного кода из SVN Connection to Checkmarx прошел успешно.

2-й) Сборка кода с использованием Maven --- Шаги 1 и 2...

0 Ответы

28 Просмотры

Последнее сообщение Anonymous
21 сен 2024, 19:03
Ошибка подключения к базе данных Athena из метабазы.

Последнее сообщение Anonymous « 16 окт 2024, 23:28
Добавлено в форуме JAVA

Anonymous » 16 окт 2024, 23:28 » в форуме JAVA

Ранее я использовал два VPC. Один имел кластер MSK и коннектор msk-athena, а второй использовался для запуска Metabase на ECS. Мне удалось настроить базу данных Athena в Metabase, которая подключалась к Athena для запроса моей темы MSK Kafka....

0 Ответы

8 Просмотры

Последнее сообщение Anonymous
16 окт 2024, 23:28
Преобразование типа данных столбца в числовой с использованием SQL AWS Athena

Последнее сообщение Anonymous « 26 окт 2024, 12:45
Добавлено в форуме Python

Anonymous » 26 окт 2024, 12:45 » в форуме Python

Я пытаюсь преобразовать столбец суммы в числовой формат согласно следующему SQL-запросу с использованием Athena AWS.

round(cast(amount as numeric),3)

Но числовой тип данных не распознается, и появляется следующая ошибка

SYNTAX_ERROR: строка...

0 Ответы

11 Просмотры

Последнее сообщение Anonymous
26 окт 2024, 12:45
Как запросить несколько баз данных AWS Athena одним запросом из функции Lambda с использованием Python?

Последнее сообщение Anonymous « 09 ноя 2024, 08:12
Добавлено в форуме Python

Anonymous » 09 ноя 2024, 08:12 » в форуме Python

Я пытаюсь создать лямбда-функцию Python для извлечения данных из нескольких баз данных Athena с использованием библиотеки Python AWS Wrangler.
wr.athena.read_sql_query('across databases sql query', 'one of databases name')

Запрос похож на:...

0 Ответы

16 Просмотры

Последнее сообщение Anonymous
09 ноя 2024, 08:12

Вернуться в «Python»