Я знаю, что Athena способна выполнять запросы к большим наборам данных на S3 с использованием стандартного SQL. Однако я не совсем уверен в возможности и подходе к прямому запросу внутри HTML-контента веб-страниц в наборе данных Common Crawl.
Вот упрощенная версия того, что я ищу. достичь:
Код: Выделить всё
sql
SELECT *
FROM "common_crawl_dataset"
WHERE html_content LIKE '%specific-string%';
лучший подход для достижения этой цели с учетом эффективности и
экономической эффективности? Существуют ли какие-либо ограничения или проблемы, о которых мне
следует знать?
Подробнее здесь: https://stackoverflow.com/questions/772 ... zon-athena