Я ищу спам в обменных дампах стека и хочу искать слова, рассматриваемые собственной глобальной функцией поиска Stack Exchange, которые обычно не используются. Я хочу ранжировать по популярности и посмотреть, есть ли слова малой длины, которые никогда не используются. Я скачал спам Metasmoke Spam и False Poility Dampbase.
Как я могу извлечь маленькие слова ( COALESCE(fp_counts.fp_count,0) THEN 1
WHEN COALESCE(tp_counts.tp_count,0) < COALESCE(fp_counts.fp_count,0) THEN -1
ELSE 0
END AS comparison
FROM (
SELECT id
FROM posts
) AS p
LEFT JOIN tp_counts ON p.id = tp_counts.post_id
LEFT JOIN fp_counts ON p.id = fp_counts.post_id
),
numbers AS (
SELECT seq AS n
FROM seq_1_to_4000
)
SELECT
pc.comparison,
SUBSTRING(p.body FROM n FOR 2) AS bigram,
COUNT(*) AS bigram_count
FROM post_comparison pc
JOIN posts p ON p.id = pc.post_id
JOIN numbers ON n
Подробнее здесь: https://stackoverflow.com/questions/797 ... count-them