Я задал этот вопрос около месяца назад. Однако никто не дал ответа или даже комментария. Повторяю вопрос, чтобы на этот раз кто-нибудь помог.
У меня большой одноязычный корпус Unicode, состоящий более чем из 100 миллионов. слова в текстовом файле размером 1,7 ГБ. Теперь мне нужно найти частоту каждого слова в этом корпусе, чтобы я мог найти 20 наиболее часто встречающихся слов и 20 наименее частых слов в корпусе. Например, (для удобства понимания пример приведен на шведском языке, а не на бенгали)
Корпус:
jag har ett stort hus också jag har ett stort fält jag.
Частота слов:
зубец 3
хар 2
этт 2
сторт 2
хотел 1
fält 1
Решение:
чаще всего:
зубец 3
час 2
Наименее часто встречающийся:
кус 1
fält 1
НО, когда я попытался использовать базу данных MySQL для хранения новых слов из корпуса и увеличивайте их частоту каждый раз на единицу. так что, наконец, я смогу получить слова с их частотой. однако, чтобы заполнить даже 10% корпуса, потребовалось 2 дня. Я попробовал другой способ: сохранить текстовый файл, чтобы записывать частоту каждого слова. Однако это не удается, поскольку система не работает со словами Юникода. Пожалуйста, предложите мне простой и быстрый способ посчитать это (может быть на PHP или PYTHON).
Подробнее здесь: https://stackoverflow.com/questions/546 ... rge-corpus
Как найти частотность каждого слова из большого корпуса? ⇐ Python
Программы на Python
-
Anonymous
1732303539
Anonymous
Я задал этот вопрос около месяца назад. Однако никто не дал ответа или даже комментария. Повторяю вопрос, чтобы на этот раз кто-нибудь помог.
У меня большой одноязычный корпус Unicode, состоящий более чем из 100 миллионов. слова в текстовом файле размером 1,7 ГБ. Теперь мне нужно найти частоту каждого слова в этом корпусе, чтобы я мог найти 20 наиболее часто встречающихся слов и 20 наименее частых слов в корпусе. Например, (для удобства понимания пример приведен на шведском языке, а не на бенгали)
[b]Корпус:[/b]
jag har ett stort hus också jag har ett stort fält jag.
[b]Частота слов:[/b]
зубец 3
хар 2
этт 2
сторт 2
хотел 1
fält 1
[b]Решение:[/b]
чаще всего:
зубец 3
час 2
Наименее часто встречающийся:
кус 1
fält 1
[b]НО,[/b] когда я попытался использовать базу данных MySQL для хранения новых слов из корпуса и увеличивайте их частоту каждый раз на единицу. так что, наконец, я смогу получить слова с их частотой. однако, чтобы заполнить даже 10% корпуса, потребовалось 2 дня. Я попробовал другой способ: сохранить текстовый файл, чтобы записывать частоту каждого слова. Однако это не удается, поскольку система не работает со словами Юникода. Пожалуйста, предложите мне простой и быстрый способ посчитать это (может быть на PHP или PYTHON).
Подробнее здесь: [url]https://stackoverflow.com/questions/54674564/how-to-find-word-frequencies-of-each-word-from-a-large-corpus[/url]
Ответить
1 сообщение
• Страница 1 из 1
Перейти
- Кемерово-IT
- ↳ Javascript
- ↳ C#
- ↳ JAVA
- ↳ Elasticsearch aggregation
- ↳ Python
- ↳ Php
- ↳ Android
- ↳ Html
- ↳ Jquery
- ↳ C++
- ↳ IOS
- ↳ CSS
- ↳ Excel
- ↳ Linux
- ↳ Apache
- ↳ MySql
- Детский мир
- Для души
- ↳ Музыкальные инструменты даром
- ↳ Печатная продукция даром
- Внешняя красота и здоровье
- ↳ Одежда и обувь для взрослых даром
- ↳ Товары для здоровья
- ↳ Физкультура и спорт
- Техника - даром!
- ↳ Автомобилистам
- ↳ Компьютерная техника
- ↳ Плиты: газовые и электрические
- ↳ Холодильники
- ↳ Стиральные машины
- ↳ Телевизоры
- ↳ Телефоны, смартфоны, плашеты
- ↳ Швейные машинки
- ↳ Прочая электроника и техника
- ↳ Фототехника
- Ремонт и интерьер
- ↳ Стройматериалы, инструмент
- ↳ Мебель и предметы интерьера даром
- ↳ Cантехника
- Другие темы
- ↳ Разное даром
- ↳ Давай меняться!
- ↳ Отдам\возьму за копеечку
- ↳ Работа и подработка в Кемерове
- ↳ Давай с тобой поговорим...
Мобильная версия