Неясность относительно эффективности использования Barrels вместо монолитного инвертированного индекса в поисковых систеPython

Программы на Python
Ответить
Anonymous
 Неясность относительно эффективности использования Barrels вместо монолитного инвертированного индекса в поисковых систе

Сообщение Anonymous »

http://infolab.stanford.edu/~backrub/google.html
Я читал технический документ Google по реализации поисковых систем.
В конструкции системы Google инвертированный индекс разбит на бочки, надеюсь, для более быстрого поиска.
Я создаю свой собственный поисковый индекс в качестве практики и реализовал инвертированный индекс как хэш. Карта (давая мне поиск с постоянной временной сложностью)
Теперь, если я разделю свой инвертированный индекс на несколько бочек, я все равно не вижу никакой пользы в их использовании в одном монолитном инвертированном индексе.
Поскольку при создании экземпляра объекта «Инвертированный индекс» все бочки десериализуются с диска в ОЗУ (загрузка бочек в ОЗУ), общий размер всех бочек все равно будет эквивалентен монолитный инвертированный индекс. В этом случае использование баррелей для одного большого инвертированного индекса не особенно оптимально с точки зрения вычислительной сложности.
В другом случае, когда я загружаю в ОЗУ только несколько баррелей, если я если в запросе есть слово, которое присутствует в незагруженном Barrel, этот Barrel придется загрузить, что потребует времени на обработку и замедлит работу поисковой системы.
Что вы, ребята, порекомендуете? я в данном случае?

Подробнее здесь: https://stackoverflow.com/questions/776 ... verted-ind
Ответить

Быстрый ответ

Изменение регистра текста: 
Смайлики
:) :( :oops: :roll: :wink: :muza: :clever: :sorry: :angel: :read: *x)
Ещё смайлики…
   
К этому ответу прикреплено по крайней мере одно вложение.

Если вы не хотите добавлять вложения, оставьте поля пустыми.

Максимально разрешённый размер вложения: 15 МБ.

Вернуться в «Python»