Выборки от Пастухова теперь за считанные секунды! Без дублей! Программа и базы 3.0

Пятница, 06 Июн 2014 22:48

Как и год назад на сегодняшний день все еще не придумано более быстрого способа собрать полное и всеобъемлющее семантическое ядро быстрее, чем это позволяют сделать «Базы Пастухова». Представляя собой списки ключевых слов на десятки гигабайт, а также специальную программу-оболочку для удобных выборок из этих списков, Базы являются незаменимым инструментом для разработки и дополнения семантики для любого сайта.

documenttypes

вот так выглядят сами Базы Пастухова

Я использую Базы также и при создании кампаний в контекстной рекламе: нет более надежного способа еще до начала кампании составить полный список минус-слов, исключив таким образом нецелевые клики и сэкономив кучу денег.

Однако, даже несмотря на в целом удобство баз, были у них и некоторые недостатки, как то:

  • скорость выборок из баз: чтобы получить выборку по интересующим меня ключам мне приходилось, как правило, ждать от 2х до 15ти минут, потягивая чаёк, что в целом быстро, но все же не так, как хотелось бы;
  • не очень удобная мультивыборка: если для экономии времени мы хотели сделать одновременную выборку по сразу нескольким ключевым словам или словосочетаниям, то получали все результаты в одном списке (под одним ярлыком) без возможности разнести их по разным спискам. Поэтому приходилось для каждого отдельно взятого ключевого слова или словосочетания создавать отдельную выборку, которая становилась в очередь всех выборок и запускалась после обработки предыдущей.

Эти недочеты приводили к тому, что сбор семантики для сайта с богатым набором категорий мог отнимать немало часов. Конечно, это все еще куда быстрей того же KeyCollector'a, но ведь всегда хочется быстрей! ;)

И вот на днях до меня дошла весть, что Макс существенно переработал свою программу и базы. Выборки в ней стали занимать буквально считанные секунды, а сама программа научилась работать с 64-ядерными процессорами и стала существенно менее прожорливой! Это ли не мечта любого SEO-шника, сайтостроителя или контекстщика, затирающего эти Базы до дыр?!

Вот сравнительная таблица того, что было, и что мы имеем теперь.

Версия V2.0 Версия V3.0
Скорость выборки по базе
по ключевому слову
Около 7 минут Около 10 секунд
Максимальный список ключевых слов 2,000,000 (2 млн) 10,000,000 (10 млн)
Мультивыборка и создание
отдельных списков ключевых слов
под каждое слово, заданное
пользователем в фильтре
нет да
Потребление оперативной памяти
при выборке из базы
~2000 МБ ~740 Мб
Размер базы ключевых слов
для текущей версии программы
(на примере русской базы 1 млрд.)
149 гб 59 гб
Поддержка 64х битных
операционных систем
нет да

Помимо самой оболочки до версии 3.0 были обновлены также и базы всех запросов (полный список смотрите по ссылке).

Как видите, версия на 1 млрд. стала весить в 3 раза меньше (59 Гб вместо 149 Гб)! Как рассказал Макс, в ней наконец были вычищены все дубли, которые оказались очень «хитрыми»:

Помимо скорости работы, есть еще одна штука, которую удалось победить — оказалось, что Яндекс подбрасывает запросы при парсинге с заменой гласных русских букв английскими — из-за этого получались дубли. Я долго не мог понять, как же так... пока не пригляделся к шрифтам :) Так что теперь база еще и без дублей, на которые жаловались пользователи.

Важно: только использование Баз 3й версии даёт нам полный прирост в скорости выборок.

Узнав сию радостную весть я мигом помчался обновляться. Признаться, выкачать 40 Гб (а именно столько занимает новая база русских ключевиков по Яндексу на 910 млн. ключевых слов) через torrent со всего несколькими сидерами непросто. Не менее просто и распаковать данный архив на жесткий диск (где ж его, собака, взять столько места! :) ). По ходу дела Макс подсказал мне настройки для стабильной скорости скачивания баз через utorrent, за что ему огромное спасибо. Поддержка у Макса на высоте!

Скачивание и распаковка архива в сумме заняли порядка 3х часов, а распакованные базы на 910 млн. занимают 60 Гб. Но усилия того стоили!

Сразу после установки и запуска программы версии 3.0 я создал новый файл и указал программе путь к новой 910 млн. версии баз запросов. Все старые базы, кстати, удалил, дабы не занимали место на жестком диске.

bazy-pastukhova-podkluchenie-rysskoy-910mln

Для теста скорости выборок и новой функции авторазнесения ключевиков по своим ярлыкам я запустил мультивыборку сразу по 5 ключевым словосочетаниям по широкому соответствию. В результате мы получим все возможные вариации запросов пользователей Яндекса, включающие любые вариации заданных мною словосочетаний.

pastukhov-vyborka-obuchenie

окончания слов усечены для получения всех возможных вариаций запросов пользователей

Результат был получен всего за 5 секунд и содержал в сумме 16 000 запросов! Выборки по каждому отдельно взятому ключевику были автоматически разнесены по своим спискам!

результат работы Баз

результат работы Баз

Ранее получение такого результата отняло бы минут 15, а чтобы запросы были разнесены по соответствующим спискам, вышеописанное пришлось бы проделать 5 раз. Скажу откровенно, о бОльшем тяжело и мечтать! :)

Остаётся только добавить, что прямо сегодня «Базы Пастухова» можно купить всего за 297$, получив миллиарды запросов пользователей в Яндекс и Google на русском, английском и ряде других языков. А если вы переживаете, что работа с базами окажется для вас слишком сложной, то к программе прилагается исчерпывающая справка, полностью закрывающая все мыслимые и немыслимые вопросы.

Подытожив, можно сказать, что если раньше я запускал Базы с некоторой неохотой из-за предвкушения постоянных ожиданий, то теперь работа с ними превратилась в, без преувеличения, сплошное удовольствие. Стану запускать почаще :) .

http://blogto4ka.ru

RSS комментариев

Оставьте свой комментарий о материале
(Комментарии со ссылками попадают на модерацию. Остальные не попадают, но я могу удалять те, которые посчитаю бесполезными, не несущими смысловой нагрузки)