Парсинг выдачи гугла, создание качественной базы…
Воскресенье, Апрель 18, 201012:12
Иногда приходится парсить выдачу гугла для каких-либо целей, одно дело делать это с помощью allsubmitter, и совсем другое когда под рукой нет лицензии этого зверя. Поначалу я конечно парсил выдачу с помощью демо версии, но в ней стоит ограничение, и приходилось собирать только первые 30 результатов. Но такими темпами далеко не уедешь, сегодня пост о парсинге блогов для комментирования, зачем они нужны думаю всем понятно.
Первое что нам понадобится это список запросов, по которым мы и будем парсить выдачу. У вас наверняка есть куча спам комментов на ваших сайтах, собираем их все в блокнот, каждый с новой строки(чтобы удобнее ориенитироваться) и в ковычках. Дело это не быстрое, сам собирал базу не один день. После этого идем сюда и качаем гугло-парс, более лучшего варианта я отыскать не смог, все-таки лучше, чем ничего (хочу заметить что парсер лучше вырубать через диспетчер задач, иначе вырубает весь комп). Данная программа позволяет парсить выдачу только по одному запросу, зато от начала и до конца, в отличие от ала.
После того, как вся база напарсена, нужно отсеять дубликаты доменов и ссылок, тут как раз кстати демо алсаба. Заходим в раздел базы каталогов, загружает туда свой блокнотовский файл с результатами выдачи с ставим где надо галочки(исключить дубликаты доменов, исключить дубликаты ссылок). Все, теперь мы имеем базу блогов на wp без дублей.
Но возникает еще один вопрос, нафига нам база под агс или в бане яши, такие сайты будут просто мешать и отнимать лишнее время. Для того, чтобы почистить базу от плохих ссылок, я пользовался YCCY, очень полезный инструмент, незнаю, как я без него жил. Запускаем программу, грузим в нее список, и начинаем проверку, более глубоко думаю объяснять не стоит, интерфейс очень понятный. Программа проверяет только страницу, которая указана в базе, но не весть сайт. Этого будет достаточно, чтобы прверить базу на агс, ведь напарсили мы не главные страницы, а именно внутряки (если сайт под агс, они вряд-ли останутся в выдаче). Конечно это не 100% проверка, но вполне достаточная, чтобы базу можно было назвать качественной. Используйте базу по назначению
, пробив у нее будет просто огромным по сравнению с теми, что продают в сети.
========================================================================
Давненько не писал в блоге и и вообще проводил очень мало времени в интернете, агс меня совсем расстроил. Конечно нашел неплохую альтернативу сапе, на мой взгляд, но расскажу об этом попозже, небольшим отчетом.
Да, и spryt снова радует созданием новой функции topsape reader, которая думаю облегчит жизнь молодым блогам в продвижении. Только вот интересно, как гугл посмотрит на это, и совсем не хочется терять позиции.
Интересные посты:

Апрель 18th, 2010 at 14:51
Allsub на rutracker’e есть с кряком. Ограничение в 30 сайтов снимает. Только им и пользуюсь
Апрель 18th, 2010 at 21:55
Олсаб лицензионный хоть на что-то мой сгодился)
А ридер топсапы действительно радует
Апрель 19th, 2010 at 6:44
Yccy может проверять не только отдельные страницы, но и их домены на количество проиндексированных страниц. Потом результаты переносим в Эксель и сортировка по количеству страниц в индексе.
Июнь 7th, 2010 at 20:10
Вопрос такой: а нафига ссылки для спама проверять на АГС? Мы ж ведь не под Яндекс спамить будем:) А Гуглю на АГС как то насрать обычно:)
Сентябрь 1st, 2010 at 23:55
У меня сейчас прогон по каталогам дает максимум ТИЦ 10 и PR 1-2
Сентябрь 12th, 2010 at 20:51
[...] Одну проблему решили, осталось только найти базу, дергать через поисковик по одному блогу, как то муторно, лучше заранее собрать. О том, как собрать базу, можете прочесть тут: Создание качественной базы. [...]