Пост телеграм-канала PPC для сверхразумов | Александр Хитро
PPC для сверхразумов | Александр Хитро
13 мая 2024 года в 11:07
😮 Как со 100 тысяч страниц конкурента спарсить нужные 320 урлов для сбора по ним семантики.
На следующем стриме 14 мая в 19:00 по МСК помимо чистки и группировки зарубежной семантики, а также 18 способов оптимизации скорости запросов в Power Query покажу ещё несколько важных вещей:
✅ Как я с огромного сайта конкурента спарсил только нужные мне пару сотен урлов.
✅ А дальше по ним из планировщика Google Ads получил 70 тысяч уникальных фраз.
Не копировать же мышкой из навигационного меню сайта каждую из 320 ссылок вручную, правильно?
Спойлер:
Урлы с огромного сеошного сайта конкурента спарсил в Screaming Frog SEO Spider.
————
Но есть три нюанса:
1⃣ На анализируемом сайте более 100 тысяч урлов. Для того, чтобы сократить время парсинга и не собирать ненужные мне урлы, я парсил их с учётом фильтров по исключённым RegEx (регулярным выражениям).
В итоге сбор закончился в несколько сотен раз быстрее, чем если бы собирались все страницы сайта.
2⃣ Даже парсинг с исключениями по регуляркам не спасает от сбора вложенных подкатегорий и неявных дублей урлов, поэтому покажу, как в Power Query или в Excel в несколько действий в результатах парсинга отфильтровать только нужные пару сотен категорийных урлов.
3⃣ Парсить по включениям регулярок, казалось бы, самый простой способ, чтобы сократить объёмы собираемых данных, но парсинг по включению регулярок опаснее всего, т.к. вы не знаете, какая структура у незнакомого сайта, и как его разработчики распределили в структуре категорийные урлы.
Почему?
Потому что структуры может не быть вообще никакой, и все урлы могут запросто лежать в главной директории сайта вторым уровнем вложенности страниц, а не распределены по подпапкам в суб-директориях.
Естественно, можно было бы спарсить только те урлы, которые не более второго или третьего уровня вложенности, но мы не знаем, какая на сайте структура дерева страниц. Поэтому парсить по вхождению регулярок будет огромной ошибкой.
————
Дальше по собранным и отфильтрованным категорийным урлам конкурента выгружаем семантику из планировщика ключей Google Ads для сбора вложенной глубины и синонимичной ширины семантики каждой исходной категории.
Как настроить парсинг ссылок с сайта с учётом исключённых регулярных выражений и отфильтровать нужные категорийные урлы, рассмотрим на следующем стриме, чтобы вы не страдали и не собирали урлы из навигационного меню сайта, копируя мышкой поштучно каждую ссылку на каждый раздел.
————
————
via @ppc_bigbrain