Как искать ссылки с нужным сайтом в поисковике

Тема в разделе "Решение различных задач по парсингу", создана пользователем wcw2007, 15 мар 2017.

  1. wcw2007

    wcw2007 Member Пользователи

    Регистрация:
    15 мар 2017
    Сообщения:
    126
    Добрый вечер. Собираюсь парсить с поисковика сайты со статьями через <GETMORECONTENT> т.к. автоматический парсин плохо ищет статьи решил выдирать сайты где будет в ручную прописаваться откуда парсить. Подскажите как в выдаче искать только нужные сайты?

    Пример

    Ссылки недоступны для гостей
    Выводит 30 результатов. Как мне вставить в <GETMORECONTENT><URL=" суда сайт wikipedia например

    Ссылка находится в этом классе class="b-serp-item__link" href="ЗДЕСЬ" в результатах поиска рамблера

    Если коротко то ввожу поисковый запрос и нужно найти определенные сайты, которые подставляются в <GETMORECONTENT><URL="

    Можно так например
    class="b-serp-item__link" href="Ссылки недоступны для гостей это граница парсинга начало
    а потом вставить в
    <GETMORECONTENT><URL="hhttp://Ссылки недоступны для гостей

    ВСЕ ОТЛИЧНО РАБОТАЕТ ТОЛЬКО ЕСЛИ САЙТ НА ПЕРВОМ МЕСТЕ, ЕСЛИ ОН НА 2 или 3 МЕСТЕ НЕ РАБОТАЕТ. Т,К, ПРОГРАММА ЗАПОМИНАЕТ МЕСТО ПОЛОЖЕНИЯ В КОДЕ ГРАНИЦЫ НАЧАЛО ПАРСИНГА
     
    Последнее редактирование: 16 мар 2017
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки нужно парсить во вкладке "Ссылки". Затем по найденным ссылкам нужно парсить контент во вкладке "Контент".

    2017-03-16_00-48-34.png
     

    Вложения:

  3. wcw2007

    wcw2007 Member Пользователи

    Регистрация:
    15 мар 2017
    Сообщения:
    126
    Спасибо за ответ, но мне надо по каждому запросу по 1 статьи с 3 сайтов в выдаче, а сканер будет искать 100 статей пока не остановишь его.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Из вашего первого поста я понял, что вам нужно искать второе и последующие вхождения искомых границ в коде WEB-документа. Это достигается с помощью увеличения значения STARTCOUNT на 1

    2017-03-16_10-36-17.png

    С уважением к вам, Сергей.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    На всякий случай сделал новый фильтр:
    2017-03-16_12-25-46.png

    Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").
     

Поделиться этой страницей