Парсинг яндекс-каталога

Тема в разделе "Фильтры ссылок", создана пользователем konfuciy, 16 июн 2014.

  1. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    пытаюсь спарсить яндекс-каталог сканером сайтов.

    настроил параметры так:



    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    но ведь это никак не соответствует заданной мной настройке.
    как исправить ситуацию?
     
  2. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    проблему удалось решить - оказывается галочку в настройке на опции "искать ссылки в html-тэгах a" ставить наоборот НЕ надо.
     
  3. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    продолжаю ломать голову дальше.
    После снятия данной галочки парсинг сканером ссылок пошел как надо.
    И в очередь добавлялось нужное и в выдачу шли ссылки согласно моей настройке.

    Однако радость была недолгой)). Стоило мне очистить список очередь и выдачу - по новой сканер запускаться уже не хочет со всеми теми же настройками и тем же исходным урл.

    Вместо запуска он выдает короткий звон и все.

    Что делать?


    кажется начал понимать после многократных запусков сканера сайтов с разными настройками - кнопка "настройка" настраивает как ссылки выдачи, так и ссылки очереди!
    получилось, что если отпарсить в очередь предварительно какие-то сайты, то до того, как они кончатся, будут появляться ссылки и в выдаче.

    но этот вариант никак не подходит, поскольку в выдаче получается вообще полная каша, или нужно полностью получить сначала очередь, потом очистить выдачу, потом заново пройти очередь с настройкой - однако это в два раза удлиняет и без того долгий процесс.

    Как же все-таки получить искомый мною результат с использованием штатных функций программы?

    Я понимаю, что можно отфильтровать уже по факту все "левые" ссылки, или через фильтры, но это не совсем качественно выходит - 100% совпадения с выдачей по настройке ссылки не будет, и какой-то костыль выходит, когда можно было бы сразу искать и получать только то, что надо.
     
    Последнее редактирование: 16 июн 2014
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    - Перед каждым запуском сканера нажимать кнопку "очистить список очереди" (для удаления ссылок из памяти)
    - Проверить, не забанил ли вас Яндекс
    - Делать предпросмотр результатов в сканере сайтов (кнопка "выполнить предпросмотр результатов..." в виде увеличительного стекла)

    Что еще нужно, ума не приложу. Пользуйтесь...
     
  5. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    нет, это все не работает.
    как я уже писал кнопка "настройка" в сканере ссылок влияет не только на выдачу ссылок, но и на саму очередь, чего быть не должно.
    из-за этого при задании шаблона в кнопке "настройка" сканер не парсит уже саму очередь ссылок, так как шаблон выдачи явно отличается от шаблона очереди, и если выдача из уже спарсенной без применения шаблона "настройки" очереди происходит верно, то вот спарсить саму очередь с этим шаблоном нельзя.
    должно быть какое-то разделение, возможность выбора - применять "настройку" к списку очереди, выдаче сканера, или обеим окошкам сканера.
     
  6. iluxan

    iluxan New Member Пользователи

    Регистрация:
    31 янв 2015
    Сообщения:
    5
    спасибо, помогло
     
  7. bsemen

    bsemen New Member Пользователи

    Регистрация:
    17 мар 2015
    Сообщения:
    1
    Тоже интересует парсинг Я.Каталога. Может есть какое-то видео по настройкам?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Алгоритмы работы Ямаркета часто меняются и видео-материалы по этой теме часто теряют актуальность. Рекомендую обратиться к специалистам по созданию проектов Ссылки недоступны для гостей

    Они должны помочь!

    С уважением к вам, Сергей...
     

Поделиться этой страницей