Ссылки на товары ebay

Тема в разделе "Решение различных задач по парсингу", создана пользователем leshkakrash, 15 июн 2015.

  1. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Здравствуйте! Помогите настроить CD на сбор ссылок на товары на сайте ebay.com

    Пробовал генерировать, но из-за 12 цифр в урл товара комп умирает))
    Пример ссылки на товар:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Заранее благодарен.
     
  2. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    пжалста, запустить сканер сайта и ждать )))
     

    Вложения:

    • e-bay.cdp
      Размер файла:
      26,6 КБ
      Просмотров:
      23
  3. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    не получилось что хотел :) При переходе на страницу с товаром, ссылка имеет вид:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    где 171718845519 номер товара.

    Из-за чего интересующие меня ссылки не получаются.
    На этой же странице есть строка с номером товара:
    "eBay item number:171718845519"

    Надо наверно спарсить ссылки, содержащие
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    и будет счастье)


    Подскажите как сделать, чтобы парсер проверял некоторые данные на странице по ссылке, и если эти данные находит то сохраняет эту ссылку в файл?

    Например наличие текста и значение переменной.
     
    Последнее редактирование: 15 июн 2015
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если во вкладке "Контент" парсить в 1 файл, то:
    Где:
    [DOCSOURCE] выводит код WEB-документа
    <CD_DOCURL!> выводит ссылку WEB-документа в результат (если проверяемый текст есть в коде).

    С уважением к вам, Сергей.
     
  5. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    А если текст и переменная?

    Например в этом куске кода значение должно быть больше 0, в данном примере цифра 55:
    Код:
    <span class="sell_count">(<a href="http://www.ebay.com/sch/samkodak/m.html?_nkw=&amp;_armrs=1&amp;_ipg=&amp;_from=" _sp="p2050430.m2533.l4587" title="Items for sale">55</a>)</span>
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тогда чекать по:
    Проблем не вижу)
     
  7. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Спасибо за ответы! При парсенге такого гиганта появилась проблема, не хватает оперативной памяти :) Как это можно обойти? Он ссылки собрать не может...
    Можно сделать чтобы при сборе ссылок через какой-то промежуток времени или через количество ссылок он их скидывал в файл и продолжал сбор?

    Но есть и положительный момент, ebay можно парсить любым количеством потоков))) На 50 потоках без прокси очень быстро получается)

    Хотя нет, подрезали...
     
    Последнее редактирование: 17 июн 2015
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока нет, но подумаем над реализацией.
     
  9. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    И как это все записать в шаблон вывода?
    Текст такой: Based in Russian Federation
    А переменная была написана выше.

    Надеюсь это последний вопрос))
     
    Последнее редактирование: 17 июн 2015
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте!
    Вам Root уже писал как.
    Код:
    [CHECKENTRY(какой текст проверяем в коде WEB-страницы)][DOCSOURCE][THENTEXT]<CD_DOCURL!>[/CHECKENTRY]
    Потрудитесь открыть мануал и прочить как это работает
    Ссылки недоступны для гостей
    и не хватит, сколько бы ее не было.
    Тут нужно подходить видимо через фильтра или еще как - нибудь.
     
  11. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Ок, буду штудировать. Подобрал фильтры, теперь в очередь добавляются только необходимые ссылки. Думаю 8Гб оперативной должно хватить для 40-50млн ссылок :)

    В данном случае было бы не плохо скидывать ссылки в файл и чистить результат при продолжении поиска))
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [CHECKENTRY(Based in Russian Federation)][DOCSOURCE][THENTEXT]<CD_DOCURL!>[/CHECKENTRY]
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Программа рассчитана на работу с миллионом ссылок. Оперативная память не причем, всем приложениям Windows в системе выделяется определенное количество памяти (около 2 ГБ для 64-бит систем).
     
  14. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Все получилось, спасибо за помощь!
     
  15. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Ан-нет )) Парсит всех кто расположен в РФ...
    Не могу сообразить чтобы задать условие:
    Текст "Российская Федерация" был, а "title="Items for sale">0</a>" не было в коде страницы.

    UPD Решено по другому
    [CHECKENTRY(Российская Федерация||sell_count[ALLMUSTBE])][DOCSOURCE][THENTEXT]<CD_DOCURL!>[/CHECKENTRY]
     
    Последнее редактирование: 17 июн 2015
  16. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Все получилось, но проблема с памятью осталась. Памяти хватило на 720к ссылок.
    Думаю если реализовать парсинг ссылок сразу в файл не добавляя их в программу, то возможно удастся собрать ссылки. Так же при добавлении больше 500к ссылок для парсинга, ругается на не достаток памяти.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При записи ссылок в файл исключить повторный проход по одним и тем же ссылкам не могу (для исключения дублей необходимо держать списки ссылок в памяти). Если не исключать дубли, сканер будет все время ходить по одним и тем же ссылкам - это малополезно. Если сайт большой, лучше проверьте, есть ли у него карта сайта и парсите ее.
     
  18. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    Карта сайта у них есть в таком виде:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**

    P.S. Спасибо большое за помощь :)
     
  19. leshkakrash

    leshkakrash New Member Пользователи

    Регистрация:
    18 дек 2012
    Сообщения:
    20
    На ebay открыт robot.txt, через него нашел архивы с xml в которых ссылки на все товары ( за 2 июня). Так что моя задача существенно облегчилась))) Сколько урл из файла возможно будет загрузить?
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    до 1.2 млн.
     

Поделиться этой страницей