Нужно спарсить сайт

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем XDarkOr, 4 июн 2014.

  1. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    Здравствуйте форумчане!
    Посмотрел видео, в них вроде все просто, но я встрял на этом сайте mayki3d ру, необходимо спарсить товары по категориям, и чтобы статьи не дублировались в них.
    Допустим футболка размещена в категориях "Фентези" и "Животных" - нужно чтоб она спарсилась в Fentezi.txt, а в Zhivotnye.txt ее уже небыло.
    Это возможно, и если да то как?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Вкладка "контент" - группа "парсинг и обработка" - кнопка "фильтрация документов при парсинг" -> там подключить файл с загруженными ранее элементами (обычный пустой текстовый файл). При парсинге ссылки товаров будут записываться в этот файл, а при запуске следующего парсинга контента, ссылки будут проверяться на то, были ли они ранее загружены или нет. Если были - то удалятся.
     
  3. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    Спасибо большое, нужная функция!
    А как массово спарсить товары в категориях по файлам? Категорию "Фентези" в файл Fentezi.txt, "Животных" в Zhivotnye.txt?
     
    Последнее редактирование: 4 июн 2014
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста...
    Вот, пожалуйста - Ссылки недоступны для гостей (используете парсинг в 1 файл с заданием имени файла и включенной опцией дозаписи).
    С уважением к вам, Сергей.
     
  5. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    Спасибо, но маленько не то
    Ссылки недоступны для гостей тут как я понял рассказывается о именах файлов сохраняемых документов, в том числе в транслите.
    У меня задача состоит в сохранении всей спарсенной информации в соответствующий файл категории.
    Например: Майка 1, Майка 2...Майка 53 находятся на сайте в категории "Животных", как информацию которую я спарсил с них, запихнуть именно из категории "Животных" в Zhivotnye.txt и именно 53 штуки, автоматом?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Задать границу парсинга для имени категории и вставить ее в макрос DOCNAME, тогда данные будут записываться в файл имя_категории.txt
     
  7. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    У нас есть вложенность на товар:
    Главная » Каталог » Футболки The Mountain » Индейцы
    по этой ссылке mayki3d ру/type/indeici/.
    Получается что я ставлю границу парсинга на имя категории "Индейцы" и по логике вещей фильтрую все ссылки сайта где эта конструкция с этим именем и в этом месте повторяется?
    Если это так, то подскажите как при нахождении значения нужных нам границ именно эти ссылки сохранялись в файл...
    А лучше видео скиньте, я просто что-то пропустил :)
     
  8. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    Еще вопрос:

    В "Каталог футболок:" идет вложенная категория "Футболки The Mountain -> Животные"
    Если мы перейдем по товару "Футболка Armadillo Head — Морда Броненосца"
    То увидим вложенность товара "Главная » Каталог » Сезон 2014 »"

    Вопрос: как нам спарсить её и другие товары именно в макрос DOCNAME с именем "Животные", а не "Сезон 2014" как это получается когда находишься непосредственно в самом товаре и указываешь категорию для DOCNAME?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Парсить данные со страниц категорий, подгружая данные со страниц товаров макросом GETMORECONTENT
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Или парсить со страниц категорий в 1 CSV с колонками: наименование, рубрика. Затем парсить со страниц товаров во 2 CSV все остальные данные.
    После этого произвести слияние (по наименованию) двух CSV в редакторе CSV файлов (кнопка на панели инструментов).
     
  11. XDarkOr

    XDarkOr New Member Пользователи

    Регистрация:
    4 июн 2014
    Сообщения:
    9
    Здравствуйте, а не могли бы вы скинуть проект по первому способу, не могу разобраться...

    Вообще у меня задача спарсить товары по категориям и чтоб они не дублировались, буду признателен если проектом поможете)
     
    Последнее редактирование: 15 июн 2014

Поделиться этой страницей