Сохранение списка ссылок для исключения повторного сбора ссылок

Тема в разделе "Решение различных задач по парсингу", создана пользователем MaiklWizard, 7 май 2018.

  1. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Такой вопрос к профессионалам данной программы.

    К примеру есть сайт, один, два, три - не важно. С сайта собираем сканером сайтов ссылки. Постоянно нагружать чужой сервер парсингом ссылок, а потом созданием своего прайса - т.е. двойная нагрузка - не интересно - могут "забанить"))

    shift+ctrl+U - понятно, но тогда - сканер ссылок - собирает, повторно ссылки, которые уже есть, а мне нужно чтоб он не собирал их повторно, а лишь собирал только то - что в списке НЕТУ.

    А вот Контент - уже создавал прайс и со старыми и + НОВЫЕ спасрсеные ссылки.

    П.с. - Инструкции, как и похожие темы на форуме перечитал - но ответа на свой вопрос не нашел
     

    Вложения:

    • 2b3cd48007.jpg
      2b3cd48007.jpg
      Размер файла:
      290,5 КБ
      Просмотров:
      5
  2. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Я первый кто задается таким вопросом??? - из кучи веток на форуме - Ссылки недоступны для гостей - это никогда и никого не интересовало??
     
  3. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Если честно, вы плохо объяснили.
    Вам нужно собрать список ссылок с сайтов, далее отпарсить их?
    И при следующем сборе ссылок с этих же сайтов, вам нужно отпарсить только новые ссылки?
     
    MaiklWizard нравится это.
  4. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Совершенно верно. На первых, два ответа - я нашел в помощи как сделать, (Ctrl+Shift+u) - а вот на последний не могу
     
  5. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    CTRL + T :)

    upload_2018-5-7_17-59-54.png
     
  6. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Если бы все было так просто - я бы не убил седня полдня на поиск информация, но вот ведь какая "бяка" - если я указываю эти ссылки - то он их потом не кидает для парсинга. (Фильтрация дублей ссылок - запускается)
    Записал Видео.

    Ссылки недоступны для гостей

    Ссылки недоступны для гостей - происходящего. CTRL + T - было испробованно с самого начала, на форуме об этом не раз говорится ))

    Я сдаюсь - я все перепробывал - он фильтрует по CTRL+T - но, потом удаляет все нафиг с окна програмы - и прайслист вообще не создается...
     
    Последнее редактирование: 7 май 2018
  7. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Вы не правильно используете данную функцию, данные ссылки еще не отпарсили, но уже записали их в файл где весь список загруженных ссылок.
    Вам нужно указать на пустой txt файл куда они будут записыватся при самом парсинге. (При первом парсинге, нужно указать на пустой файл)
    И когда в следующий раз вы соберете ссылки через сканер и начнете парсинг, он удалит все те старые ссылки что вы уже отпарсили и начнет парсинг только новых.
     
    MaiklWizard нравится это.
  8. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    А во второй файл, который по CTRL + SHIFT + U - он сам допишет, для следующего раза, это вновь взятые ссылки?

    А ннет, жаль. То что по CTRL + T - надо ручками чистить.
     
    Последнее редактирование: 7 май 2018
  9. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    А возможно, еесли скопились успешные ссылки - тоесть контент из 5000 тысяч ссылок, вместот всех собраных 500та, чтобы в сканер ссылок, он добавлял только новые, т.е. 500+, а вот при парсинге конекта - вставлял в список только успешные 5 + ново спарсенные?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это из разряда придумывания проблем на ровном месте. Если сайт не банит ему "все равно" сколько вы его парсите, хоть постоянно.
     
  11. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Сай то не банитю. но вот парсинг 9ть часов, 29000 ссылок, при том что заполняются лишь три колонки - Артикул, Цена, Наличие - не интересно. Т.е. свой сайт я обновляю с опозданием на сутки ))
     
  12. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    А что если в один день, все айфоны подорожают в двое и все повысят цену на них, а у вас останется старая цена так как вы обновляете цену раз в сутки:
    Вы купите его за 30к например так как он уже подорожал и продадите за 10к? Так как вам клиент уже оплатил 10ку за товар вы не сможете повысить ему цену и будете обязаны продать ему его.

    Вы и вправду думаете что партнерские сайты с Amazon, eBay и другими крупными магазинами вечно парсят ?

    Объясню как это делается, ранее я делал похожее для своих проектов, при каждом заходе в раздел: Shop, у меня обновлялись там все цены и наличие, так как я к каждому товару сохранил ссылку донор и знал какой товар к какой ссылке привязан.

    Далее если человек открывал продукт на моем сайте, скрипт проверял изменилась ли цена и наличие сегодня на сайте донора, если все по старому, то ничего не менялось.
    А если же цена и наличие изменилось то скрипт сразу же обновлял у меня цену к которой добавлял нужный мне процент и показывал ее клиенту,
    все это рекомендуется делать с магазинами у которых есть API или моб приложение, так как там можно стягивать данные за 0.1сек и клиент на вашем сайте даже не успеет заметить задержку когда цена обновлялась.
     
    Felix_b и Root нравится это.
  13. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    У меня подключен поставщик по API - но у него цена выдаваемая розницы - как у Всех. не интересно. Ручками высчитать и угадать от входящей цены - правильно, +/- практически не возможно - я год пытался. Следовательно по API - я беру поставщика, а парсером, парсю другой магазин - где приемлемые, для меня цены розницы ))
     
  14. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Вы думаете магазин с 20к товарами сам пишет цены в ручную?:))
    У нас тоже был API поставшика, и у нас была формула по которой мы добавляли свои проценты сверху.
     
  15. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Согласен - но у нас бой идет за РРЦ. Это действительно проблема, как бы я не высчитавал, чтобы не сильно уклонятся в сторону - все равно ошибаюсь - так что звоняит "дисти" - и ругаются - поэтому, вот: - но 9ть часов - реально много Ссылки недоступны для гостей - чтоб на выходе получить лишь три колонки ))
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вам уже говорили, что нужно использовать файл с загруженными ранее ссылками в окне ctrl+t. Это как раз решит вашу проблему. Но до вас не доходит! Дело ваше! Только нас в покое оставьте, мы в этом НЕ виноваты.
     
    Последнее редактирование: 8 май 2018
    MaiklWizard нравится это.
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если вы на своем же скрине Ссылки недоступны для гостей показываете, что у вас парсинг во вкладке "Контент" идет 9 часов, как вы говорите, из-за повторного парсинга одних и тех же ссылок, мы вам пояснили, как избежать повторного парсинга ссылок во вкладке "Контент". Теперь вы меня тролите нижепроцитированной жалобой, что я, мол, долбаеб и только мешаю.

    Далее, даже если не принимать во внимание вашу жалобу на то, что во вкладке "Контент" долго парсится. А вернуться к вашему вопросу про исключение повторного сканирования ссылок, можно сказать следующее: вы просто не понимаете, как работает сканер, не понимаете, как осуществляется сбор ссылок и что там нет смысла какие-то повторы исключать, нужно просто грамотно настроить фильтры очереди вот и все. Я и сказал, что вы проблему придумали и ею нас грузите. Посчитал лишним вам пояснять, как работает сканер, если в системе помощи это все есть, а до вас не доходит (уже давал вам ссылку на материал).

    Вот странно люди поступают. Заходят в гости и начинают свои правила устанавливать или хамить. Мне всегда это непонятно было. Разве в голове у человека не может возникнуть мысли, что его могут просто напросто проводить. Если вам тут помогают бесплатно и не берут за это денег, вам не кажется, что нужно проявить уважение, хотя бы для того, чтобы вам продолжали помогать.
     
    Последнее редактирование: 8 май 2018
    napserious нравится это.

Поделиться этой страницей