Предложения по улучшению программы

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 13 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Получается не подходит. Парсите тогда в 1 поток (так как в многопоточном режиме потоки друг друга не ждут).
     
  2. lionz

    lionz New Member Пользователи

    Регистрация:
    4 апр 2020
    Сообщения:
    12
    Город:
    Msk
    Я и паршу в 1 поток. На странице донора контент идет так:

    товар1
    товар2
    товар3
    ....
    товар10

    Начинаю парсить в этом же порядке, и у уже на странице моего сайта выводит обратный порядок

    товар10
    товар9
    товар8
    ....
    товар1

    Так как посты выводятся по ID или Дате\Времени.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тогда вопросы к работе вашей CMS. Так как данные на сервер отправляются в нужном порядке.
     
  4. lionz

    lionz New Member Пользователи

    Регистрация:
    4 апр 2020
    Сообщения:
    12
    Город:
    Msk
    Большая часть CMS выводит посты по дате их добавления или же по возрастанию ID

    Если на главной странице донора самый верхний пост товар1, а последний товар10, то товар1 парсится самым первым, а товар10 последним. Соответственно получается у меня товар10 является верхним постом.
    Это ведь логика большинства CMS выводить посты по мере добавления.
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Стоило уточнить что требуется это для вкладки ССЫЛКИ и СКАНЕРА.)
    Пробовали передать дату публикации в базу?
     
  6. lionz

    lionz New Member Пользователи

    Регистрация:
    4 апр 2020
    Сообщения:
    12
    Город:
    Msk
    Так товар1....товар10 - свежедобавленный верхний товар1 спарсится самым перым, а товар10 последним.
    Соответственно, в моей БД товар10 будет последним добавленным, самым свежим по времени, то есть самым новым.
    На главной донора идет постоянное добавление пачек товаров, я их допаршиваю. Но ввиду логики CD, у меня в БД они имеют обратный порядок в отличае от донора.
     
  7. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    В своей БД меняйте дату добавления товара
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Программа отправляет запросы к БД в том порядке, в котором идут ссылки в списке ссылок (на этом этапе порядок не меняется).

    Как товары расположены в базе или выводятся на сайте - уже другой вопрос.

    Не нужно в этой теме разводить дискуссии консультативного плана.

    Если нужно, создайте новую тему с вопросом в соответствующем разделе.
     
    Dron25 нравится это.
  9. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    В шаблон генерации списка ссылок добавить пункт меню
    "Используя ТОЛЬКО значения {key} и {key2}"
    С его вариациями: "В сканер сайтов" и "Без перебора".

    Объясню чуть подробнее:
    В {key} есть артикулы товаров, а в {key2} - номера пунктов доставок. Нужно, чтобы артикулы {key} шли по порядку, а номера пунктов доставок {key2} - повторялись каждый раз, когда заканчивается список.

    То есть, у нас есть 6 артикулов и 3 пункта доставки/выдачи.
    Артикулы проходят один раз по всему списку {key} , а пункты доставки/выдачи {key2}, если заканчивается список, начинает его заново. Примерно в таком формате

    Код:
    https://site.ru/0K30E12111/30935
    
    Где 0K30E12111 - артикул {key}
    30935 - номер пункта доставки {key2}
    
    И будет вот в таком виде:
    https://site.ru/0K30E12111/30935
    https://site.ru/AA10010235/28807
    https://site.ru/495001M010/16618
    https://site.ru/4524126000/30935
    https://site.ru/391282B766/28807
    https://site.ru/MB50117190A/16618
    

    То есть, начиная с четвертой строки (в примере), {key2} взялся по новой и пошел по списку, и так по кругу

    __

    UP: частично решено.
    В конце ссылки добавляем \{num}, прописываем кол-во артикулов (в этом примере 10 шт) и в {key2} размножаем бесконечное кол-во пунктов выдачи
    После, выбираем "Сгенерировать ссылки" - "Используя диапозон {num} и значения {key}, {key2} (Без перебора).
    Потом в редактировании ссылок (CTRL+D) удаляем конец ссылки \{num}.
    PROFIT!
     
    Последнее редактирование: 14 июл 2020
    Root нравится это.
  10. sten30

    sten30 Active Member Пользователи

    Регистрация:
    7 авг 2014
    Сообщения:
    228
    Когда уже в программе появится функция отправки на решение Recaptcha 2 ?
    Вводятся новые макросы, которые редко кому нужны,
    а самый востребованный функционал решения самой частой каптчи отсутствует.
     
    kadishev1997 и inotoxic нравится это.
  11. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Как вариант через php отправлять на сервисы
     
    Root и kadishev1997 нравится это.
  12. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Здравствуйте. Сделайте пожалуйста чтобы для макроса getmorecontent можно было использовать [LOOP] в передаваемых post данных. так например Ссылки недоступны для гостей
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
     
    kadishev1997 и kenny872012 нравится это.
  14. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Спасибо
     
  15. kadishev1997

    kadishev1997 Well-Known Member Пользователи

    Регистрация:
    27 мар 2019
    Сообщения:
    310
    Сделать автоматизацию для шаблона генерации списка ссылок. Объясню зачем:
    Есть артикулы товаров, которые нужно ежедневно обрабатывать, и есть {key} (или {key2} ) - в котором присутствуют необходимые номера пунктов доставки.
    При «Загрузке элементов списка ссылок перед запуском парсинга во вкладке "Контент" или "Ссылки"» , можно настроить фильтр ссылок и его применять, но некий "шаблон" в фильтре ссылок будет один для всех, а нужно, чтобы применялось значение {key} (или {key2} ), в котором находятся номера пунктов доставки.

    Что то типа такого:

    Код:
    site.ru/Article1/001
    site.ru/Article2/002
    site.ru/Article3/001
    site.ru/Article4/002
    
    Где "Article" - это артикул, а "001" - номер пункта доставки, который генерируется через {key} или {key2}.

    Нужно для автоматизации парсинга, когда работа идет по Cron, т.к. при частом использовании одной ссылки, в котором пункт доставки дает блокировку (видит, что его парсят и тем самым дает временную блокировку или ограничивает, до определенного кол-ва запросов к этому пункту доставки в минуту, даже с использованием прокси), можно использовать другие номера пунктов доставки, тем самым чередуя их и обходя некую защиту от парсинга
     
    Root нравится это.
  16. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    Добрый день,

    очень не хватает в редакторе CSV дополнительного инструмента перестроения csv файла, необходимого для перераспределение содержимого ячеек по столбцам с автоматическим заданием заголовка столбца информацией взятой из ячейки до разделителя и дальнейшей автоматической сортировкой и распределению по указаным столбцам оставшихся значений после разделителя, желательно что-бы сначала шли столбцы с большим кол-вом значений а потом с меньшим, при этом строго придерживаясь ключевого столбца со строками, которые содержат артикул (парт-номер и т.п.), для наглядности прошу взглянуть на приложенный пример..

    довольно часто мне приходится парсить различные таблички с сайтов с использованием повторяющихся границ и для меня бывает крайне сложно для каждого отдельного сайта делать спец. шаблон, что-бы не плыли значения в полученном дампе парсинга в csv, на это практически нет времени и зачастую доп. знаний для реализации подобного.. чаще всего проще и быстрее получается спарсить тип характеристики и её значение вместе, а далее перераспределить все содержимое ячеек подобным инструментом к созданию, которого я Вас призываю)

    p.s. по сути дела это упрощенный вариант "использования" макроса DYNAMICVALUES работу которого Вы хорошо продемонстрировали в этом видео
     

    Вложения:

    Последнее редактирование: 20 июл 2020
    Root нравится это.
  17. Trenikola

    Trenikola Member Пользователи

    Регистрация:
    8 июн 2013
    Сообщения:
    60
    Добрый день!

    Можно ли изменить порядок использования прокси?
    Необходимо, чтобы программа из имеющегося списка прокси использовала не сразу все адреса прокси, а поэтапно, исходя из блокировки адреса. Т.е. сначала будет использоваться один или несколько работающих прокси, и как только источник забанит (или сам умрет) эти прокси, то программа автоматом подставляла бы следующий (ие) активный работающий прокси. Это возможно?
     
    Последнее редактирование: 22 июл 2020
  18. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день всем!
    Сергею огромная благодарность за макрос!!! Предлагаю небольшую доработку макроса [CRAWLER]! Добавить возможность вставки определённой границы(сайт) в {STARTURL}, а не только SELF. Т.е. парсим в таблицу, извлекаем сайт, далее при помощи макроса собираем контактные данные и записываем в отдельные ячейки. Также добавить возможность разделять полученные данные не только переносом строки. Например, в разные ячейки([CSVCS]), запятую.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В параметре {STARTURL} можно указывать любой URL. Я не понимаю, в чем проблема.
     
  20. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Проект в аттаче. С заданной границей в виде сайта не работает. Берёт контакты из источника, а не сайта, заданного границей. Если создать чистый проект, в котором ничего нет и в качестве ссылки использовать адрес сайта, то работает. Возможно, я что-то делаю не так.
     

    Вложения:

    Последнее редактирование: 24 июл 2020

Поделиться этой страницей