Баг-репорты

Тема в разделе "Развитие Content Downloader", создана пользователем Root, 10 мар 2010.

  1. Flash

    Flash New Member Пользователи

    Регистрация:
    25 окт 2011
    Сообщения:
    5
    Понял тебя.:)
    Он и установлен от админа. У меня Windows XP и единственный пользователь администратор.
     
  2. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    хм... может у тебя железо слегонца разогнано?
     
  3. Flash

    Flash New Member Пользователи

    Регистрация:
    25 окт 2011
    Сообщения:
    5
    Не думаю. Я никогда его не разгонял.
     
  4. Weetal

    Weetal New Member Пользователи

    Регистрация:
    7 мар 2011
    Сообщения:
    10
    После очередного апдейта CD изменилось макисмальное кол-во добавления ссылок (Добавить ссылки F8) по крайней мере у меня. Сейчас максимум 75010 строк добавляется, а нужно бооольше. Посмотрите пожалуйста.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Увеличено...
     
  6. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Спасибо за оперативные доработки повторяющихся границ. )

    По теме... Баг, не баг, но в первые не смог добавить простой кусок кода в "поиск и замена"

    Хотел заменить всё, что до <strong> сам CD, в визуальном видит так
    <p>{br} *</p>{br}<p>{br}

    Засунул в "поиск и замена" - не обрабатывает.
    Полчаса эксперементировал с пробелами и табуляциями и не получилось.

    форум сковеркал, прикрепил

    Посмотреть вложение пример-cd.txt
     
    Последнее редактирование: 24 ноя 2011
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста. Обращайтесь! Рад помочь!
    Вместо звездочки в функциях поиск-замены (во всех) используйте {skip}. Переносы строк обозначаются как {br}.

    Заменить от начала текста до тега <strong>:
    HTML:
    {skip}<strong>|на что заменить
    Заменить только эту конструкцию:
    HTML:
    <p>{br}	{skip}</p>{br}<p>{br}<strong>|на что заменить
    Получилось?
     
  8. red

    red New Member Пользователи

    Регистрация:
    21 дек 2011
    Сообщения:
    1
    В общем уже несколько раз столкнулся со следующим багом, я всегда когда экспортирую xml файл, его никогда не разделяю на более мелкие файлы, а добавляю 5-6 нуллей в конце выбора размера файла и иногда бывает, что не срабатывает он создает тысячи мелких файлов и все намертво виснит.

    Поэтому предлагаю вообще сделать по умолчанию, что бы сохранялось все в один файл, а если кому нибудь надо на мелкие файлы, то дополнительную галочку прикрутить. Или же исправить этот баг, но все равно напрягает все время нули дописывать в размер файла.
     
  9. Yurijd

    Yurijd New Member Пользователи

    Регистрация:
    29 мар 2011
    Сообщения:
    18
    А у меня при сканировании сайтов. Периодически перестает парсить ссылки, приходится нажимать кнопку приостановить, затем продолжить. Постоянно следить нет времени, это происходит с периодичностью примерно в 5-10 минут. Хочу поставить на VPS прогу, запустить и забыть, а видимо не получится. В чем может быть проблема?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    1.) Какая у вас версия программы?
    2.) С какого сайта собираете ссылки?
     
  11. Yurijd

    Yurijd New Member Пользователи

    Регистрация:
    29 мар 2011
    Сообщения:
    18
    версия 27.07
    сайты допустим вот эти
    holoso.ru
    bakugan-msk.ru

    Мне нужно загрузить список допустим из 500 сайтов с одинаковыми признаками и выпарсить их все. Но почему то зависает даже на этих 3-х
     
    Последнее редактирование: 5 янв 2012
  12. Yurijd

    Yurijd New Member Пользователи

    Регистрация:
    29 мар 2011
    Сообщения:
    18
    Зависание пока обошел, но тут еще проблема другая возникла.
    Вот ссылка politkniga.ru не находит ссылки например на страницы товара politkniga.ru/index.php?productID=3706. Причем я в очереди их вижу, но они не добавляются в нижнее окно. Подскажите в чем может быть дело? И таких сайтов на этом движке много, а парсятся не все, хотя структура одинаковая.
     
    Последнее редактирование: 5 янв 2012
  13. Yurijd

    Yurijd New Member Пользователи

    Регистрация:
    29 мар 2011
    Сообщения:
    18
    Перезагрузил программу и попробовал поработать с одним этим урлом, блин парсит. Получается что со списком некорректно работает
     
  14. qazaq1

    qazaq1 New Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    11
    Добрый день! вот такая проблема
    На картинке открыт файл в экселе, блокноте и опен оффисе
    Как видно - в опен оффисе видно, что появились у продукт_ску какие то странные кавычки верхние, причем в блокноте их не видно.
    Соответственно, файл не загружается в магазин (загружал ДО открытия, чтоб исключить влияние экселя, блокнота или опен оффиса )
    Если в опен оффисе убрать кавычки - то файл в магазин начинает грузиться.
    И откуда они берутcя эти кавычки? если их в txt не видно?
    Подскажите, как порешать?
    Спасибо!
    Ссылки недоступны для гостей
     
    Последнее редактирование: 12 фев 2012
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, программа сохраняет в UTF-8 с BOM, теперь появилась возможность сохранять в UTF-8 без BOM (используйте эту опцию).

    Content Downloader версии 30.84 (12.02.2012):

    - Теперь контент можно сохранять в utf-8 без BOM;
    - Теперь можно применять фильтры для обработки существующего списка ссылок очереди сканера сайтов (правый клик по списку);
    - Несколько доработок.
     
  16. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    Использую в проекте настройки:

    - Находить статью автоматически
    - Использовать шаблон вывода и там <CD_DOCURL!>;<CD_AUTO!>
    - Сохранять в один файл csv

    Ну и закинул пачку адресов главных страниц сайтов.

    В файле csv нет адресов, т.е. не работает <CD_DOCURL!>
    Вообще не критично и мне это не нужно особо....

    Поставил ещё htm to txt и в файле проскочил такой кусок:

    <b class="online_guest" onmouseover="showhint('Группа: ГостиIP: 188.65.69.211ОС: неизвестнаяБраузер: неизвестныйНа главнойБыл здесь в: 21:01:43', this, event, '180px')-"><b class="online_guest" onmouseover="showhint('Группа: ГостиIP: 83.149.34.242ОС: Windows XPБраузер: Opera 9.64Смотрит облако теговБыл здесь в: 21:01:35', this, event, '180px')-"><b class="online_guest" onmouseover="showhint('Группа: ГостиIP: 80.239.243.40ОС: неизвестнаяБраузер: Opera 11.10Смотрит категорию: Частное фотоБыл здесь в: 21:01:32', this, event, '180px')-">
     
    Последнее редактирование: 16 фев 2012
  17. bork75

    bork75 New Member Пользователи

    Регистрация:
    2 сен 2010
    Сообщения:
    97
    В одном проекте задал сегодня в границах парсить <title> и у некоторых это поле осталось пустым,
    начал проверять, оказывается CD отреагировал на регистр.

    <title> и <TITLE> - парсится что-то одно!

    Надеюсь, в ближайшем апдейте это исправится.
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это не баг, просто так задумано ;), поверьте, это решает больше проблем, чем создает.
    Задайте две границы, в одной большие, во второй маленькие буквы, поставьте эти границы рядом (и будет выводиться только одна).
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Чтобы шаблон вывода работал, нужно переключиться в "парсить заданные части документа" (также необходимо задать 1 фиктивную границу парсинга, например < и >).
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    наврятли это поможет, с выставленными htm to txt не чистит внутреннее содержимое первого тега, это заметно в csv выводе.
    Например есть в интернет магазине храктеристика и заключена тегом span и не просто тегом а со всякими эффектами (типа onmouseover="showhint(' и т.д.) на javascript, вот такое добро проскакивает порой какбудто парсер не в силе очистить разрешенный тег:rolleyes:
     

Поделиться этой страницей