OlegChernavin
Silver Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору megabyte1 Цитата: вроде, в замене url-адресов - неправильно отображается амперсанд. & меняется на & а если мне надо "&" - текстом? или заменить & без точки с запятой? | Можно точный пример, как это воспроизвести? Цитата: и ещё были какие-то ошибки. например, если нужно разрешённые ключевые слова в URL. если написать mysite.org в разрешённых каталогах, то адрес вида /mysite.org/ - сработает, а /mysite.org - нет. это каталог, не домен. следовательно, то, что без слэша - как будто, файл. если написать mysite.org в файлах, то тогда URL "/mysite.org" не проходит по имени каталога, так как нет слэша (имя каталога не содержит mysite.org, и загрузка запрещена), а все файлы, не содержащие это имя - запрещены. цель - разрешать все URL-ы, в которых встречается "mysite.org", и запрещать, в которых не встречается | Если mysite.org - это сервер, а не часть каталога/имени файла, то просто добавить его в список разрешенных серверов, безо всяких слешей. Если это слово может встречаться в любой части адреса, то Фильтры URL - Имена Файлов, разешить: http://*mysite.org/*/* /*mysite.org*/* mysite.org Цитата: и ещё, если в файле редиректы, то он загружает пустышку с "302 file moved". как бы сразу загрузить URL, по которому он "moved", и не плодить пустышки? | Тут проблема, что необходимо будет исправлять все ссылки во всех HTML файлах на этот редирект. Если пустышку не сохранить, то ссылки окажутся ведущими на несуществующий файл. Добавлено: Цитата: грузит одно ядро, при наличии физических двух. в настройках стоит, как будто, четыре. скорее всего, для галочки - Всё Равно Не Работает O_O | Цитата: при большом количестве файлов в проекте - тормозит. если пришлось прервать, и заново начать - долго думал, обработка файлов была около 80 тысяч, и очень медленно обрабатывал, с тормозами (тормозило именно из-за процессора, а не жёсткого диска. когда окошко программы даже не успевает перерисовываться, а диск, как раз, практически не работал). так и не удалось дождаться. во время этой обработки - файлы, видимо, не загружались (точнее, они загружались, но попадали в кэш в виде временных файлов (видимо, туда же, где queue)). на паузе - всё равно тормозил, и очень медленно делал. после того, как проект снова остановил, они не сохранились, а удалились по крайней мере, тот файл, который был в "состоянии загрузки", и уже загрузился, на диске не нашёл. или он грузит сначала в кэш, а потом обрабатывает? почему же он тогда всё удалил, и не скинул результаты "работы"? | Да, сначала во временную папку, пока не будут обработаны. Если происходит останов, то необработанные файлы удаляются. Если их оставить, то будет копиться мусор. Поэтому пришлось сделать таким образом. Насчет обработки - буду оптимизировать, чтобы убрать тормоза. Цитата: грузит одно ядро, при наличии физических двух. в настройках стоит, как будто, четыре. скорее всего, для галочки - Всё Равно Не Работает O_O | Проверил, вроде все ядра задействует - это только для обработки файлов. Остальные процессы идут в одну нитку. Цитата: как скачать не "сначала все страницы уровня 0, затем все страницы уровня 1", а "сначала все уровни вложенности первой страницы, потом - второй"? может, тогда и не будут сотни тысяч файлов в очереди? потому что они будут уже повторяться (кстати, проверки на одинаковость ссылок в очереди - есть?). правда, как это сделать? тогда с одной страницы будет бесконечное количество "уровней". у них же нет вложенности, как у каталогов. и любая ссылка на новой странице - будет считаться ещё более глубокого уровня, хотя на самом деле они "параллельны"? | Конечно есть проверка на одинаковость - внутри программы есть список добавленных в очередь адресов, так что два раза не будут скачиваться. Цитата: каким-то образом нашёл опцию, чтобы сохранять файлы в начало очереди - она неочевидная, и нигде не написано. бодренько полетел, но низко приземлился: исключение неизвестное программное исключение (0x0eedfade) в приложении по адресу 0x7c80bf93 обращаю ваше внимание на повторяющееся слово "исключение" надеюсь, при "вылете" программы - ничего не портится? например, база данных URL'ов? а то, давно, вроде жаловались, что после вылета - нормально не загружает. правда, не знаю - случайно наткнулся запустил заново, поставил на паузу, подождал, пока файлы обработаются, и возобновил. пару часов успело отработать, но потом вылетело с "инструкция по адресу 0x0075a9f1" обратилась к памяти по адресу "0x000001f0. память не может быть "read"". предположу, что вылеты связаны с "помещением файлов в начало очереди" | С этой опцией используется гораздо больше оперативной памяти. Поэтому при большом объеме сайта может произойти такой сбой. Вы не смогли бы понаблюдать за количеством памяти (вкладка Системный Монитор) во время загрузки - приближается ли к 2 гигабайтам перед вылетом? Если нет, то проблема в другом и надо будет искать. Цитата: и ещё, например, если файл пропускается по содержанию, то при повторном запуске он не запоминает, что файл не надо качать? | Да, не запоминает. Файл будет снова скачан. Ведь его содержимое может измениться к этому моменту и фильтр по-другому сработает. |