Предлагаю добавить фичу, если 1 минуту (можно что бы регулировалось) «Невозможно соединиться с удаленным сервером» то LinkAParser делает рестарт a-parser-а.
А че, подвисает? Или просто не запущен? У нас же теперь два канала работы с парсером - по фтп и по файлам, причем файлы могут быть и на сетевом диске. Перезапускать парсер реально только если он доступен на том же сервере где и модуль. В общем красиво такую фишку не сделать.
Да вот есть такая проблема, падает (http://a-parser.com/threads/1570/) Речь именно когда парсер и модуль на одном сервере, работа с файлами. Почему красиво не получится? Если появилось «Невозможно соединиться с удаленным сервером», убиваем в процессах aparser.exe и запускаем по новой, все красиво)))
Почитал ссылку. Там и решения есть. Причем если охранный софт ставить на удаленный сервер, то и модуль ставить на тот же сервер где и апарсер не обязательно. Они могут быть разнесены на разные сервера. Зачем делать еще одно решение?
Та прожка подымает если апарсер полностью упал, то есть нет в процессах а если завис то не помогает (может конечно что то не так я настроил но у меня работает так).
Topper, а регулярки из файла LinkAParser.extraregex.txt сниппеты не обрабатывают? А то проскакивают слеши | и такие \ в текстовке. И еще - чтобы использовать 64 битную версию, в настройках надо прописывать путь ExecuteBeforePackGeneration=ПУТЬ-ДО-LinkAParser64.exe ? И можно ли собирать предложения в текст без <br /> в конце каждой порции сниппетов?
Да, для этого в макросе APSnippet.cs замени <br /> на то что нужно. например на пробел. В случае сниппетов этот файл применить нельзя так как он отбраковывает целые предложения при парсинге текста с сайтов, а не удаляет мусор. Чтобы подчистить лишние символы при парсинге сниппетов нужно добавить конструктов результатов в самом апарсере в настройках пресета. Знаешь как или сделать пример?
Topper, если нетрудно - сделай пожалуйста. И да - а что там за символ надо в код поставить, чтоб пробел получался вместо <br/> ?
Хорошо. Вот код пресета. Код: eyJwcmVzZXQiOiJHZXRTbmlwcGV0cyIsInZhbHVlIjp7InByZXNldCI6IkdldFNu aXBwZXRzIiwicGFyc2VycyI6W1siU0U6Okdvb2dsZSIsInBhbmRvcmFfc25pcCJd XSwicmVzdWx0c0Zvcm1hdCI6IiRwMS5zZXJwLmZvcm1hdCgnJHF1ZXJ5fCRzbmlw cGV0XFxuJykkcDEuYWRzLmZvcm1hdCgnJHF1ZXJ5fCRzbmlwcGV0XFxuJykiLCJy ZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6InRlc3QudHh0 IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJx dWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNh dmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxs TGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjp0cnVlfSwiZG9Mb2ciOiJu byIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0 c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6 W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbImFkcyIsInNuaXBw ZXQiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJyYXkiOiJhZHMiLCJ0byI6InNu aXBwZXQifSx7InNvdXJjZSI6WzAsWyJzZXJwIiwic25pcHBldCJdXSwidHlwZSI6 ImRlY29kZUh0bWwiLCJhcnJheSI6InNlcnAiLCJ0byI6InNuaXBwZXQifSx7InNv dXJjZSI6WzAsWyJhZHMiLCJzbmlwcGV0Il1dLCJ0eXBlIjoicmVtb3ZlSHRtbCIs ImFycmF5IjoiYWRzIiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsic2Vy cCIsInNuaXBwZXQiXV0sInR5cGUiOiJyZW1vdmVIdG1sIiwiYXJyYXkiOiJzZXJw IiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsiYWRzIiwic25pcHBldCJd XSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5IjoiYWRzIiwicmVnZXgiOiJe LnsxMCwxMn1cXHMoXFwuezN9fFxcLSlcXHMiLCJyZWdleFR5cGUiOiJpZyIsInJl cGxhY2UiOiIiLCJ0byI6InNuaXBwZXQifSx7InNvdXJjZSI6WzAsWyJzZXJwIiwi c25pcHBldCJdXSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5Ijoic2VycCIs InJlZ2V4IjoiXi57MTAsMTJ9XFxzKFxcLnszfXxcXC0pXFxzIiwicmVnZXhUeXBl IjoiaWciLCJyZXBsYWNlIjoiIiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlsw LFsiYWRzIiwic25pcHBldCJdXSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5 IjoiYWRzIiwicmVnZXgiOiJcXHMrXFwuezN9IiwicmVnZXhUeXBlIjoiaWciLCJy ZXBsYWNlIjoiLiIsInRvIjoic25pcHBldCJ9LHsic291cmNlIjpbMCxbInNlcnAi LCJzbmlwcGV0Il1dLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwiYXJyYXkiOiJzZXJw IiwicmVnZXgiOiJcXHMrXFwuezN9IiwicmVnZXhUeXBlIjoiaWciLCJyZXBsYWNl IjoiLiIsInRvIjoic25pcHBldCJ9LHsic291cmNlIjpbMCxbImFkcyIsInNuaXBw ZXQiXV0sInR5cGUiOiJyZWdleFJlcGxhY2UiLCJhcnJheSI6ImFkcyIsInJlZ2V4 IjoiW14wLTlBLVpcdTA0MTAtXHUwNDJmXHUwNDAxYS16XHUwNDMwLVx1MDQ0Zlx1 MDQ1MSBcXC5cXCFcXD9cXC1cXCtcXDtcXCVcXDpcXChcXClcXFwiXFxcdTIwMTRc XCdcXFx1MjAyNixdIiwicmVnZXhUeXBlIjoiaWciLCJyZXBsYWNlIjoiIiwidG8i OiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsic2VycCIsInNuaXBwZXQiXV0sInR5 cGUiOiJyZWdleFJlcGxhY2UiLCJhcnJheSI6InNlcnAiLCJyZWdleCI6IlteMC05 QS1aXHUwNDEwLVx1MDQyZlx1MDQwMWEtelx1MDQzMC1cdTA0NGZcdTA0NTEgXFwu XFwhXFw/XFwtXFwrXFw7XFwlXFw6XFwoXFwpXFxcIlxcXHUyMDE0XFwnXFxcdTIw MjYsXSIsInJlZ2V4VHlwZSI6ImlnIiwicmVwbGFjZSI6IiIsInRvIjoic25pcHBl dCJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX0sInBhcnNlcnNDb25mUHJlc2V0cyI6 eyJTRTo6R29vZ2xlIjp7InBhbmRvcmFfc25pcCI6eyJwcm94eXJldHJpZXMiOiIx MCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1h dHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJHF1ZXJ5fCRsaW5rXFxuJykiLCJtYXhf c2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xlYW51cCI6IjMwMCIsInRpbWVv dXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJsaW5rc3BlcnBhZ2UiOjEwLCJw YWdlY291bnQiOjEsImRvbWFpbiI6Ind3dy5nb29nbGUuY29tIiwibHIiOiIiLCJn bCI6IiIsImxvY2F0aW9uIjoiIiwiZmlsdGVyIjp0cnVlLCJzZXJwdGltZSI6IiIs InNlcnAiOiIiLCJwYXJzZW5vdGZvdW5kIjp0cnVlLCJ1c2VhbnRpZ2F0ZSI6ZmFs c2UsImFudGlnYXRlcHJlc2V0IjoiZGVmYXVsdCIsInVzZXNlc3Npb25zIjp0cnVl LCJyYXdkYXRhIjpmYWxzZSwiZG9fZ3ppcCI6dHJ1ZSwiZXh0cmFxdWVyeSI6IiJ9 fX19 Регулярка замены применена: Код: [^0-9A-ZА-ЯЁa-zа-яё \.\!\?\-\+\;\%\:\(\)\"\—\'\…,] Соответственно она удаляет все символы кроме: русских, не русских букаф и сиволов: - + . ! ? ; % : ( ) " — ' … , Дополни эту регулярку как тебе нужно если этого перечня не достаточно. Все что внутри кавычек можно заменить на что душе угодно. Например так : Код: return String.Join(" ", portion); //соединяем через <br /> и возвращаем
Ребят, у кого как часто капчи вылазят и что вы делаете, чтобы не создавались в итоге странице без контента например? На антикапче разоришься, может я настройки какие упускаю? Сервер в германии, паршу русский гугл - 1 страницу с выводом 30 ссылок на ней. Купил прокси лист от awmproxy.ru
я даже на паблик проксях парсил - ставь 500 попыток и всё, и бан прокси тайм 0, антигейтом никогда и непользовался,
Топпер, можно ли реализовать поддержку мультикея отдавая запрос? У меня ключи в формате keyword;;поисковый ключ Я хочу получить контент именно по поисковый ключ. Спасибо!
Наблюдал несколько раз повисание после этой строчки « Картинки успешно сохранены» , висеть будет пока не перезапустишь LinkAParser
Попробовал сгенерить дор на мультикеях и ... присоединяюсь к просьбе добавить их поддержку! Только уточню немного: парсить надо по главному подключу, который указывается в окне пандоры. Сейчас, в запрос на парсинг, идет вся строка целиком. UPD. Все легко решилось небольшой правкой пресета в апарсере.