А-Парсер и Пандора!

  • Автор темы Автор темы Topper
  • Дата начала Дата начала
Статус
Закрыто для дальнейших ответов.
Да, можно указывать много раз.
А число снипетов можно регулировать в настройках пресета:

upload_2015-8-4_19-17-45.png
 
Topper, а можно в настройках пресета менять поисковик, скажем на Bing?
 
Предлагаю добавить фичу, если 1 минуту (можно что бы регулировалось) «Невозможно соединиться с удаленным сервером» то LinkAParser делает рестарт a-parser-а.
 
Предлагаю добавить фичу, если 1 минуту (можно что бы регулировалось) «Невозможно соединиться с удаленным сервером» то LinkAParser делает рестарт a-parser-а.
А че, подвисает? Или просто не запущен?
У нас же теперь два канала работы с парсером - по фтп и по файлам, причем файлы могут быть и на сетевом диске.
Перезапускать парсер реально только если он доступен на том же сервере где и модуль. В общем красиво такую фишку не сделать.
 
Да вот есть такая проблема, падает (http://a-parser.com/threads/1570/)

Речь именно когда парсер и модуль на одном сервере, работа с файлами.

Почему красиво не получится?

Если появилось «Невозможно соединиться с удаленным сервером», убиваем в процессах aparser.exe и запускаем по новой, все красиво)))
 
Почитал ссылку. Там и решения есть. Причем если охранный софт ставить на удаленный сервер, то и модуль ставить на тот же сервер где и апарсер не обязательно. Они могут быть разнесены на разные сервера. Зачем делать еще одно решение?
 
Та прожка подымает если апарсер полностью упал, то есть нет в процессах а если завис то не помогает (может конечно что то не так я настроил но у меня работает так).
 
Topper, а регулярки из файла LinkAParser.extraregex.txt сниппеты не обрабатывают? А то проскакивают слеши | и такие \ в текстовке.
И еще - чтобы использовать 64 битную версию, в настройках надо прописывать путь ExecuteBeforePackGeneration=ПУТЬ-ДО-LinkAParser64.exe ?
И можно ли собирать предложения в текст без <br /> в конце каждой порции сниппетов?
 
Последнее редактирование:
И можно ли собирать предложения в текст без <br /> в конце каждой порции сниппетов?
Да, для этого в макросе APSnippet.cs замени <br /> на то что нужно. например на пробел.
Topper, а регулярки из файла LinkAParser.extraregex.txt сниппеты не обрабатывают? А то проскакивают слеши | и такие \ в текстовке.
В случае сниппетов этот файл применить нельзя так как он отбраковывает целые предложения при парсинге текста с сайтов, а не удаляет мусор.
Чтобы подчистить лишние символы при парсинге сниппетов нужно добавить конструктов результатов в самом апарсере в настройках пресета.
Знаешь как или сделать пример?
 
Topper, если нетрудно - сделай пожалуйста.
Хорошо. Вот код пресета.
Код:
eyJwcmVzZXQiOiJHZXRTbmlwcGV0cyIsInZhbHVlIjp7InByZXNldCI6IkdldFNu
aXBwZXRzIiwicGFyc2VycyI6W1siU0U6Okdvb2dsZSIsInBhbmRvcmFfc25pcCJd
XSwicmVzdWx0c0Zvcm1hdCI6IiRwMS5zZXJwLmZvcm1hdCgnJHF1ZXJ5fCRzbmlw
cGV0XFxuJykkcDEuYWRzLmZvcm1hdCgnJHF1ZXJ5fCRzbmlwcGV0XFxuJykiLCJy
ZXN1bHRzU2F2ZVRvIjoiZmlsZSIsInJlc3VsdHNGaWxlTmFtZSI6InRlc3QudHh0
IiwiYWRkaXRpb25hbEZvcm1hdHMiOltdLCJyZXN1bHRzVW5pcXVlIjoibm8iLCJx
dWVyeUZvcm1hdCI6WyIkcXVlcnkiXSwidW5pcXVlUXVlcmllcyI6ZmFsc2UsInNh
dmVGYWlsZWRRdWVyaWVzIjpmYWxzZSwiaXRlcmF0b3JPcHRpb25zIjp7Im9uQWxs
TGV2ZWxzIjpmYWxzZSwicXVlcnlCdWlsZGVyc0FmdGVySXRlcmF0b3IiOmZhbHNl
fSwicmVzdWx0c09wdGlvbnMiOnsib3ZlcndyaXRlIjp0cnVlfSwiZG9Mb2ciOiJu
byIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0
c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6
W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCxbImFkcyIsInNuaXBw
ZXQiXV0sInR5cGUiOiJkZWNvZGVIdG1sIiwiYXJyYXkiOiJhZHMiLCJ0byI6InNu
aXBwZXQifSx7InNvdXJjZSI6WzAsWyJzZXJwIiwic25pcHBldCJdXSwidHlwZSI6
ImRlY29kZUh0bWwiLCJhcnJheSI6InNlcnAiLCJ0byI6InNuaXBwZXQifSx7InNv
dXJjZSI6WzAsWyJhZHMiLCJzbmlwcGV0Il1dLCJ0eXBlIjoicmVtb3ZlSHRtbCIs
ImFycmF5IjoiYWRzIiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsic2Vy
cCIsInNuaXBwZXQiXV0sInR5cGUiOiJyZW1vdmVIdG1sIiwiYXJyYXkiOiJzZXJw
IiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsiYWRzIiwic25pcHBldCJd
XSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5IjoiYWRzIiwicmVnZXgiOiJe
LnsxMCwxMn1cXHMoXFwuezN9fFxcLSlcXHMiLCJyZWdleFR5cGUiOiJpZyIsInJl
cGxhY2UiOiIiLCJ0byI6InNuaXBwZXQifSx7InNvdXJjZSI6WzAsWyJzZXJwIiwi
c25pcHBldCJdXSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5Ijoic2VycCIs
InJlZ2V4IjoiXi57MTAsMTJ9XFxzKFxcLnszfXxcXC0pXFxzIiwicmVnZXhUeXBl
IjoiaWciLCJyZXBsYWNlIjoiIiwidG8iOiJzbmlwcGV0In0seyJzb3VyY2UiOlsw
LFsiYWRzIiwic25pcHBldCJdXSwidHlwZSI6InJlZ2V4UmVwbGFjZSIsImFycmF5
IjoiYWRzIiwicmVnZXgiOiJcXHMrXFwuezN9IiwicmVnZXhUeXBlIjoiaWciLCJy
ZXBsYWNlIjoiLiIsInRvIjoic25pcHBldCJ9LHsic291cmNlIjpbMCxbInNlcnAi
LCJzbmlwcGV0Il1dLCJ0eXBlIjoicmVnZXhSZXBsYWNlIiwiYXJyYXkiOiJzZXJw
IiwicmVnZXgiOiJcXHMrXFwuezN9IiwicmVnZXhUeXBlIjoiaWciLCJyZXBsYWNl
IjoiLiIsInRvIjoic25pcHBldCJ9LHsic291cmNlIjpbMCxbImFkcyIsInNuaXBw
ZXQiXV0sInR5cGUiOiJyZWdleFJlcGxhY2UiLCJhcnJheSI6ImFkcyIsInJlZ2V4
IjoiW14wLTlBLVpcdTA0MTAtXHUwNDJmXHUwNDAxYS16XHUwNDMwLVx1MDQ0Zlx1
MDQ1MSBcXC5cXCFcXD9cXC1cXCtcXDtcXCVcXDpcXChcXClcXFwiXFxcdTIwMTRc
XCdcXFx1MjAyNixdIiwicmVnZXhUeXBlIjoiaWciLCJyZXBsYWNlIjoiIiwidG8i
OiJzbmlwcGV0In0seyJzb3VyY2UiOlswLFsic2VycCIsInNuaXBwZXQiXV0sInR5
cGUiOiJyZWdleFJlcGxhY2UiLCJhcnJheSI6InNlcnAiLCJyZWdleCI6IlteMC05
QS1aXHUwNDEwLVx1MDQyZlx1MDQwMWEtelx1MDQzMC1cdTA0NGZcdTA0NTEgXFwu
XFwhXFw/XFwtXFwrXFw7XFwlXFw6XFwoXFwpXFxcIlxcXHUyMDE0XFwnXFxcdTIw
MjYsXSIsInJlZ2V4VHlwZSI6ImlnIiwicmVwbGFjZSI6IiIsInRvIjoic25pcHBl
dCJ9XSwiY29uZmlnT3ZlcnJpZGVzIjpbXX0sInBhcnNlcnNDb25mUHJlc2V0cyI6
eyJTRTo6R29vZ2xlIjp7InBhbmRvcmFfc25pcCI6eyJwcm94eXJldHJpZXMiOiIx
MCIsInVzZXByb3h5Ijp0cnVlLCJxdWVyeWZvcm1hdCI6IiRxdWVyeSIsImZvcm1h
dHJlc3VsdCI6IiRzZXJwLmZvcm1hdCgnJHF1ZXJ5fCRsaW5rXFxuJykiLCJtYXhf
c2l6ZSI6IjIwNDgwMCIsInByb3h5YmFubmVkY2xlYW51cCI6IjMwMCIsInRpbWVv
dXQiOiI2MCIsInJlcXVlc3RkZWxheSI6IjAiLCJsaW5rc3BlcnBhZ2UiOjEwLCJw
YWdlY291bnQiOjEsImRvbWFpbiI6Ind3dy5nb29nbGUuY29tIiwibHIiOiIiLCJn
bCI6IiIsImxvY2F0aW9uIjoiIiwiZmlsdGVyIjp0cnVlLCJzZXJwdGltZSI6IiIs
InNlcnAiOiIiLCJwYXJzZW5vdGZvdW5kIjp0cnVlLCJ1c2VhbnRpZ2F0ZSI6ZmFs
c2UsImFudGlnYXRlcHJlc2V0IjoiZGVmYXVsdCIsInVzZXNlc3Npb25zIjp0cnVl
LCJyYXdkYXRhIjpmYWxzZSwiZG9fZ3ppcCI6dHJ1ZSwiZXh0cmFxdWVyeSI6IiJ9
fX19

Регулярка замены применена:
Код:
[^0-9A-ZА-ЯЁa-zа-яё \.\!\?\-\+\;\%\:\(\)\"\—\'\…,]
Соответственно она удаляет все символы кроме: русских, не русских букаф и сиволов: - + . ! ? ; % : ( ) " — ' … ,
Дополни эту регулярку как тебе нужно если этого перечня не достаточно.

И да - а что там за символ надо в код поставить, чтоб пробел получался вместо <br/> ?

upload_2015-8-6_11-40-26.png
Все что внутри кавычек можно заменить на что душе угодно. Например так :
Код:
return String.Join(" ", portion); //соединяем через <br /> и возвращаем
 

Вложения

  • upload_2015-8-6_11-43-42.png
    upload_2015-8-6_11-43-42.png
    23,3 КБ · Просмотры: 27
Последнее редактирование:
Ребят, у кого как часто капчи вылазят и что вы делаете, чтобы не создавались в итоге странице без контента например?
На антикапче разоришься, может я настройки какие упускаю?
Сервер в германии, паршу русский гугл - 1 страницу с выводом 30 ссылок на ней.
Купил прокси лист от awmproxy.ru
 
Ребят, у кого как часто капчи вылазят и что вы делаете, чтобы не создавались в итоге странице без контента например?
На антикапче разоришься, может я настройки какие упускаю?
Сервер в германии, паршу русский гугл - 1 страницу с выводом 30 ссылок на ней.
Купил прокси лист от awmproxy.ru
я даже на паблик проксях парсил - ставь 500 попыток и всё, и бан прокси тайм 0, антигейтом никогда и непользовался,
 
Топпер, можно ли реализовать поддержку мультикея отдавая запрос?
У меня ключи в формате
keyword;;поисковый ключ
Я хочу получить контент именно по поисковый ключ.

Спасибо!
 
Наблюдал несколько раз повисание после этой строчки « Картинки успешно сохранены» , висеть будет пока не перезапустишь LinkAParser

1bcf8277f8fc05c4bc69a6c4c53569c4.png
 
Топпер, можно ли реализовать поддержку мультикея отдавая запрос?
У меня ключи в формате
keyword;;поисковый ключ
Я хочу получить контент именно по поисковый ключ.

Спасибо!

Попробовал сгенерить дор на мультикеях и ... присоединяюсь к просьбе добавить их поддержку! Только уточню немного: парсить надо по главному подключу, который указывается в окне пандоры. Сейчас, в запрос на парсинг, идет вся строка целиком.

UPD. Все легко решилось небольшой правкой пресета в апарсере.
 
Последнее редактирование:
Попробовал сгенерить дор на мультикеях и ... присоединяюсь к просьбе добавить их поддержку! Только уточню немного: парсить надо по главному подключу, который указывается в окне пандоры. Сейчас, в запрос на парсинг, идет вся строка целиком.
Первый подключ и так идет в работу в режиме MULTIKEY. Единственно - разделитель должен быть такой: |
 
Статус
Закрыто для дальнейших ответов.
Назад
Верх