Мне необходимо с готового списка урлов спарсить текстовые блоки определенной длины (текстовую информацию, кому как угодно). Результаты нужно сохранить в отдельную папку. Один текстовик равен ключевику (url), но название этого файла - titleспарсенной страницы. Подскажите, на скрине, все ли я правильно делаю?
Я почему спрашиваю. Если парсю английский контент, то название файлов корректное, а если пытаюсь спарсить русский конент, то либо файлы пустые, либо название файлов английское, явно не совпадающее с title страницы
Ну, так выложите код пресета, несколько запросов, по которым у вас возникают вопросы, чтобы можно было протестировать. По одному скрину сложно что-то понять и помочь...
Спойлер: Код пресета eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0 b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+ XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0 IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfV1dLCJyZXN1bHRz Rm9ybWF0IjoiJHAxLnByZXNldCIsInJlc3VsdHNTYXZlVG8iOiJmaWxlIiwicmVz dWx0c0ZpbGVOYW1lIjoidGV4dC8ke3AxLnRpdGxlfS50eHQiLCJhZGRpdGlvbmFs Rm9ybWF0cyI6W10sInJlc3VsdHNVbmlxdWUiOiJubyIsInF1ZXJ5Rm9ybWF0Ijpb IiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVzIjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJp ZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlvbnMiOnsib25BbGxMZXZlbHMiOmZhbHNl LCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVyYXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0 aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNlfSwiZG9Mb2ciOiJubyIsImtlZXBVbmlx dWUiOiJObyIsIm1vcmVPcHRpb25zIjpmYWxzZSwicmVzdWx0c1ByZXBlbmQiOiIi LCJyZXN1bHRzQXBwZW5kIjoiIiwicXVlcnlCdWlsZGVycyI6W10sInJlc3VsdHNC dWlsZGVycyI6W10sImNvbmZpZ092ZXJyaWRlcyI6W119fQ== Спойлер: Примеры запросов для парсинга контента http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html http://www.footballtop.ru/news/zenit-krasnodar-pryamaya-translyaciya-smotret-onlayn-15-08-2015-po-kanalu-nash-futbol http://www.eurosport.ru/all-sports/story_sto4872372.shtml http://rus.postimees.ee/3305585/smotrite-v-subbotu-s-kommentariem-na-russkom-sillamjaje-prinimaet-infonet http://www.infpol.ru/glavnye-novosti/item/14305-viktor-gusev-mozhet-byt-ya-ne-tuda-zakhodil-i-ne-tam-smotrel.html http://www.eurofootball.ru/news/51498/internettv-laola1tv-pokazhet-vse-matchi-futbolnoy-bundesligi-besplatno http://bestgoal.tv/news/22159/manchester-siti-chelsi-smotret-onlajn-translyatsiyu-matcha.html http://ianews.ru/articles/65931/ Результат - пустая папка, ничего не спарсилось, хотя бывает, что создает просто пустые текстовые файлы
Все вполне нормально парсится. Правда в ваш пресет лучше добавить 2 Конструктора результатов: В итоге получим такое: Также в пресет лучше прописать нужный юзерагент, чтобы не было такого, как последний файл. Насчет содержания файлов. К примеру, по ссылке http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html - нет ни одного текста, который был бы больше 500 символов и матчился вашей регуляркой. Если вообще убрать фильтр и поставить Min block length = 5, то получим кучу текста (аж 14 Кб). Поэтому пересмотрите требования к тексту.
дельные советы даете! Хотелось бы уточнить, что всетаки дают эти дополнительные конструкторы результата? И по поводу минимального блока я думаю тут правильно ставить 500 символов, это дает на выходе более качественный и цельный контент, более информативные статьи Упсс!! Что то у меня всеравно не парсится с такими данными, пишет в логах вот такую фигню: " http://www.footballtop.ru/news/zeni...otret-onlayn-15-08-2015-po-kanalu-nash-futbol Results collector: Bad results filename "results/text/Air, France. Как самое дорогое ТВ стало лучшим в мире - Все виды спорта - Eurosport.txt" at build/core.to_build.pl line 4276. " Что это может быть подскажите?
http://a-parser.com/wiki/result-builder/ В этом примере преобразовываются HTML- сущности и заменяется символ "/" на "_". Вам виднее... Имя файла содержит недопустимые файлы. Проверяйте что у вас в title и, если есть недопустимые символы - заменяйте их с помощью Конструктора результатов. Например "|".
Что я не пойму, я парсю теме же данными что и вы (выше код пресета и урл задания) и у вас абсолютно все спарсилось, у меня же не хочет. Как так? А может это просто название в кирилице не поддерживается, потому что английские сайты с титле инглиш парсит без проблем. Хотя вы выше пробывали у вас получилось
Обновился до последней версии, результата это не дало!!! Не хочет он парсить у меня с кирилическим названием файла, папка с результатом пустая, в ней только присутствует один текстовый файл с названием "NONE" 0 кб В логах пишет новую ошибку "tls: undefined socket at build/core.to_build.pl line 3612." Давайте решим этот вопрос
Спойлер: Код пресета eyJwcmVzZXQiOiJDb250ZW50X2Rvd2xhZGVyIiwidmFsdWUiOnsicHJlc2V0Ijoi Q29udGVudF9kb3dsYWRlciIsInBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0 b3IiLCJkZWZhdWx0Iix7InR5cGUiOiJmaWx0ZXIiLCJyZXN1bHQiOlsidGV4dHMi LCJ0ZXh0Il0sImZpbHRlclR5cGUiOiJyZW1hdGNoIiwidmFsdWUiOiJbICxcXHdc XGRdezYwLH1bIT8uXSIsIm9wdGlvbiI6IiJ9LHsidHlwZSI6Im92ZXJyaWRlIiwi aWQiOiJtaW5ibG9ja2xlbmd0aCIsInZhbHVlIjoiNTAwIn0seyJ0eXBlIjoiY3Vz dG9tUmVzdWx0IiwicmVzdWx0IjoiZGF0YSIsInJlZ2V4IjoiPHRpdGxlPihbXjw+ XSopPC90aXRsZT4iLCJyZWdleFR5cGUiOiJpcyIsInJlc3VsdFR5cGUiOiJmbGF0 IiwiYXJyYXlOYW1lIjoiIiwicmVzdWx0cyI6WyJ0aXRsZSJdfSx7InR5cGUiOiJv dmVycmlkZSIsImlkIjoidXNlci1hZ2VudCIsInZhbHVlIjoiWyUgdG9vbHMudWEu cmFuZG9tKCkgJV0ifV1dLCJyZXN1bHRzRm9ybWF0IjoiJHAxLnByZXNldCIsInJl c3VsdHNTYXZlVG8iOiJmaWxlIiwicmVzdWx0c0ZpbGVOYW1lIjoidGV4dC8ke3Ax LnRpdGxlfS50eHQiLCJhZGRpdGlvbmFsRm9ybWF0cyI6W10sInJlc3VsdHNVbmlx dWUiOiJubyIsInF1ZXJ5Rm9ybWF0IjpbIiRxdWVyeSJdLCJ1bmlxdWVRdWVyaWVz IjpmYWxzZSwic2F2ZUZhaWxlZFF1ZXJpZXMiOmZhbHNlLCJpdGVyYXRvck9wdGlv bnMiOnsib25BbGxMZXZlbHMiOmZhbHNlLCJxdWVyeUJ1aWxkZXJzQWZ0ZXJJdGVy YXRvciI6ZmFsc2V9LCJyZXN1bHRzT3B0aW9ucyI6eyJvdmVyd3JpdGUiOmZhbHNl fSwiZG9Mb2ciOiJubyIsImtlZXBVbmlxdWUiOiJObyIsIm1vcmVPcHRpb25zIjpm YWxzZSwicmVzdWx0c1ByZXBlbmQiOiIiLCJyZXN1bHRzQXBwZW5kIjoiIiwicXVl cnlCdWlsZGVycyI6W10sInJlc3VsdHNCdWlsZGVycyI6W3sic291cmNlIjpbMCwi dGl0bGUiXSwidHlwZSI6ImRlY29kZUh0bWwiLCJ0byI6InRpdGxlIn0seyJzb3Vy Y2UiOlswLCJ0aXRsZSJdLCJ0eXBlIjoic3RyaW5nUmVwbGFjZSIsInNlYXJjaCI6 Ii8iLCJyZXBsYWNlIjoiXyIsInRvIjoidGl0bGUifV0sImNvbmZpZ092ZXJyaWRl cyI6W119fQ== Спойлер: Запросы http://www.championat.com/football/news-2233125-kuban--cska-videotransljacija-matcha-30-avgusta.html http://www.footballtop.ru/news/zeni...otret-onlayn-15-08-2015-po-kanalu-nash-futbol http://www.eurosport.ru/all-sports/story_sto4872372.shtml http://rus.postimees.ee/3305585/smo...ariem-na-russkom-sillamjaje-prinimaet-infonet http://www.infpol.ru/glavnye-novost...byt-ya-ne-tuda-zakhodil-i-ne-tam-smotrel.html http://www.eurofootball.ru/news/514...het-vse-matchi-futbolnoy-bundesligi-besplatno http://bestgoal.tv/news/22159/manchester-siti-chelsi-smotret-onlajn-translyatsiyu-matcha.html http://ianews.ru/articles/65931/ У меня результат - пустая папка text Скрин лога: