Падает парсер при использовании HTML::TextExtractor

capturis

A-Parser Enterprise License
A-Parser Enterprise
Собираю текст в отдельные файлы. Пример файла запросов:
essay topic about education;http://www.mightystudents.com/
essay topic about education;http://www.argumentativeessaytopic.com/
essay topic about education;http://ed.sc.gov/
essay topic about education;http://homeworktips.about.com/od/essaywriting/a/argumenttopics.htm
essay topic about education;http://www.professays.com/essay/choosing-the-topic/
essay topic about education;http://essays.expert/
essay topic about education;http://www.ielts-blog.com/ielts-wri...ts-essay-topic-computers-instead-of-teachers/
essay topic about education;http://www.essaywritingservices.com/
essay topic about education;http://www.gallaudet.edu/tip/englis...ing-and-revising/essay-topic-suggestions.html
essay topic about education;http://homeworktips.about.com/od/topics/
unsung hero my life essay;http://www.123helpme.com/search.asp?text=unsung+hero
unsung hero my life essay;http://www.stageoflife.com/Who_Is_Your_Hero.aspx
unsung hero my life essay;http://www.stageoflife.com/Default.aspx?tabid=72&g=posts&t=1062
unsung hero my life essay;http://myhero.com/teachersroom/lessonview.asp?id=9
unsung hero my life essay;http://www.theatlantic.com/technology/archive/2013/12/the-shipping-container/281888/
unsung hero my life essay;http://publicdomainreview.org/2015/10/14/richard-spruce-and-the-trials-of-victorian-bryology/
unsung hero my life essay;http://greatergood.berkeley.edu/article/item/what_makes_a_hero/
unsung hero my life essay;http://www.wikihow.com/Write-an-Essay-in-Under-30-Minutes
unsung hero my life essay;http://www.eslpod.com/cellphone.xml
unsung hero my life essay;http://blog.richmond.edu/heroes/
Пресет:
Код:
eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs
InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5
cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi
dHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwiZmlsdGVy
VHlwZSI6InJlbWF0Y2giLCJ2YWx1ZSI6IlsgXFwtJiw6O1xcd1xcZF17NTAsfVsh
Py5dIiwib3B0aW9uIjoiaSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5i
bG9ja2xlbmd0aCIsInZhbHVlIjoiMzAwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJp
ZCI6InF1ZXJ5Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9XV0sInJlc3Vs
dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy
ZXN1bHRzRmlsZU5hbWUiOiJ1bml2ZXJzaXR5L3NuaXBwZXRzXzUwMGsvJHtxdWVy
eS5rZXl9LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1
ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJmaWxlIiwicXVlcnlGb3JtYXQiOlsiJHF1
ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6
ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1
ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09u
QWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6
ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlv
bnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIi
LCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJzdHJp
bmdTcGxpdCIsInNlcGFyYXRvciI6IjsiLCJ0byI6WyJrZXkiLCJsaW5rIl19XSwi
cmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLFsidGV4dHMiLCJ0ZXh0Il1d
LCJ0eXBlIjoicmVtb3ZlSHRtbCIsImFycmF5IjoidGV4dHMiLCJ0byI6InRleHQi
fSx7InNvdXJjZSI6WzAsWyJ0ZXh0cyIsInRleHQiXV0sInR5cGUiOiJkZWNvZGVI
dG1sIiwiYXJyYXkiOiJ0ZXh0cyIsInRvIjoidGV4dCJ9XSwiY29uZmlnT3ZlcnJp
ZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxl
QXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoi
ZGVmYXVsdCIsInRvb2xzSlMiOiIiLCJxdWVyaWVzRmlsZSI6WyJyZXN1bHRzL3Vu
aXZlcnNpdHkvNTAway50eHQiXX19
После старта задания запускаются какие-то левые дополнительные 2-3 копии апарсера, грузящие процессор, но ничего не делающие. Через некоторое время парсер падает. При выключении парсера, эти дополнительные процессы остаются работать. Система:
uname -a
Linux komp 3.19.0-32-generic #37~14.04.1-Ubuntu SMP Thu Oct 22 09:41:40 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux
Версия парсера 1.1.619
 
Aug 18 13:42:42.66507 Start ProxyChecker anon
Aug 18 13:42:47.01704 A-Parser v1.1.619-linux started, tasks: 29 / 147, memory total: 14014 MB, available: 12151 MB
Aug 18 13:43:12.22926 starting task #1794 threads: 200
Aug 18 13:43:13.45013 loading before not loaded iterator
Aug 18 13:43:13.45717 resuming results/university/500k.txt at 134558 line
Aug 18 13:43:15.49704 long parsing(0.10885214805603): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/
Aug 18 13:43:16.72989 long parsing(0.19556713104248): HTML::TextExtractor::0, query: http://www.shmoop.com/video/playlists/
Aug 18 13:43:19.42158 long parsing(0.102799892425537): HTML::TextExtractor::0, query: http://nomediakings.org/doityourself/doityourself_book_press.html
Aug 18 13:43:23.25736 long parsing(0.11865496635437): HTML::TextExtractor::0, query: https://www.coursehero.com/file/13615401/Organizational-Behavior-1/
Aug 18 13:43:30.08494 long parsing(0.111089944839478): HTML::TextExtractor::0, query: http://www.w3.org/TR/wai-aria-practices/
Aug 18 13:43:30.81035 long parsing(0.114274978637695): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6
Aug 18 13:43:31.6918 long parsing(0.129531145095825): HTML::TextExtractor::0, query: https://eere-exchange.energy.gov/
Aug 18 13:43:33.77178 long parsing(0.146065950393677): HTML::TextExtractor::0, query: http://www.clarkprosecutor.org/html/links/dplinks.htm
Aug 18 13:43:35.12543 long parsing(0.102803945541382): HTML::TextExtractor::0, query: https://en.wikipedia.org/wiki/Latin_words
Aug 18 13:43:36.3884 long parsing(0.195831060409546): HTML::TextExtractor::0, query: http://ahealedplanet.net/america.htm
Aug 18 13:43:37.0951 long parsing(0.268581867218018): HTML::TextExtractor::0, query: http://www.lib.berkeley.edu/MRC/Comedyfilm.html
Aug 18 13:43:37.33959 long parsing(0.118494033813477): HTML::TextExtractor::0, query: http://tvtropes.org/pmwiki/index_report.php
Aug 18 13:43:38.26995 long parsing(0.105020046234131): HTML::TextExtractor::0, query: http://seniorlearn.org/bookclubs/archives/fiction/YellowWallpaper.htm
Aug 18 13:43:42.04733 long parsing(0.105370044708252): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/
Aug 18 13:43:43.80739 long parsing(0.148434162139893): HTML::TextExtractor::0, query: http://www.newhorizonscholarsthane.com/circulars_15-16.html
Aug 18 13:43:45.68644 long parsing(0.119859933853149): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/l...n-essay-concerning-human-understanding-part-1
Aug 18 13:43:46.06571 long parsing(0.114058017730713): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...eek-05-can-capitalism-bring-inclusive-growth/
Aug 18 13:43:49.55286 long parsing(0.212145090103149): HTML::TextExtractor::0, query: http://ebook.biz/Free_eBooks
Aug 18 13:43:50.36526 long parsing(0.269775152206421): HTML::TextExtractor::0, query: http://www.beaconlearningcenter.com/lessons/AllLessons.asp
Aug 18 13:43:52.49068 long parsing(0.207550048828125): HTML::TextExtractor::0, query: http://www.toolband.com/news/news_archive.php
Aug 18 13:43:54.0733 long parsing(0.316740989685059): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/these...tment&searchterm=*&sortcol=author&sortdir=ASC
Aug 18 13:43:54.23278 long parsing(0.137162923812866): HTML::TextExtractor::0, query: http://www.nps.edu/Academics/GeneralCatalog/414.htm
Aug 18 13:44:02.40581 long parsing(0.152131080627441): HTML::TextExtractor::0, query: http://todayinsci.com/QuotationsCategories/R_Cat/Research-Quotations.htm
Aug 18 13:44:04.41437 long parsing(0.330596923828125): HTML::TextExtractor::0, query: http://digitalcommons.unl.edu/dissertations/
Aug 18 13:44:05.40166 long parsing(0.135236024856567): HTML::TextExtractor::0, query: http://www.science20.com/stars_planets_life/calculating_odds_life_could_begin_chance
Aug 18 13:44:07.43724 long parsing(0.161668062210083): HTML::TextExtractor::0, query: http://linguistlist.org/pubs/journals/browse-journals.cfm
Aug 18 13:44:07.94133 long parsing(0.262712001800537): HTML::TextExtractor::0, query: http://library.duke.edu/rubenstein/findingaids/guide/
Aug 18 13:44:09.49017 long parsing(0.148548126220703): HTML::TextExtractor::0, query: http://www.jchiappalone.com/
Aug 18 13:44:09.66378 long parsing(0.102283000946045): HTML::TextExtractor::0, query: http://www.myindiclub.com/music_entertainment.aspx?lang=2&lbl=254&Album=100 PERCENT LOVE
Aug 18 13:44:12.78249 long parsing(0.12321400642395): HTML::TextExtractor::0, query: http://www.theapprenticedoctor.com/how-to-become-a-medical-doctor-gp/
Aug 18 13:44:17.32862 long parsing(0.144598960876465): HTML::TextExtractor::0, query: http://marc.info/?l=enlightenment-svn&m=122295103026208
Aug 18 13:44:17.68885 long parsing(0.129266023635864): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/tocqueville-democracy-in-america-historical-critical-edition-vol-1
Aug 18 13:44:19.42454 long parsing(0.173758029937744): HTML::TextExtractor::0, query: http://www.cdc.gov/niosh-rtecs/reference.html
Aug 18 13:44:20.43768 long parsing(0.116137981414795): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...6-week-07-technology-cannot-replace-manpower/
Aug 18 13:44:20.62361 long parsing(0.127382040023804): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6
Aug 18 13:44:21.00287 long parsing(0.30426812171936): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/theses/thesisview.asp?searchcol=department&searchterm=*&
Aug 18 13:44:23.05932 long parsing(0.118159055709839): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...k-09-dreams-which-should-not-let-india-sleep/
Aug 18 13:44:24.54839 long parsing(0.107020854949951): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/ferguson-an-essay-on-the-history-of-civil-society
Aug 18 13:44:25.11971 long parsing(0.182640075683594): HTML::TextExtractor::0, query: http://www.science.gov/topicpages/m/matlab-based+simulation+tool.html
 
Это же не весь лог, правильно? Залейте весь лог на любой обменник и дайте ссылку.
 
После старта задания запускаются какие-то левые дополнительные 2-3 копии апарсера, грузящие процессор, но ничего не делающие.
как понять "какие-то левые"? это многоядерная обработка результатов
 
Лог я почистил, чтобы ничто лишнее не мешало. http://fracton.rgho.st/6prjC6npj
Падения пока воспроизвести не удалось, но на вопрос что значит "какие-то левые" готов развернутый ответ:
Js9lxGo.png
Это при том, что в настройках указано использовать 6 ядер и в процессоре их 6. Кроме того скрин сделан в момент, когда в парсере активных заданий не было!
Такая картина получается следующим образом. При запуске парсера без активных заданий все процессы "aparser" показывают загрузку 0. После запуска задания HTML::TextExtractor, получается такая картина:
p1q8SvB.png
То ядро, которое действительно работает, а не делает вид, легко узнать по количеству потребляемой памяти.
Выключаем парсер через веб интерфейс:
XacXURZ.png
Вот они "какие-то левые" остались.
И при повторном включении получается то что на первом скрине. То есть процессов добавилось еще. Я не знаю, что они делают, но процессор работает. Это напрягает даже больше чем падения.
 
необходим полный файл запросов для воспроизведения проблемы
 
Запросы: http://fracton.rgho.st/private/64VqFTPgm/6252293e587935bc6e9dd12d5c77f192
На данный момент симптомы такие. При запуске задания после перезагрузки парсера пишет указанное количество активных потоков, но количество готовых запросов не изменяется. Процессор шумит на все ядра указанные в настройках. При попытке перезапуска задания, получается следующее:
AEJUL0f.png
 
2 раза прогнал без ошибок, может быть во время работы что то дополнительное делаешь? например меняешь кол-во ядер CPU, или другие настройки? сколько активных заданий выполняется?
 
Сначала еще SE::Bing работал, но когда начались проблемы, только текстэкстрактор запускал. Кол-во ядер CPU менял, больше ничего.
 
менял в процессе работы задания или до этого?
 
Только после того, как начался этот головняк. Не помню точно, вроде бы останавливал сначала. Попробую в новую папку переустановить, с нуля так сказать. Позже отпишусь.
 
Скачал в новую папку. Импортировал пресет. Поставил 6 ядер CPU в настройках. Запустил парсинг по тому же файлу запросов. После завершения 140000 запросов активно использовали проц 4 процесса. Остановил задание - два процесса остались с нагрузкой. Выключил парсер через веб интерфейс - эти джва так и висят и якобы что-то считают. Результаты не добавляются, понятное дело.
 
покажи скрин основных настроек парсера и настроек потоков
 
Выше писал, только кол-во ядер поменял после установки в новую папку.
uFoW2E4.png

mnr2gpA.png
 
Назад
Верх