Собираю текст в отдельные файлы. Пример файла запросов: Спойлер essay topic about education;http://www.mightystudents.com/ essay topic about education;http://www.argumentativeessaytopic.com/ essay topic about education;http://ed.sc.gov/ essay topic about education;http://homeworktips.about.com/od/essaywriting/a/argumenttopics.htm essay topic about education;http://www.professays.com/essay/choosing-the-topic/ essay topic about education;http://essays.expert/ essay topic about education;http://www.ielts-blog.com/ielts-wri...ts-essay-topic-computers-instead-of-teachers/ essay topic about education;http://www.essaywritingservices.com/ essay topic about education;http://www.gallaudet.edu/tip/englis...ing-and-revising/essay-topic-suggestions.html essay topic about education;http://homeworktips.about.com/od/topics/ unsung hero my life essay;http://www.123helpme.com/search.asp?text=unsung+hero unsung hero my life essay;http://www.stageoflife.com/Who_Is_Your_Hero.aspx unsung hero my life essay;http://www.stageoflife.com/Default.aspx?tabid=72&g=posts&t=1062 unsung hero my life essay;http://myhero.com/teachersroom/lessonview.asp?id=9 unsung hero my life essay;http://www.theatlantic.com/technology/archive/2013/12/the-shipping-container/281888/ unsung hero my life essay;http://publicdomainreview.org/2015/10/14/richard-spruce-and-the-trials-of-victorian-bryology/ unsung hero my life essay;http://greatergood.berkeley.edu/article/item/what_makes_a_hero/ unsung hero my life essay;http://www.wikihow.com/Write-an-Essay-in-Under-30-Minutes unsung hero my life essay;http://www.eslpod.com/cellphone.xml unsung hero my life essay;http://blog.richmond.edu/heroes/ Пресет: Спойлер Код: eyJwcmVzZXQiOiJkZWZhdWx0IiwidmFsdWUiOnsicHJlc2V0IjoiZGVmYXVsdCIs InBhcnNlcnMiOltbIkhUTUw6OlRleHRFeHRyYWN0b3IiLCJkZWZhdWx0Iix7InR5 cGUiOiJvdmVycmlkZSIsImlkIjoidXNlcHJveHkiLCJ2YWx1ZSI6ZmFsc2V9LHsi dHlwZSI6ImZpbHRlciIsInJlc3VsdCI6WyJ0ZXh0cyIsInRleHQiXSwiZmlsdGVy VHlwZSI6InJlbWF0Y2giLCJ2YWx1ZSI6IlsgXFwtJiw6O1xcd1xcZF17NTAsfVsh Py5dIiwib3B0aW9uIjoiaSJ9LHsidHlwZSI6Im92ZXJyaWRlIiwiaWQiOiJtaW5i bG9ja2xlbmd0aCIsInZhbHVlIjoiMzAwIn0seyJ0eXBlIjoib3ZlcnJpZGUiLCJp ZCI6InF1ZXJ5Zm9ybWF0IiwidmFsdWUiOiIkcXVlcnkubGluayJ9XV0sInJlc3Vs dHNGb3JtYXQiOiIkcDEucHJlc2V0IiwicmVzdWx0c1NhdmVUbyI6ImZpbGUiLCJy ZXN1bHRzRmlsZU5hbWUiOiJ1bml2ZXJzaXR5L3NuaXBwZXRzXzUwMGsvJHtxdWVy eS5rZXl9LnR4dCIsImFkZGl0aW9uYWxGb3JtYXRzIjpbXSwicmVzdWx0c1VuaXF1 ZSI6Im5vIiwicXVlcmllc0Zyb20iOiJmaWxlIiwicXVlcnlGb3JtYXQiOlsiJHF1 ZXJ5Il0sInVuaXF1ZVF1ZXJpZXMiOmZhbHNlLCJzYXZlRmFpbGVkUXVlcmllcyI6 ZmFsc2UsIml0ZXJhdG9yT3B0aW9ucyI6eyJvbkFsbExldmVscyI6ZmFsc2UsInF1 ZXJ5QnVpbGRlcnNBZnRlckl0ZXJhdG9yIjpmYWxzZSwicXVlcnlCdWlsZGVyc09u QWxsTGV2ZWxzIjpmYWxzZX0sInJlc3VsdHNPcHRpb25zIjp7Im92ZXJ3cml0ZSI6 ZmFsc2V9LCJkb0xvZyI6Im5vIiwia2VlcFVuaXF1ZSI6Ik5vIiwibW9yZU9wdGlv bnMiOmZhbHNlLCJyZXN1bHRzUHJlcGVuZCI6IiIsInJlc3VsdHNBcHBlbmQiOiIi LCJxdWVyeUJ1aWxkZXJzIjpbeyJzb3VyY2UiOiJxdWVyeSIsInR5cGUiOiJzdHJp bmdTcGxpdCIsInNlcGFyYXRvciI6IjsiLCJ0byI6WyJrZXkiLCJsaW5rIl19XSwi cmVzdWx0c0J1aWxkZXJzIjpbeyJzb3VyY2UiOlswLFsidGV4dHMiLCJ0ZXh0Il1d LCJ0eXBlIjoicmVtb3ZlSHRtbCIsImFycmF5IjoidGV4dHMiLCJ0byI6InRleHQi fSx7InNvdXJjZSI6WzAsWyJ0ZXh0cyIsInRleHQiXV0sInR5cGUiOiJkZWNvZGVI dG1sIiwiYXJyYXkiOiJ0ZXh0cyIsInRvIjoidGV4dCJ9XSwiY29uZmlnT3ZlcnJp ZGVzIjpbXSwicnVuVGFza09uQ29tcGxldGUiOm51bGwsInVzZVJlc3VsdHNGaWxl QXNRdWVyaWVzRmlsZSI6ZmFsc2UsInJ1blRhc2tPbkNvbXBsZXRlQ29uZmlnIjoi ZGVmYXVsdCIsInRvb2xzSlMiOiIiLCJxdWVyaWVzRmlsZSI6WyJyZXN1bHRzL3Vu aXZlcnNpdHkvNTAway50eHQiXX19 После старта задания запускаются какие-то левые дополнительные 2-3 копии апарсера, грузящие процессор, но ничего не делающие. Через некоторое время парсер падает. При выключении парсера, эти дополнительные процессы остаются работать. Система: uname -a Linux komp 3.19.0-32-generic #37~14.04.1-Ubuntu SMP Thu Oct 22 09:41:40 UTC 2015 x86_64 x86_64 x86_64 GNU/Linux Версия парсера 1.1.619
Спойлер Aug 18 13:42:42.66507 Start ProxyChecker anon Aug 18 13:42:47.01704 A-Parser v1.1.619-linux started, tasks: 29 / 147, memory total: 14014 MB, available: 12151 MB Aug 18 13:43:12.22926 starting task #1794 threads: 200 Aug 18 13:43:13.45013 loading before not loaded iterator Aug 18 13:43:13.45717 resuming results/university/500k.txt at 134558 line Aug 18 13:43:15.49704 long parsing(0.10885214805603): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/ Aug 18 13:43:16.72989 long parsing(0.19556713104248): HTML::TextExtractor::0, query: http://www.shmoop.com/video/playlists/ Aug 18 13:43:19.42158 long parsing(0.102799892425537): HTML::TextExtractor::0, query: http://nomediakings.org/doityourself/doityourself_book_press.html Aug 18 13:43:23.25736 long parsing(0.11865496635437): HTML::TextExtractor::0, query: https://www.coursehero.com/file/13615401/Organizational-Behavior-1/ Aug 18 13:43:30.08494 long parsing(0.111089944839478): HTML::TextExtractor::0, query: http://www.w3.org/TR/wai-aria-practices/ Aug 18 13:43:30.81035 long parsing(0.114274978637695): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6 Aug 18 13:43:31.6918 long parsing(0.129531145095825): HTML::TextExtractor::0, query: https://eere-exchange.energy.gov/ Aug 18 13:43:33.77178 long parsing(0.146065950393677): HTML::TextExtractor::0, query: http://www.clarkprosecutor.org/html/links/dplinks.htm Aug 18 13:43:35.12543 long parsing(0.102803945541382): HTML::TextExtractor::0, query: https://en.wikipedia.org/wiki/Latin_words Aug 18 13:43:36.3884 long parsing(0.195831060409546): HTML::TextExtractor::0, query: http://ahealedplanet.net/america.htm Aug 18 13:43:37.0951 long parsing(0.268581867218018): HTML::TextExtractor::0, query: http://www.lib.berkeley.edu/MRC/Comedyfilm.html Aug 18 13:43:37.33959 long parsing(0.118494033813477): HTML::TextExtractor::0, query: http://tvtropes.org/pmwiki/index_report.php Aug 18 13:43:38.26995 long parsing(0.105020046234131): HTML::TextExtractor::0, query: http://seniorlearn.org/bookclubs/archives/fiction/YellowWallpaper.htm Aug 18 13:43:42.04733 long parsing(0.105370044708252): HTML::TextExtractor::0, query: http://verobeachflash.com/calendar/ Aug 18 13:43:43.80739 long parsing(0.148434162139893): HTML::TextExtractor::0, query: http://www.newhorizonscholarsthane.com/circulars_15-16.html Aug 18 13:43:45.68644 long parsing(0.119859933853149): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/l...n-essay-concerning-human-understanding-part-1 Aug 18 13:43:46.06571 long parsing(0.114058017730713): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...eek-05-can-capitalism-bring-inclusive-growth/ Aug 18 13:43:49.55286 long parsing(0.212145090103149): HTML::TextExtractor::0, query: http://ebook.biz/Free_eBooks Aug 18 13:43:50.36526 long parsing(0.269775152206421): HTML::TextExtractor::0, query: http://www.beaconlearningcenter.com/lessons/AllLessons.asp Aug 18 13:43:52.49068 long parsing(0.207550048828125): HTML::TextExtractor::0, query: http://www.toolband.com/news/news_archive.php Aug 18 13:43:54.0733 long parsing(0.316740989685059): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/these...tment&searchterm=*&sortcol=author&sortdir=ASC Aug 18 13:43:54.23278 long parsing(0.137162923812866): HTML::TextExtractor::0, query: http://www.nps.edu/Academics/GeneralCatalog/414.htm Aug 18 13:44:02.40581 long parsing(0.152131080627441): HTML::TextExtractor::0, query: http://todayinsci.com/QuotationsCategories/R_Cat/Research-Quotations.htm Aug 18 13:44:04.41437 long parsing(0.330596923828125): HTML::TextExtractor::0, query: http://digitalcommons.unl.edu/dissertations/ Aug 18 13:44:05.40166 long parsing(0.135236024856567): HTML::TextExtractor::0, query: http://www.science20.com/stars_planets_life/calculating_odds_life_could_begin_chance Aug 18 13:44:07.43724 long parsing(0.161668062210083): HTML::TextExtractor::0, query: http://linguistlist.org/pubs/journals/browse-journals.cfm Aug 18 13:44:07.94133 long parsing(0.262712001800537): HTML::TextExtractor::0, query: http://library.duke.edu/rubenstein/findingaids/guide/ Aug 18 13:44:09.49017 long parsing(0.148548126220703): HTML::TextExtractor::0, query: http://www.jchiappalone.com/ Aug 18 13:44:09.66378 long parsing(0.102283000946045): HTML::TextExtractor::0, query: http://www.myindiclub.com/music_entertainment.aspx?lang=2&lbl=254&Album=100 PERCENT LOVE Aug 18 13:44:12.78249 long parsing(0.12321400642395): HTML::TextExtractor::0, query: http://www.theapprenticedoctor.com/how-to-become-a-medical-doctor-gp/ Aug 18 13:44:17.32862 long parsing(0.144598960876465): HTML::TextExtractor::0, query: http://marc.info/?l=enlightenment-svn&m=122295103026208 Aug 18 13:44:17.68885 long parsing(0.129266023635864): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/tocqueville-democracy-in-america-historical-critical-edition-vol-1 Aug 18 13:44:19.42454 long parsing(0.173758029937744): HTML::TextExtractor::0, query: http://www.cdc.gov/niosh-rtecs/reference.html Aug 18 13:44:20.43768 long parsing(0.116137981414795): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...6-week-07-technology-cannot-replace-manpower/ Aug 18 13:44:20.62361 long parsing(0.127382040023804): HTML::TextExtractor::0, query: http://boredofstudies.org/view.php?course=6 Aug 18 13:44:21.00287 long parsing(0.30426812171936): HTML::TextExtractor::0, query: http://library.liu.edu/cwpost/theses/thesisview.asp?searchcol=department&searchterm=*& Aug 18 13:44:23.05932 long parsing(0.118159055709839): HTML::TextExtractor::0, query: http://www.insightsonindia.com/2016...k-09-dreams-which-should-not-let-india-sleep/ Aug 18 13:44:24.54839 long parsing(0.107020854949951): HTML::TextExtractor::0, query: http://oll.libertyfund.org/titles/ferguson-an-essay-on-the-history-of-civil-society Aug 18 13:44:25.11971 long parsing(0.182640075683594): HTML::TextExtractor::0, query: http://www.science.gov/topicpages/m/matlab-based+simulation+tool.html
Лог я почистил, чтобы ничто лишнее не мешало. http://fracton.rgho.st/6prjC6npj Падения пока воспроизвести не удалось, но на вопрос что значит "какие-то левые" готов развернутый ответ: Спойлер Это при том, что в настройках указано использовать 6 ядер и в процессоре их 6. Кроме того скрин сделан в момент, когда в парсере активных заданий не было! Такая картина получается следующим образом. При запуске парсера без активных заданий все процессы "aparser" показывают загрузку 0. После запуска задания HTML::TextExtractor, получается такая картина: Спойлер То ядро, которое действительно работает, а не делает вид, легко узнать по количеству потребляемой памяти. Выключаем парсер через веб интерфейс: Спойлер Вот они "какие-то левые" остались. И при повторном включении получается то что на первом скрине. То есть процессов добавилось еще. Я не знаю, что они делают, но процессор работает. Это напрягает даже больше чем падения.
Запросы: http://fracton.rgho.st/private/64VqFTPgm/6252293e587935bc6e9dd12d5c77f192 На данный момент симптомы такие. При запуске задания после перезагрузки парсера пишет указанное количество активных потоков, но количество готовых запросов не изменяется. Процессор шумит на все ядра указанные в настройках. При попытке перезапуска задания, получается следующее:
2 раза прогнал без ошибок, может быть во время работы что то дополнительное делаешь? например меняешь кол-во ядер CPU, или другие настройки? сколько активных заданий выполняется?
Сначала еще SE::Bing работал, но когда начались проблемы, только текстэкстрактор запускал. Кол-во ядер CPU менял, больше ничего.
Только после того, как начался этот головняк. Не помню точно, вроде бы останавливал сначала. Попробую в новую папку переустановить, с нуля так сказать. Позже отпишусь.
Скачал в новую папку. Импортировал пресет. Поставил 6 ядер CPU в настройках. Запустил парсинг по тому же файлу запросов. После завершения 140000 запросов активно использовали проц 4 процесса. Остановил задание - два процесса остались с нагрузкой. Выключил парсер через веб интерфейс - эти джва так и висят и якобы что-то считают. Результаты не добавляются, понятное дело.