Поиск по блогу

понедельник, 3 августа 2009 г.

Пост о том, что лучше сто раз проверить

Подумала я давеча: "Раз уж парсер компаний с хедхантера написан, то почему бы его не запустить?" Взяла и запустила. Проработал он меньше суток, остановился. "Ну, - думаю, - чудненько! Так быстро отпахал!". Но когда посмотрела результаты, записанные в базу, — поняла, что что-то не то, так как данных было гораздо меньше, чем официально "обещали" на сайте. Залезла на хедхантер, полистала страницы вручную. Сначала все шло благополучно и ничто не предвещало беды. Но когда полезла вглубь, то заметила, что списки предприятий не отображаются. Например,
http://hh.ru/employersList.do?&areaId=113&companyWithoutVacancy=on&page=100



На последних страницах списки компаний опять нормально отображаются, как ни в чем не бывало (чтобы убедиться, достаточно поставить page=777). Соответственно, нужно внести корректировки и в алгоритм. Например, просматривать не весь список, а список по отдельным буквам алфавита или по регионам. Но я уже потеряла интерес к этому занятию и переписывать не буду. Единственно, что запустила парсер на компании Москвы, пусть парсит (добавляю в базу, в которой уже было 9 с лишним тысяч предприятий, спарсенных из "общего" списка). Парсинг закончится — выложу базу :)

Что касается таких ситуаций. Если честно, у меня уже второй раз так: начинаю парсить, а потом оказывается, что не учтены некоторые обстоятельства. Первый раз это было из-за того, что заказчик сам неточно составил задание и не учел один тип вывода данных, а я не перепроверила (база была большая, я посмотрела наугад страниц 20 - все удовлетворяли шаблону, а потом выяснилось, что есть группа исключений). Я к тому, что это не страшно, конечно, но на предварительном этапе лучше всегда проводить более тщательные исследования. И всегда быть готовым к "неожиданностям".

Удачных разработок!
___

А еще — попробую добавить свой блог в рейтинг блогов. :)
___

Чтобы быть в курсе обновлений блога, можно подписаться на RSS.

Статьи схожей тематики:



Комментариев нет:

Отправить комментарий

Комментарии модерируются, вопросы не по теме удаляются, троллинг тоже.

К сожалению, у меня нет столько свободного времени, чтобы отвечать на все частные вопросы, так что, может, свой вопрос лучше задать на каком-нибудь форуме?

Поделиться