http://hh.ru/employersList.do?&areaId=113&companyWithoutVacancy=on&page=100
На последних страницах списки компаний опять нормально отображаются, как ни в чем не бывало (чтобы убедиться, достаточно поставить page=777). Соответственно, нужно внести корректировки и в алгоритм. Например, просматривать не весь список, а список по отдельным буквам алфавита или по регионам. Но я уже потеряла интерес к этому занятию и переписывать не буду. Единственно, что запустила парсер на компании Москвы, пусть парсит (добавляю в базу, в которой уже было 9 с лишним тысяч предприятий, спарсенных из "общего" списка). Парсинг закончится — выложу базу :)
Что касается таких ситуаций. Если честно, у меня уже второй раз так: начинаю парсить, а потом оказывается, что не учтены некоторые обстоятельства. Первый раз это было из-за того, что заказчик сам неточно составил задание и не учел один тип вывода данных, а я не перепроверила (база была большая, я посмотрела наугад страниц 20 - все удовлетворяли шаблону, а потом выяснилось, что есть группа исключений). Я к тому, что это не страшно, конечно, но на предварительном этапе лучше всегда проводить более тщательные исследования. И всегда быть готовым к "неожиданностям".
Удачных разработок!
___
А еще — попробую добавить свой блог в рейтинг блогов. :)
___
Чтобы быть в курсе обновлений блога, можно подписаться на RSS.
Комментариев нет:
Отправить комментарий
Комментарии модерируются, вопросы не по теме удаляются, троллинг тоже.
К сожалению, у меня нет столько свободного времени, чтобы отвечать на все частные вопросы, так что, может, свой вопрос лучше задать на каком-нибудь форуме?