tag:blogger.com,1999:blog-3533262157176083768.post4564024223255530972..comments2022-04-30T16:07:23.961+03:00Comments on Парсинг от А до Я: Особенности составления регулярных выражений для парсинга страниц некоторых сайтовMashahttp://www.blogger.com/profile/10942350700995896379noreply@blogger.comBlogger4125tag:blogger.com,1999:blog-3533262157176083768.post-43246275485696726832009-10-26T11:57:03.564+03:002009-10-26T11:57:03.564+03:00Понятно, спасибо.Понятно, спасибо.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-28233540139927876702009-10-26T10:48:11.074+03:002009-10-26T10:48:11.074+03:00Семён, добрый день)
Я не занимаюсь парсингом подря...Семён, добрый день)<br />Я не занимаюсь парсингом подряд всех сайтов без разбора, поэтому мне не составляет труда посмотреть для каждого сайта название параметра для сессии. Универсального решения этой проблемы не искала, так как не требовалось)Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-50487512627794820002009-10-26T10:37:29.765+03:002009-10-26T10:37:29.765+03:00Забыл ещё момент :)
Грубое решение такое - подклю...Забыл ещё момент :)<br /><br />Грубое решение такое - подключили cookies и производим 2 запроса к странице: в первом запросе SessionID записывается в cookies, а для второго запроса - sessionID забирается из cookies и уже не подставляется в ссылки в тексте страницы, который получаем IdHttp.Get<br /><br />Но делать 2 запроса к каждой странице - это вообще бредово, особенно если нужно распарсить пару сотен страниц. <br /><br />Заранее благодарю, Семён.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-35911396035876430742009-10-26T10:24:40.334+03:002009-10-26T10:24:40.334+03:00Привет! Нашёл Ваш блог, при поиске решения следующ...Привет! Нашёл Ваш блог, при поиске решения следующей проблемы:<br /><br />Произвожу парсинг ссылок на страницах сайтов. Многие сайты используют сессии, при просмотре страницы через браузер с подержкой cookies сессии не отображаются в адресах страниц (внутренних). К сожалению не научился, как это можно реализовать в случае IdHttp.<br /> Можно, конечно, поступать описанным Вами методом - убирать id сессии из адресов регуляркой, однако это не универсальное решение. Поскольку на различных сайтах используются различные SessionName ("sid","s"..."s_id")- то использовать метод, описанный в статье нерационально, в случае, если заранее не известен SessionName для каждого сайта. <br /><br />Начал копать в сторону подключения Cookies, но пока толкового вышло немного :)<br /><br />Как бы Вы решили данную проблему?Anonymousnoreply@blogger.com