tag:blogger.com,1999:blog-3533262157176083768.post4706912102730567026..comments2022-04-30T16:07:23.961+03:00Comments on Парсинг от А до Я: Парсинг выдачи поисковиков. Определение позиции сайта. Часть IIMashahttp://www.blogger.com/profile/10942350700995896379noreply@blogger.comBlogger13125tag:blogger.com,1999:blog-3533262157176083768.post-62420909793199768132011-03-26T18:05:25.723+03:002011-03-26T18:05:25.723+03:00Если когото интересует могу дать или выложить исхо...Если когото интересует могу дать или выложить исходник парсера google.com на C++.<br />Мой ICQ 553-189-009Юрийnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-60032105477037824612011-03-10T22:16:43.998+03:002011-03-10T22:16:43.998+03:00Олег, думаю, ничего сложного... Но вряд ли кто пря...Олег, думаю, ничего сложного... Но вряд ли кто прямо тут вам выдаст готовое решение) Если умеете программировать — программируйте... или можно на фрилансе поискать исполнителя)Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-20544315661976963792011-03-10T14:45:46.905+03:002011-03-10T14:45:46.905+03:00Мария и все читатели этого блога!!!)))
Пожалуйста,...Мария и все читатели этого блога!!!)))<br />Пожалуйста,помогите написать похожий парсер для поисковиков на Objective-C !!! очень нужен!)))Oleghttp://rezonans007@yandex.runoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-67728003397416421072010-08-06T15:59:20.081+04:002010-08-06T15:59:20.081+04:00смену юзерагентов он не любит почему-то..
все зара...смену юзерагентов он не любит почему-то..<br />все заработало, в любом случае, спасибо)<br /><br />_dk_Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-82543432038772057302010-08-06T12:01:03.019+04:002010-08-06T12:01:03.019+04:00Ой, как много всего написано :) Мда... я сейчас на...Ой, как много всего написано :) Мда... я сейчас на работе, мне пока некогда разбираться в этом коде. Как будет свободное время — посмотрю. Если, конечно, до этого времени вы сами не найдете, в чем там трабла.Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-67858163620903618102010-08-06T11:49:13.107+04:002010-08-06T11:49:13.107+04:00Сорри, не прикрепился(
procedure google;
var s: TS...Сорри, не прикрепился(<br />procedure google;<br />var s: TStringstream; e,ssize,slink: string; jtmp,z:Byte; idhttp12:TIdHTTP;<br /><br />begin<br /> s:=TStringstream.Create('');<br /> e:='';<br /> goj:=0;<br /> idhttp12:=tidhttp.Create(nil);<br /> for jtmp:=1 to 21 do begin<br /> go[jtmp].url:='';<br /> go[jtmp].w:=0;<br /> go[jtmp].h:=0;<br /> end;<br /> slink:='http://www.google.com/images?um=1&hl=en&newwindow=1&tbs=isch%3A1&sa=1&q='+sxnamepl+'+'+sxalbumpl+'&aq=f&aqi=&aql=&oq=&gs_rfai=';<br /> repeat<br /> try begin<br /> IdHTTP12.Disconnect;<br /> IdHTTP12.AllowCookies:=false;<br />idHTTP12.Response.KeepAlive:=true;<br />IdHTTP12.request.useragent:=useragents[Random(8)+1];IdHTTP12.Disconnect;<br />IdHTTP12.Get(slink,s);<br /> end;<br /> finally<br /> idhttp12.Free;<br /> end;<br /> e:=s.DataString;<br /> if e<>'' then Break;<br /> until False;<br /> repeat<br /> if Pos('["/imgres?imgurl\x3d',e)=0 then begin<br /> break;<br /> end;<br /> Delete(e,1,Pos('["/imgres?imgurl\x3d',e)+length('["/imgres?imgurl\x3d')-1);<br /> inc(goj);<br /> go[goj].url:=Copy(e,1,Pos('\',e)-1);<br /> for jtmp:=1 to 18 do begin<br /> Delete(e,1,pos('"',e));<br /> end;<br /> ssize:=Copy(e,1,Pos('×',e)-2);<br /> z:=0;<br /> while z0 then begin<br /> delete(ssize,pos(' ',ssize),1);<br /> dec(z);<br /> end;<br /> if pos(#$A,ssize)>0 then begin<br /> delete(ssize,pos(#$A,ssize),1);<br /> dec(z);<br /> end;<br /> if pos(#$D,ssize)>0 then begin<br /> delete(ssize,pos(#$D,ssize),1);<br /> dec(z);<br /> end;<br /> end;<br /> go[goj].w:=StrToInt(ssize);<br /> ssize:=Copy(e,Pos('×',e)+8, pos('-',e)-pos('×',e)-8);<br /> z:=0;<br /> while z0 then begin<br /> delete(ssize,pos(' ',ssize),1);<br /> dec(z);<br /> end;<br /> if pos(#$A,ssize)>0 then begin<br /> delete(ssize,pos(#$A,ssize),1);<br /> dec(z);<br /> end;<br /> if pos(#$D,ssize)>0 then begin<br /> delete(ssize,pos(#$D,ssize),1);<br /> dec(z);<br /> end;<br /> end;<br /> go[goj].h:=StrToInt(ssize);<br /> if (go[goj].h>picparam) or (go[goj].w>picparam) then<br /> Dec(goj);<br /> until False; <br /> s.free;<br />end;<br /><br />В первый раз все отлично находится, потом на вход подаются другие sxname и sxalbum, и Pos('["/imgres?imgurl\x3d',e)=0 и гугл выдает страницу с надписью did not match any documents, хотя на деле там все есть. Где мог какой хвост остаться? Или еще как?<br /><br />Заранее спасибо,<br />_dk_Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-8388486382377572982010-08-06T11:34:25.761+04:002010-08-06T11:34:25.761+04:00_dk_, к сожалению, я не экстрасенс, по одному опис...<b>_dk_</b>, к сожалению, я не экстрасенс, по одному описанию, без кода, не могу вам помочь решить проблему :)Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-74026766038681325532010-08-06T02:28:13.167+04:002010-08-06T02:28:13.167+04:00Маша, здравствуйте!
Вопрос к Вам по парсингу того ...Маша, здравствуйте!<br />Вопрос к Вам по парсингу того же Гугла, но картинок. Странная вещь - написан кусок кода, который спокойно собирает картинки. В первый раз. Затем не выключая программы меняешь запрос - и все, гугл пишет didn't match any documents. Запускаешь программу заново - все опять находится. При этом idhttp cоздается динамически и даже никаких куки не хранит. Нужен хелп!<br />Заранее спасибо,<br />_dk_Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-77633529613340350072009-10-14T16:39:24.686+04:002009-10-14T16:39:24.686+04:00Да, возможно, что Яндекс что-то поменял, я давно н...Да, возможно, что Яндекс что-то поменял, я давно не проверяла)Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-7000906962362472422009-10-14T03:03:26.005+04:002009-10-14T03:03:26.005+04:00да и ещё 1 момент. Если вдруг кто-то захочет воспо...да и ещё 1 момент. Если вдруг кто-то захочет воспользоваться исходниками. Регулярка для Яндекс срабатывает не всегда, т.е. она работает нормально но некоторые позиции не вытаскивает. Проблема кроется вот тута:<br />(?:\x0D\x0A|\n|) /div (див в треугольных скобках, с ними не дает коммент кинуть)<br />Если убрать эту подстроку, то вроде ьы всё нормально проходит. Вполне возможно, что чего-то Яндекс сменил в своей выдачеVladhttp://webdelphi.runoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-4164983967788279542009-10-14T02:39:40.906+04:002009-10-14T02:39:40.906+04:00А мне понравилось. И пофик, что исходник открылся ...А мне понравилось. И пофик, что исходник открылся с ошибками (не нашел компонент грида и ещё что-то там). Не в этом дело. Главно, что можно просмотреть исходник и самому понять как должен называться файл и где он должен лежать) Думаю, что стоит продолжить эту тему :) Естественно с сохранением всех авторских прав на некоторые из функцийVladhttp://webdelphi.runoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-40648410694879617502009-09-02T17:36:49.117+04:002009-09-02T17:36:49.117+04:00Дак выложена же прога полностью, там все есть: и э...Дак выложена же прога полностью, там все есть: и экзешние, и ини-файл... какое у него там название - я уже не помню, сама прогой не пользуюсь, она была в качестве примера написана и там надо, если делать все по-правильному, кое-что переписать...<br /><br />Ссылки на скачивание внизу статьи есть и вроде работают. Ini-файл должен лежать в одной директории с программой.Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-17645094310832594592009-09-02T17:29:04.528+04:002009-09-02T17:29:04.528+04:00А как нить, типа выложить готовый ini файл, с гото...А как нить, типа выложить готовый ini файл, с готовыми настройками можно. И если уж пишите про ini файл, может имеет смысл указать его имя, а то я его создал, а ваша программа ни фига не видит.Anonymousnoreply@blogger.com