tag:blogger.com,1999:blog-3533262157176083768.post4979275016597151313..comments2022-04-30T16:07:23.961+03:00Comments on Парсинг от А до Я: Очистка текста от лишних html-теговMashahttp://www.blogger.com/profile/10942350700995896379noreply@blogger.comBlogger6125tag:blogger.com,1999:blog-3533262157176083768.post-1803265485622690792012-11-18T01:54:04.003+04:002012-11-18T01:54:04.003+04:00(?:<[^>]*(?:""[^""]+&quo...(?:<[^>]*(?:""[^""]+"")[^>]*>)|(?:<[^>]*>)KIRKhttps://www.blogger.com/profile/03475031831112894844noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-13379955110230788172010-06-30T13:27:29.103+04:002010-06-30T13:27:29.103+04:00Маша, здравствуйте!
Я немного в той тональности ви...Маша, здравствуйте!<br />Я немного в той тональности видимо написал комментарий, извините.<br /><br />Просто вы спросили как парсите вы, а я указал на несовершенство примера решения, что с моей стороны ну совсем не корректно.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-15996571383493436822010-06-30T08:46:36.572+04:002010-06-30T08:46:36.572+04:00Здравствуйте.
1. Почему забыла? Я не забыла, в ста...Здравствуйте.<br />1. Почему забыла? Я не забыла, в статье приводится <b>пример решения</b>, а не <b>универсальное решение</b>.<br />2. Да, знаю, см. пункт 1. :)Mashahttps://www.blogger.com/profile/10942350700995896379noreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-36706849619128572462010-06-30T06:05:12.772+04:002010-06-30T06:05:12.772+04:00Маша здравствуйте!
1. Вы совсем забыли про то, что...Маша здравствуйте!<br />1. Вы совсем забыли про то, что разные сайты выдают контент в разных кодировках, а их достаточно много. Поэтому в контенте могут встречаться интернациональные символы в той кодировке в которой выдает контент web-сервер. И что произойдет, если этот контент интерпритировать в родной для Windows 1251? А что, если это Windows 1252? Или совсем другая?<br /><br />2. Список замен HTML Entities у вас не совсем полный. Точнее он полон всего процентов на 5 - 10% от полного набора по стандарту. К тому же, HTML Entities есть отображение в конкретный символ таблицы UNICODE.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-19827634022725786732010-06-27T12:56:39.542+04:002010-06-27T12:56:39.542+04:00@wmas, если быть точным - все пробелы в начале стр...@wmas, если быть точным - все пробелы в начале строк.Anonymousnoreply@blogger.comtag:blogger.com,1999:blog-3533262157176083768.post-82339855550249767082010-06-26T21:42:19.527+04:002010-06-26T21:42:19.527+04:00Если не ошибаюсь, выражение:
echo preg_replace(&qu...Если не ошибаюсь, выражение:<br />echo preg_replace("'([\r\n])[\s] '", "\\1", $htmlText);<br />как я понимаю, должно было убрать все пробелы за исключением переноса строки?wmashttp://wmas.msk.runoreply@blogger.com