В этом уроке мы посмотрим, как в Python можно извлечь содержимое тега html-страницы.
Сделаем мы это при помощи регулярого выражения с использованием метода re.findall:
Флаг re.DOTALL говорит Python-у, что под символом "." в регулярном выражении нужно подразумевать любой символ, включая перенос строки. Без этого флага Python будет считать, что под символом "." подразумевается все, кроме переноса строки.
Сделаем мы это при помощи регулярого выражения с использованием метода re.findall:
import re html = ''' <html> <head> <title>Page</title> </head> <body> <h1>Hello</h1> <p>Nice to see you!</p> </body> </html> ''' re.findall(r'<body.*?>(.*)</body>', text, re.DOTALL) # Результат: ['\n<h1>Hello</h1>\n<p>Nice to see you!</p>\n']
Флаг re.DOTALL говорит Python-у, что под символом "." в регулярном выражении нужно подразумевать любой символ, включая перенос строки. Без этого флага Python будет считать, что под символом "." подразумевается все, кроме переноса строки.
Комментариев нет:
Отправить комментарий