lxml如何处理内容带html标签的元素？

Question

asked Jan 24, 2021 in Technique[技术] by 深蓝 (71.8m points)

写爬虫的时候，遇到一个元素，其text里面是html格式：

获取这个元素的text_content()，lxml就傻了，出来一大堆东西：

它不能识别出这是内容文本，所以不知道应该停止。

请问这种情况应如何处理？谢谢。
遇到问题的页面在这里：
https://www.cnblogs.com/cate/...

与恶龙缠斗过久,自身亦成为恶龙；凝视深渊过久,深渊将回以凝视…

3.6k views

1 Answer

深蓝 · Answer 1 · 2021-01-24T02:49:02+0000

answered Jan 24, 2021 by 深蓝 (71.8m points)

等待大神解答

与恶龙缠斗过久,自身亦成为恶龙；凝视深渊过久,深渊将回以凝视…