【js逆向】Python爬虫如何突破字体反爬，拿到想要数据

作者：System 时间：2024年08月27日分类：所有,javascript 字数：940

这篇文章距离上次修改已过518天，其中的内容可能已经有所变动。

字体反爬通常是指网站通过设置自定义字体（Web Fonts）来保护数据，使得爬虫难以从网页中直接解析出文本内容。这里提供一个基本的方法来处理这种情况：

分析网站的字体文件：网站通常会在其服务器上提供.woff或.woff2等格式的字体文件。你需要下载这些字体文件。
使用fontTools库来转换字体文件：fontTools是Python中处理字体的库。
使用pyftsubset工具来提取特定字符的子集字体。
使用ReportLab库来创建一个简单的PDF，并使用提取出的字体。
使用OCR技术（如tesseract）来识别图片中的文本。

以下是使用fontTools和pyftsubset的示例代码：




from fontTools.ttLib import TTFont
import pyftsubset
 
# 下载的字体文件路径
font_path = 'path_to_font.woff'
 
# 加载字体
font = TTFont(font_path)
 
# 提取子集字体
subset_font = pyftsubset.Subset(font_path, options=['--text=0123456789abcdefghijklmnopqrstuvwxyz'])
with open('subset_font.woff', 'wb') as out:
    out.write(subset_font.subset())
 
# 接下来，你可以使用OCR工具来处理网页截图，并尝试识别文本。
# 例如，使用tesseract识别图片中的文本：
# !tesseract subset_font.woff output -l eng --oem 3 --psm 6 nohup

请注意，这个方法可能不总是有效，因为有些网站采用了更高级的防爬策略，例如动态渲染、JavaScript渲染的内容等。此外，这种方法对于处理复杂的布局和样式可能会有挑战。对于复杂的网站，可能需要更高级的图像处理和机器学习技术来解决。

【js逆向】Python爬虫如何突破字体反爬，拿到想要数据

评论已关闭

推荐阅读