标签 python 下的文章

精通Python（实用脚本篇）——基于selenium和ddddocr库实现反反爬策略之验证码识别

2024-08-23




from selenium import webdriver
from ddddocr import DdddOcr
 
# 初始化浏览器驱动
browser = webdriver.Chrome()
 
# 打开目标网站
browser.get('https://example.com')
 
# 检测到验证码元素后，截图并使用DdddOcr进行识别
screenshot = browser.save_screenshot('captcha.png')
with open('captcha.png', 'rb') as file:
    captcha_text = DdddOcr.predict(file.read())['text']
 
# 输入验证码到表单
browser.find_element_by_id('captcha_input').send_keys(captcha_text)
 
# 提交表单或继续执行其他流程...
 
# 关闭浏览器
browser.quit()

这个示例展示了如何使用selenium和ddddocr库来实现一个简单的反反爬策略，即在网站要求输入验证码时，自动截图验证码区域，使用OCR技术识别验证码，并自动填写到输入框中。这种方法可以在不需要手动介入的情况下自动化完成验证码的处理，从而减少爬虫过程中的手动干预。

- 阅读更多 -

Python实用技巧: 获取后缀名(扩展名) 或文件名

System

2024-08-23

所有,python

在Python中，你可以使用内置的os.path模块来获取文件的扩展名（后缀名）或者完整的文件名。以下是两个函数，分别用于获取文件的扩展名和文件名。




import os
 
def get_file_extension(filename):
    return os.path.splitext(filename)[-1]
 
def get_file_name(filename):
    return os.path.basename(filename)
 
# 示例
filename = 'example.txt'
extension = get_file_extension(filename)
print(f"The extension is: {extension}")  # 输出: The extension is: .txt
 
filename_only = get_file_name(filename)
print(f"The file name is: {filename_only}")  # 输出: The file name is: example.txt

这段代码首先导入了os模块，然后定义了两个函数get_file_extension和get_file_name。get_file_extension使用os.path.splitext()函数分离文件名和扩展名，返回扩展名。get_file_name使用os.path.basename()函数返回文件名，不包含路径。

在示例中，我们使用了文件名example.txt，并打印出了它的扩展名和文件名。

System

2024-08-23

所有,python




import numpy as np
 
# 创建一个包含随机数的数组
arr = np.random.randn(100)
 
# 计算方差和标准差
variance = np.var(arr)
standard_deviation = np.std(arr)
 
# 打印结果
print(f"方差: {variance}")
print(f"标准差: {standard_deviation}")

这段代码首先导入了numpy库，并使用它的随机数生成功能创建了一个包含随机正态分布数值的数组。接着，使用np.var()计算了数组的方差，使用np.std()计算了数组的标准差。最后，打印出了方差和标准差的计算结果。这是一个常用于数据分析和统计的示例，展示了如何使用numpy库进行基本的统计分析。

- 阅读更多 -

00. 这里整理了最全的爬虫框架（Java + Python）

System

2024-08-23

所有,python

Java 爬虫框架：

Apache Nutch - 大型开源搜索引擎和网络爬虫。
WebMagic - 一个简单易用的爬虫框架，用于爬取、爬取处理、学习和交流。
Heritrix - 是一个由 java 开发的、开源的网络爬虫项目，用于 arget 存储和采集。
Sublist3r - 是一个快速的目录枚举工具，用于发现网站的子域名。
WebCollector - 基于 Java 的爬虫框架。

Python 爬虫框架：

Scrapy - 用于 Python 的快速、高层次的屏幕抓取和 web 爬虫框架。
BeautifulSoup - 用于 Python 的简单 HTML 和 XML 解析器，用于从网页中提取数据。
Scrapyd - 用于部署和运行 Scrapy 爬虫的服务。
Grab - 另一个 Python 网页抓取库，专注于简单性。
Portia - 一款可视化爬虫，可以用于抓取网站并生成项目模板。

这些工具和框架可以帮助开发者快速构建和部署爬虫项目。

- 阅读更多 -

Python ❀ 使用代码实现API接口调用详解

System

2024-08-23

所有,python




import requests
 
# 定义API接口的URL
api_url = 'https://api.example.com/data'
 
# 发送HTTP GET请求
response = requests.get(api_url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 请求成功，处理返回的数据
    data = response.json()
    print("数据请求成功，结果如下：")
    print(data)
else:
    # 请求失败，打印错误信息
    print(f"数据请求失败，状态码：{response.status_code}")
 
# 注意：以上代码示例需要安装requests库，可以通过pip install requests命令安装。

这段代码使用了Python的requests库来发送一个HTTP GET请求到指定的API接口。然后根据请求的响应状态码来判断请求是否成功，并输出相应的数据或错误信息。这是一个简单的API接口调用示例，适合作为初学者学习和理解API接口调用的入门教程。

- 阅读更多 -

(整书pdf)(鱼书)深度学习入门：基于Python的理论和实现

System

2024-08-23

所有,python

由于提供的信息不足以确定具体的代码问题，我无法提供针对某一段代码的解答。"(整书pdf)(鱼书)深度学习入门: 基于Python的理论和实现" 是一本书，而不是特定的代码问题。

如果你在阅读这本书或者实践书中的代码时遇到了具体的编程问题，请提供相关的错误信息、代码段、期望的结果等，以便我能够提供帮助。

- 阅读更多 -

python 标准库random生成随机数

System

2024-08-23

所有,python

Python的random库提供了多种方法来生成随机数。以下是一些常用的方法：

random.random()
这个函数返回0到1之间的浮点数。




import random
print(random.random())

random.uniform(a, b)
这个函数返回a到b之间的浮点数，不包括b。




import random
print(random.uniform(1, 10))

random.randint(a, b)
这个函数返回a到b之间的整数，包含a和b。




import random
print(random.randint(1, 10))

random.randrange(start, stop[, step])
这个函数返回从start到stop的随机整数，可以指定步长step。




import random
print(random.randrange(1, 10, 2))

random.choice(sequence)
这个函数从非空序列中返回一个随机元素。




import random
print(random.choice([1, 2, 3, 4, 5]))

random.sample(population, k)
这个函数从population序列或集合中随机抽取k个不重复的元素，返回一个新的列表。




import random
print(random.sample([1, 2, 3, 4, 5], 2))

random.shuffle(x[, random])
这个函数将序列x中的元素随机排序。




import random
lst = [1, 2, 3, 4, 5]
random.shuffle(lst)
print(lst)

以上就是Python的random库生成随机数的一些常用方法。

- 阅读更多 -

Python解析Word文档的自动编号

System

2024-08-23

所有,python

要在Python中解析Word文档的自动编号，可以使用python-docx库来读取文档，并获取段落中的自动编号。以下是一个简单的例子：

首先，确保安装了python-docx库：




pip install python-docx

然后，使用以下代码解析Word文档中的自动编号：




from docx import Document
 
# 加载Word文档
doc = Document('example.docx')
 
for para in doc.paragraphs:
    if para.style.paragraph_format.numbering_format is not None:
        numbering_level = para.style.paragraph_format.numbering_level
        print(f"Level {numbering_level}: {para.text}")
    else:
        print(para.text)

在这个例子中，我们遍历了文档中的所有段落，检查它们是否有编号样式，如果有，则打印出编号级别和文本内容。这个解决方案假设文档中的自动编号遵循默认的Word编号样式。如果需要处理更复杂的编号情况，可能需要更深入地处理numbering和numbering_part对象。

- 阅读更多 -

python 用OpenCV 将图片转视频

System

2024-08-23

所有,python

要使用Python和OpenCV将图片转换为视频，你可以按照以下步骤操作：

使用cv2.VideoWriter创建一个视频写入对象。
遍历图片文件，使用OpenCV读取每张图片。
将图片帧写入到视频中。
释放视频写入对象。

以下是一个简单的代码示例，演示如何将特定文件夹中的图片转换为视频：




import cv2
import os
 
# 图片目录
image_folder = 'path_to_images'
# 图片格式（例如：jpg, png）
image_ext = 'jpg'
# 输出视频文件
video_file = 'output_video.avi'
 
# 视频编码器和视频输出格式
fourcc = cv2.VideoWriter_fourcc(*'XVID')
 
# 获取图片尺寸
image_files = [os.path.join(image_folder, img) for img in os.listdir(image_folder) if img.endswith(image_ext)]
frame = cv2.imread(image_files[0])
height, width, layers = frame.shape
 
# 创建视频写入对象
video = cv2.VideoWriter(video_file, fourcc, 30.0, (width, height))
 
# 将图片逐一写入视频
for image in image_files:
    video.write(cv2.imread(image))
 
# 释放视频写入对象
video.release()

请确保替换path_to_images为你的图片文件夹路径，并根据需要调整输出视频的格式和帧率。这段代码假设所有图片具有相同的尺寸。

- 阅读更多 -

Python爬虫IP池

System

2024-08-23

所有,python




import requests
 
class IpProxy(object):
    def __init__(self, url, params=None, headers=None):
        self.url = url
        self.params = params
        self.headers = headers
 
    def get_proxy(self):
        try:
            response = requests.get(self.url, params=self.params, headers=self.headers)
            if response.status_code == 200:
                return response.json().get('data')
            else:
                print('Error:', response.status_code)
        except requests.exceptions.RequestException as e:
            print('Error:', e)
 
# 使用示例
url = 'http://api.ipify.org?format=json'  # 一个可以获取本机外网IP的API
proxy = IpProxy(url)
proxy_list = proxy.get_proxy()
 
if proxy_list:
    for p in proxy_list:
        print(p)

这段代码定义了一个名为IpProxy的类，它接受一个API URL，并提供了一个get_proxy方法来获取代理IP地址。使用时，只需要传入正确的API URL，并在需要代理的时候使用这些代理即可。这个例子演示了如何使用Python的requests库来简单地获取和使用代理IP，并处理了可能出现的异常。

- 阅读更多 -