Tech Blog

再见爬虫！一行Python代码获取A股26年历史数据，实时数据，ETF基金，可转债！

2024-08-19

这个问题涉及到的是获取股票数据，一种常见的方法是使用Python的pandas\_datareader库来获取从Yahoo Finance等金融新闻网站获取股票数据。

pandas\_datareader可以从多个数据源获取金融数据，包括Yahoo Finance、Google Finance、Enigma等。

以下是一个简单的例子，展示如何使用pandas\_datareader获取A股代码为"sh.600000"的股票数据，即"平安银行"的A股数据。




import pandas_datareader.data as web
import datetime
 
start = datetime.datetime(2000, 1, 1)  # 设置起始日期
end = datetime.datetime(2021, 12, 31)  # 设置结束日期
 
# 获取平安银行(sh600000)的历史股票数据
data = web.DataReader("sh.600000", "yahoo", start, end)
 
print(data.tail())  # 打印最后几行数据

注意，这个代码需要联网运行，因为它会从Yahoo Finance等网站实时下载数据。

此外，pandas\_datareader只能获取到给定时间点的股票数据，如果需要获取实时数据，可能需要使用其他API或者库。

此代码只能获取到股票的历史数据，不包括实时数据。如果需要获取实时数据，可以考虑使用其他方法，如WebSocket连接或调用第三方API服务。

- 阅读更多 -

爬虫实战|python使用代理IP的4种方法

System

2024-08-19

所有,爬虫

在Python中使用代理IP进行网络爬虫可以通过几种方式实现，以下是四种常见的方法：

直接在请求方法中设置代理
使用requests库的Session对象
使用urllib库的ProxyHandler
使用第三方库例如httpx

以下是每种方法的示例代码：

直接在请求方法中设置代理




import requests
 
proxy = {'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:3128'}
requests.get('http://example.com', proxies=proxy)

使用requests库的Session对象




import requests
 
session = requests.Session()
session.proxies = {'http': 'http://10.10.1.10:3128', 'https': 'http://10.10.1.10:3128'}
response = session.get('http://example.com')

使用urllib库的ProxyHandler




import urllib.request
 
proxy = urllib.request.ProxyHandler({'http': 'http://10.10.1.10:3128'})
opener = urllib.request.build_opener(proxy)
urllib.request.install_opener(opener)
response = urllib.request.urlopen('http://example.com')

使用httpx库




import httpx
 
proxies = {
    'http://example.com': 'http://10.10.1.10:3128',
    'https://example.com': 'http://10.10.1.10:3128'
}
 
with httpx.Client(proxies=proxies) as client:
    response = client.get('http://example.com')

以上代码展示了如何在Python中使用代理IP进行网络请求。选择哪种方法取决于你的具体需求和项目环境。通常情况下，如果你需要管理多个代理，或者想要在多个请求间保持会话（如cookie保持），使用Session对象是一个更好的选择。如果你的代码中只需要一个代理，并且不需要复杂的代理管理，直接在请求方法中设置代理可能是最简单的方法。

- 阅读更多 -

[运维] 可视化爬虫易采集-EasySpider(笔记)

System

2024-08-19

所有,爬虫




from pyecharts.charts import Bar, Line, Page
from pyecharts import options as opts
from pyecharts.globals import ThemeType
 
# 假设有以下数据
spider_name = "EasySpider"
crawl_efficiency = [88.5, 89.3, 92.7, 95.5, 93.6]
crawl_speed = [10000, 12000, 15000, 18000, 20000]
 
# 创建一个Bar图表来显示爬虫采集效率
bar = (
    Bar(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
    .add_xaxis(["第一周", "第二周", "第三周", "第四周", "第五周"])
    .add_yaxis(f"{spider_name}采集效率", crawl_efficiency)
    .set_global_opts(title_opts=opts.TitleOpts(title="采集效率对比"))
)
 
# 创建一个Line图表来显示爬虫采集速度
line = (
    Line(init_opts=opts.InitOpts(theme=ThemeType.LIGHT))
    .add_xaxis(["第一周", "第二周", "第三周", "第四周", "第五周"])
    .add_yaxis(f"{spider_name}采集速度(单位：item/秒)", crawl_speed)
    .set_global_opts(title_opts=opts.TitleOpts(title="采集速度对比"))
)
 
# 将两个图表放在同一页面显示
page = Page(theme=ThemeType.LIGHT)
page.add(bar, line)
page.render("crawl_visualization.html")

这段代码使用了pyecharts库来创建一个可视化的爬虫采集效率和采集速度的对比图。它首先定义了爬虫的名称和相关数据，然后使用Bar和Line图表来分别表示采集效率和采集速度，最后将这两个图表放在一个Page对象中，并输出为一个HTML文件。这个HTML文件可以在浏览器中打开查看结果。

System

2024-08-19

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
def get_ssq_data(url):
    res = requests.get(url)
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    data_list = soup.select('#tdata > tr')
    ssq_data = [[item.text.strip() for item in data.select('td')] for data in data_list]
    return ssq_data
 
def save_to_csv(ssq_data, file_name):
    df = pd.DataFrame(ssq_data)
    df.to_csv(file_name, index=False)
 
def main():
    url = 'http://kaijiang.zhcw.com/zhcw/html/ssq/list_1.html'
    ssq_data = get_ssq_data(url)
    save_to_csv(ssq_data, 'ssq_data.csv')
 
if __name__ == '__main__':
    main()

这段代码实现了从指定的网页抓取双色球开奖数据，并将其保存到CSV文件中。代码简洁，注重实现功能，不包含额外的错误处理。

System

2024-08-19

所有,python

在Python中，global关键字用于指定变量是全局的，而nonlocal关键字用于指定变量是上一级非全局作用域中的。

global关键字

当内部作用域想修改全局作用域的变量时，需要用到global关键字。




def func():
    global x
    x = 10
 
x = 5
func()
print(x)  # 输出10

nonlocal关键字

当内部作用域想修改外部非全局作用域的变量时，需要用到nonlocal关键字。




def outer():
    x = 5
    def inner():
        nonlocal x
        x = 10
    inner()
    print(x)
 
outer()  # 输出10

注意：

使用global关键字可以指定变量是全局的，但在内部作用域修改全局变量时，一般不推荐使用。
使用nonlocal关键字可以指定变量是上一级非全局作用域的，如果上级作用域也没有这个变量，程序会报错。

- 阅读更多 -

anaconda修改python版本

System

2024-08-19

所有,python

在Anaconda中修改Python版本通常涉及到创建一个新的环境或者更新已有环境中的Python版本。以下是如何在Anaconda中修改Python版本的步骤：

创建一个新的环境并指定Python版本：




conda create -n new_env_name python=3.x

这里new_env_name是你新环境的名字，3.x是你想要安装的Python版本。

激活新环境：




conda activate new_env_name

如果你想在现有环境中更新Python版本，首先激活环境：




conda activate existing_env_name

然后更新Python版本：




conda install python=3.x

请根据你的具体需求选择上述步骤中的一个或多个操作。记得在执行这些操作后，如果你在使用IDE或者文本编辑器，可能需要重新配置Python解释器路径以使用新的Python版本。

- 阅读更多 -

Nodejs使用mysql2操作数据库【完整讲解】

System

2024-08-19

所有,javascript




// 引入mysql2模块
const mysql = require('mysql2');
 
// 创建连接对象
const connection = mysql.createConnection({
  host: 'localhost',
  user: 'root',
  password: '你的数据库密码',
  database: '你的数据库名'
});
 
// 开启连接
connection.connect();
 
// 执行查询操作
connection.query('SELECT * FROM your_table_name', (error, results, fields) => {
  if (error) throw error;
  // 处理查询结果
  console.log(results);
});
 
// 关闭连接
connection.end();

确保替换 '你的数据库密码' 和 '你的数据库名' 为你自己的数据库信息，同时将 'your_table_name' 替换为你要查询的表名。这段代码展示了如何使用 mysql2 模块在 Node.js 中连接到 MySQL 数据库，执行一个简单的查询，并处理结果。

System

2024-08-19

所有,python

报错解释：

这个错误表明在使用 pip 安装 Python 第三方包时，SSL 证书验证失败了。通常是因为你的网络环境需要通过代理服务器来访问外部网络，而代理服务器可能干扰了 SSL 证书的验证。

解决方法：

配置 pip 使用代理服务器。你需要设置 HTTPS_PROXY 和 HTTP_PROXY 环境变量。

对于 Linux 或 macOS，你可以在终端中运行以下命令：




export HTTPS_PROXY="http://<代理服务器地址>:<端口号>"
export HTTP_PROXY="http://<代理服务器地址>:<端口号>"

对于 Windows，你可以在命令行中运行以下命令：




set HTTPS_PROXY=http://<代理服务器地址>:<端口号>
set HTTP_PROXY=http://<代理服务器地址>:<端口号>

如果你的代理服务器需要用户名和密码，你需要在代理 URL 中包含它们，例如：
```
export HTTPS_PROXY="http://<用户名>:<密码>@<代理服务器地址>:<端口号>"
```
如果你不希望 pip 使用代理，但仍然需要解决 SSL 证书问题，可以尝试设置 pip 忽略 SSL 证书验证（不推荐，因为这会降低安全性）：
```
pip install --trusted-host pypi.org --trusted-host files.pythonhosted.org <包名>
```
确保你的代理服务器允许你访问外部 Python 包索引服务（如 pypi.org）。
如果你使用的是特定的代理软件（如 Nginx、Squid），确保它配置正确并且支持 pip 的代理请求。
如果你在公司网络或其他安全环境下，请确保遵守相关的网络策略和安全规范。

以上步骤应该能解决大多数因代理服务器引起的 SSL 证书错误问题。如果问题依旧，请检查代理服务器设置和网络连接。

- 阅读更多 -

【Python】Python异步编程

System

2024-08-19

所有,python

在Python中，异步编程通常使用asyncio库实现。以下是一个简单的异步程序示例，它定义了两个异步函数，并在事件循环中运行它们：




import asyncio
 
async def async_task_1():
    await asyncio.sleep(2)  # 模拟IO操作，非阻塞
    print("Task 1 completed")
 
async def async_task_2():
    await asyncio.sleep(1)  # 模拟IO操作，非阻塞
    print("Task 2 completed")
 
# 创建任务并添加到事件循环
loop = asyncio.get_event_loop()
tasks = [
    asyncio.create_task(async_task_1()),
    asyncio.create_task(async_task_2())
]
 
# 运行所有任务
loop.run_until_complete(asyncio.gather(*tasks))
loop.close()

在这个例子中，async_task_1和async_task_2是异步函数，它们模拟了IO密集型的操作。asyncio.create_task用于创建任务，asyncio.gather用于等待所有任务完成。运行这段代码，你会看到两个任务并发执行，它们之间并不会因为CPU时间片的调度而阻塞。

- 阅读更多 -

界面开发--- 使用PyQt5制作用户登陆界面

System

2024-08-19

所有,python




# 导入PyQt5的模块
from PyQt5.QtWidgets import QApplication, QMainWindow, QPushButton, QVBoxLayout, QWidget
from PyQt5.QtGui import QIcon
 
class MainWindow(QMainWindow):
    def __init__(self):
        super().__init__()
        self.setWindowTitle("用户登录界面")
        self.setGeometry(500, 500, 400, 300)
        self.setWindowIcon(QIcon('web.png'))  # 设置窗口图标
        self.layout = QVBoxLayout()
        self.button = QPushButton("登录")
        self.button.clicked.connect(self.on_button_clicked)
        self.layout.addWidget(self.button)
        self.setCentralWidget(QWidget(self))
        self.centralWidget().setLayout(self.layout)
 
    def on_button_clicked(self):
        print("登录按钮被点击")
 
if __name__ == "__main__":
    app = QApplication([])
    window = MainWindow()
    window.show()
    app.exec_()

这段代码创建了一个简单的用户登录界面，包含一个按钮和图标。当按钮被点击时，会触发on_button_clicked方法，并在控制台打印出相应的信息。这个例子展示了如何使用PyQt5创建基本的用户界面和事件处理。

- 阅读更多 -