Tech Blog

2024-08-16

以下是一个简单的Python爬虫示例，用于抓取某网站上的企业信用信息。请注意，实际应用中应遵守网站的爬虫政策及法律法规，并尽可能减少对网站的访问频率，避免造成不必要的负担。




import requests
from bs4 import BeautifulSoup
import csv
 
def crawl_company_credit_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.text, 'html.parser')
 
    # 假设信用信息在HTML的<div id="creditInfo">中
    credit_info_div = soup.find('div', {'id': 'creditInfo'})
    if credit_info_div:
        # 提取信用信息
        credit_info = credit_info_div.get_text()
        print(credit_info)
        # 这里可以将信用信息写入文件或数据库
        # write_credit_info_to_file(credit_info)
    else:
        print('Credit info not found.')
 
# 假设函数，用于将信用信息写入文件
def write_credit_info_to_file(credit_info):
    with open('credit_info.txt', 'a', encoding='utf-8') as file:
        file.write(credit_info)
 
# 假设有一个公司信用信息的URL列表
urls = ['http://example.com/company1', 'http://example.com/company2', ...]
 
for url in urls:
    crawl_company_credit_info(url)

这个示例中，crawl_company_credit_info 函数接受一个URL，发送HTTP GET请求，获取页面内容，并使用BeautifulSoup解析页面。然后它会寻找信用信息所在的元素，提取信用信息并打印出来。实际应用中，您可能需要根据实际网站的HTML结构进行相应的调整。

请注意，由于爬取行为可能违反网站的服务条款，因此在实际应用中应当确保遵守网站的爬虫政策，并且在使用爬虫时始终保持良好的网络素养。

- 阅读更多 -

Java 爬虫爬取网页的标题以及其他主体内容

System

2024-08-16

所有,爬虫

以下是一个简单的Java爬虫示例，使用Jsoup库来解析网页并获取其标题和主体内容。

首先，确保你的项目中包含了Jsoup库。如果使用Maven，可以在pom.xml中添加以下依赖：




<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>

以下是一个简单的Java爬虫示例代码：




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
 
public class WebCrawlerExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为你想爬取的网页地址
        try {
            Document doc = Jsoup.connect(url).get();
            String title = doc.title(); // 获取网页标题
            String bodyText = doc.body().text(); // 获取网页主体文本
 
            System.out.println("Title: " + title);
            System.out.println("Body Text: " + bodyText);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码会连接到指定的URL，解析HTML内容，并提取标题和主体文本。你可以将http://example.com替换为任何你想要爬取的网页地址。记得处理可能出现的异常。

- 阅读更多 -

《大众点评爬虫程序实战：爬取店铺展示信息》

System

2024-08-16

所有,爬虫




import requests
from bs4 import BeautifulSoup
import pymysql
 
# 连接数据库
conn = pymysql.connect(host='localhost', user='your_username', password='your_password', db='dianping', charset='utf8')
cursor = conn.cursor()
 
# 爬取店铺展示信息
def crawl_shop_info(shop_url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
    }
    response = requests.get(shop_url, headers=headers)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'lxml')
        # 店铺名称
        shop_name = soup.select('.shop-name')[0].text.strip()
        # 店铺地址
        shop_address = soup.select('.address')[0].text.strip()
        # 店铺电话
        shop_phone = soup.select('.phone')[0].text.strip()
        # 店铺点评数
        shop_comment_count = soup.select('.comment-count')[0].text.strip()
        # 店铺评分
        shop_score = soup.select('.shop-score')[0].text.strip()
        # 店铺所在区域
        shop_area = soup.select('.area')[0].text.strip()
        # 店铺类型
        shop_type = soup.select('.tag')[0].text.strip()
        
        # 将爬取的信息插入数据库
        insert_sql = "INSERT INTO shop_info(shop_name, shop_address, shop_phone, shop_comment_count, shop_score, shop_area, shop_type) VALUES (%s, %s, %s, %s, %s, %s, %s)"
        cursor.execute(insert_sql, (shop_name, shop_address, shop_phone, shop_comment_count, shop_score, shop_area, shop_type))
        conn.commit()
 
# 主函数，用于控制爬虫的运行
def main():
    shop_url = 'https://www.dianping.com/shop/1234567'  # 示例URL，实际应替换为你要爬取的店铺URL
    crawl_shop_info(shop_url)
 
if __name__ == '__main__':
    main()

这段代码实现了一个简单的爬虫程序，用于从大众点评网站上爬取单个店铺的展示信息，并将这些信息插入到名为dianping的MySQL数据库中的shop_info表中。在实际应用中，你需要替换数据库连接信息，并确保数据库已经创建好相应的表。同时，你还需要处理可能出现的异常，例如网络请求失败、解析错误等。

- 阅读更多 -

基于selenium实现的tweet的爬虫（不需要tweetAPI）

System

2024-08-16

所有,爬虫

要实现一个基于Selenium的Tweet爬虫，你需要先安装Selenium库和一个WebDriver，如ChromeDriver。以下是一个简单的示例代码：

首先，安装必要的库（如果尚未安装）：




pip install selenium

然后，下载对应浏览器的WebDriver，并将其路径添加到系统环境变量中。

接下来，使用Selenium爬取Tweet信息的代码如下：




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
 
# 初始化WebDriver
driver_path = 'path/to/your/chromedriver'  # 更改为你的ChromeDriver路径
driver = webdriver.Chrome(executable_path=driver_path)
 
# Tweet的URL
tweet_url = 'https://twitter.com/username/status/tweet_id'  # 更改为特定Tweet的URL
 
# 打开Tweet页面
driver.get(tweet_url)
 
# 等待Tweet加载完成
time.sleep(5)  # 等待5秒，让页面完全加载
 
# 通过WebDriver获取Tweet内容
wait = WebDriverWait(driver, 10)
try:
    # 根据Tweet页面的元素定位来获取内容
    tweet_element = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.tweet-text')))
    tweet_text = tweet_element.text
    print(tweet_text)
 
finally:
    driver.quit()  # 关闭浏览器
 
# 注意：以上代码可能需要根据Tweet页面的实际HTML结构进行调整。

请确保替换tweet_url变量的值为你想要爬取的特定Tweet的URL。这个代码示例使用了CSS选择器来定位Tweet文本，你可能需要根据Twitter的HTML结构进行调整。

注意：由于Twitter有反爬机制，这种方法可能不一定能长期有效。如果你频繁使用这种爬虫，可能会被Twitter封禁或需要更复杂的反反爬措施。此外，频繁爬取个人Tweet可能违反Twitter的服务条款，使用时请确保合法性和谨慎性。

- 阅读更多 -

selenium 4.x 之验证码处理（python）

System

2024-08-16

所有,python




from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
 
# 假设你已经有了一个webdriver实例，这里我们使用PhantomJS作为示例
driver = webdriver.PhantomJS()
 
# 打开目标网页
driver.get('http://example.com/captcha')
 
# 等待验证码图片加载完成
captcha_image = WebDriverWait(driver, 10).until(
    EC.presence_of_element_located((By.ID, 'captcha_image_id'))
)
 
# 假设验证码是图像验证码，我们需要下载并处理图片
captcha_image_url = captcha_image.get_attribute('src')
 
# 这里可以使用第三方库如opencv或者PIL来处理图像，例如识别图像中的文字
# 但是具体的处理方式依赖于验证码的类型，这里我们只是示例下载过程
 
# 使用requests直接下载图片
import requests
response = requests.get(captcha_image_url)
with open('captcha.jpg', 'wb') as f:
    f.write(response.content)
 
# 这里应该是你处理图片验证码的逻辑，例如输入验证码或者解析验证码文本
# 例如使用tesseract OCR来识别图像中的文字
# 但是具体的处理方式依赖于验证码的复杂度，这里我们只是示例
 
# 识别后填写验证码并提交
# ...
 
# 清理工作
driver.quit()

这个示例代码展示了如何使用Selenium和Python处理验证码。在实际应用中，验证码的处理可能会更复杂，可能需要图像识别技术，例如OCR（光学字符识别）或机器学习方法来识别验证码中的字符。这个例子只是展示了如何下载验证码图片，并未包含验证码识别逻辑。

- 阅读更多 -

python对landsat8数据进行辐射标定和大气校正

System

2024-08-16

所有,python




import numpy as np
import rasterio
from rasterio.plot import show
from rasterio.warp import reproject, Resampling
 
# 设定输入和输出的影像路径
input_tif_path = 'path_to_input_landsat8_tif.tif'
output_tif_path = 'path_to_output_calibrated_tif.tif'
 
# 设置大气校正参数
atmospheric_correction_coefficients = [
    -0.000003892, 0.000024572, 0.000002235, -0.000000093, 0.000006173,
    -0.000000236, -0.000029017, 0.000011665, -0.000000641, 0.000014978,
    0.000000039, -0.000000019, 0.000000194, -0.000000005, 0.000000014
]
 
# 读取影像数据
with rasterio.open(input_tif_path) as src:
    data = src.read()
    profile = src.profile
    profile.update(dtype=rasterio.float32)
 
# 进行大气校正
# 假设影像波段顺序为 [B2, B3, B4, B5, B6, B7]
bands_to_correct = [data[i] for i in [2, 3, 4, 5, 6, 7]]
corrected_bands = [band - np.polyval(atmospheric_correction_coefficients, band) for band in bands_to_correct]
 
# 将校正后的波段写入新的影像
profile.update(count=len(corrected_bands))
with rasterio.open(output_tif_path, 'w', **profile) as dst:
    dst.write(corrected_bands)
 
# 输出结果可视化
with rasterio.open(output_tif_path) as src:
    show(src.read(), transform=src.transform)

这段代码使用了rasterio库来读取和写入GeoTiff格式的影像数据，并使用numpy来执行大气校正的多项式计算。代码中的atmospheric_correction_coefficients是假设的大气校正多项式的系数，实际应用中需要根据实际的卫星传感器参数进行调整。代码示例中的波段索引[2, 3, 4, 5, 6, 7]假设是Landsat 8数据的标准波段顺序，实际应用中需要根据具体数据进行调整。最后，代码使用rasterio.plot.show函数将校正后的影像可视化。

- 阅读更多 -

中国移动九天毕昇Python签到脚本（适用青龙面板）

System

2024-08-16

所有,python

以下是一个简化的Python脚本示例，用于模拟实现在中国移动九天毕昇平台进行签到。实际使用时，需要替换相关的登录信息和请求细节以满足青龙面板的调度需求。




import requests
import time
 
# 九天毕昇平台的签到URL
sign_url = 'http://your-jtdc-host/sign'
 
# 登录信息
login_info = {
    'username': 'your_username',
    'password': 'your_password'
}
 
# 登录获取cookie
session = requests.session()
response = session.post(sign_url, data=login_info)
 
# 检查登录是否成功
if response.ok:
    # 登录成功后进行签到
    sign_response = session.get(f'{sign_url}/do')
    
    # 检查签到是否成功
    if sign_response.ok:
        print('签到成功')
    else:
        print('签到失败')
else:
    print('登录失败')
 
# 根据需要定义定时任务

请注意，这个脚本仅作为一个简单的示例，实际的九天毕昇平台签到流程可能涉及到更复杂的请求处理和加密方式，需要具体分析平台的接口和实现方式。此外，该脚本没有处理异常情况和错误重试，实际使用时应加入相应的错误处理逻辑。

- 阅读更多 -

【Python】plt库详解和示例

System

2024-08-16

所有,python

matplotlib.pyplot 是 Python 中一个用于绘图的库。以下是一些使用 plt 的常见示例：

绘制一个简单的折线图：




import matplotlib.pyplot as plt
 
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]
plt.plot(x, y)
plt.show()

设置图表的标题和坐标轴标签：




import matplotlib.pyplot as plt
 
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]
plt.plot(x, y)
plt.title('Simple Plot')
plt.xlabel('x-axis')
plt.ylabel('y-axis')
plt.show()

保存图表到文件：




import matplotlib.pyplot as plt
 
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]
plt.plot(x, y)
plt.title('Simple Plot')
plt.xlabel('x-axis')
plt.ylabel('y-axis')
plt.savefig('simple_plot.png')
plt.show()

创建一个条形图：




import matplotlib.pyplot as plt
 
x = ['A', 'B', 'C', 'D']
y = [10, 20, 15, 25]
plt.bar(x, y)
plt.title('Bar Graph')
plt.show()

创建一个直方图：




import matplotlib.pyplot as plt
import numpy as np
 
np.random.seed(10)
data = np.random.normal(size=1000)
plt.hist(data, bins=30)
plt.title('Histogram')
plt.show()

创建一个饼图：




import matplotlib.pyplot as plt
 
labels = ['Apple', 'Banana', 'Cherry', 'Dates']
sizes = [20, 30, 40, 10]
plt.pie(sizes, labels=labels)
plt.title('Pie Chart')
plt.show()

创建一个散点图：




import matplotlib.pyplot as plt
 
x = [1, 2, 3, 4, 5]
y = [1, 4, 9, 16, 25]
plt.scatter(x, y)
plt.title('Scatter Plot')
plt.show()

以上示例展示了 plt 的一些基本用法。matplotlib.pyplot 提供了丰富的功能来创建各种图表，包括线图、条形图、直方图、饼图、散点图等。

System

2024-08-16

所有,python

解释：

这个错误表明你正在尝试使用PyTorch的CUDA功能，但是你的PyTorch版本没有编译支持CUDA。CUDA是一种由NVIDIA开发的并行计算平台和API模型，它允许开发者利用NVIDIA图形处理单元（GPU）来进行高性能的计算。

解决方法：

确认你的显卡支持CUDA。
如果你的显卡支持CUDA，确保你安装了正确版本的CUDA。你可以在安装PyTorch之前访问NVIDIA的CUDA下载页面来获取合适的CUDA版本。
安装支持CUDA的PyTorch版本。你可以使用pip或conda来安装，并指定CUDA版本。例如，如果你想要安装支持CUDA 10.2的PyTorch，你可以使用以下命令：

使用pip：




pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu102

使用conda：




conda install pytorch torchvision torchaudio cudatoolkit=10.2 -c pytorch

请根据你的CUDA版本选择合适的命令来安装。

如果你不需要使用CUDA或者你的显卡不支持CUDA，你也可以安装一个不带CUDA支持的PyTorch版本：




pip install torch torchvision torchaudio

或者




conda install pytorch torchvision torchaudio cpuonly -c pytorch

确保在安装之前关闭所有正在运行的Python虚拟环境和任何可能使用GPU的程序，以免发生版本冲突。

- 阅读更多 -

python怎么做gui界面,python gui界面设计

System

2024-08-16

所有,python

在Python中，有多个库可以用于创建图形用户界面(GUI)，最常见的几个库包括Tkinter、PyQt、PyGTK和wxPython。

Tkinter

Tkinter是Python的标准GUI库。Tkinter可以用于Windows、Linux、Unix、Mac OS X等平台，而且是Python内置的，不需要额外安装。

例子：




import tkinter as tk
 
root = tk.Tk()
label = tk.Label(root, text="Hello, Tkinter!")
label.pack()
root.mainloop()

PyQt

PyQt是一个非常强大的库，它是Qt库的Python版本，Qt是最强大的GUI库之一。PyQt可以用于Qt支持的所有平台，包括Windows、Linux、Unix和Mac OS X。

例子：




from PyQt5.QtWidgets import QApplication, QWidget, QLabel
 
import sys
 
app = QApplication(sys.argv)
 
window = QWidget()
window.resize(250, 150)
window.move(300, 300)
 
label = QLabel(window)
label.setText("Hello, PyQt!")
label.move(100, 60)
 
window.setWindowTitle("Hello PyQt")
window.show()
 
sys.exit(app.exec_())

PyGTK

PyGTK是用于GTK+的Python接口，GTK是另一个强大的GUI库。PyGTK通常用于Linux，但它也可以在Windows和Mac OS X上使用。

例子：




import gtk
 
window = gtk.Window(gtk.DOCK_FILL)
window.set_title("Hello GTK")
label = gtk.Label("Hello, GTK+!")
window.add(label)
window.connect("destroy", lambda w: gtk.main_quit())
 
window.show_all()
gtk.main()

wxPython

wxPython是用于Python的wxWidgets库的绑定。wxWidgets是另一个强大的GUI工具包。

例子：




import wx
 
app = wx.App()
window = wx.Frame(None, title="Hello wxPython")
panel = wx.Panel(window)
label = wx.StaticText(panel, label="Hello, wxPython!")
 
sizer = wx.BoxSizer()
sizer.AddGrowableCol(0)
sizer.AddGrowableRow(0)
sizer.Add(label, 0, wx.ALIGN_CENTER)
 
panel.SetSizer(sizer)
window.Center()
window.Show(True)
app.MainLoop()

以上就是Python GUI界面设计的一些基本库和示例代码。根据你的需求和偏好，你可以选择其中一个或者更多的库来构建你的GUI应用程序。

- 阅读更多 -