标签 python 下的文章

2024-08-17




import requests
import json
import matplotlib.pyplot as plt
 
# 微博用户ID
user_id = 'your_user_id'
 
# 微博主页数据API
url = f'https://m.weibo.cn/api/container/getIndex?type=uid&value={user_id}'
 
# 发送请求获取数据
response = requests.get(url)
data = json.loads(response.text.strip('var data = '))
 
# 提取用户名和关注数
user_name = data['data']['userInfo']['screen_name']
follow_count = data['data']['userInfo']['follow_count']
 
# 绘制关注数可视化图表
x = [user_name]
y = [follow_count]
plt.bar(x, y)
plt.title('关注数可视化')
plt.xlabel('用户名')
plt.ylabel('关注数')
plt.show()

这段代码展示了如何使用Python的requests库来发送HTTP请求，以及如何使用json库来解析返回的JSON数据。然后，它提取了用户的名字和关注数，并使用matplotlib库创建了一个条形图来可视化这些数据。这个例子简单直观地展示了如何通过爬取微博数据来进行可视化分析。

- 阅读更多 -

Python多进程详解

System

2024-08-17

所有,爬虫

Python多进程是一种在操作系统级别并行执行代码的方法。Python提供了一个模块multiprocessing，它提供了一种简单的方法来创建和管理进程。

创建进程

multiprocessing模块提供了一个Process类，可以用这个类来创建一个进程。




from multiprocessing import Process
 
def job():
    print("Hello from Process!")
 
if __name__ == '__main__':
    p = Process(target=job)
    p.start()
    p.join()

在上面的代码中，我们创建了一个进程p，并将目标函数job指定为这个进程要执行的任务。然后我们启动这个进程，并调用p.join()方法等待进程完成。

使用进程池

如果你需要创建大量的进程，可以使用multiprocessing模块的Pool类。




from multiprocessing import Pool
 
def job(x):
    return x*x
 
if __name__ == '__main__':
    with Pool(processes=4) as p:
        result = p.map(job, [1, 2, 3, 4, 5])
        print(result)  # Prints: [1, 4, 9, 16, 25]

在上面的代码中，我们创建了一个容量为4的进程池，并将任务map到这个进程池中。map函数会将job函数应用到列表[1, 2, 3, 4, 5]的每一个元素，并返回结果列表。

使用进程间通信

multiprocessing模块提供了一些工具，如Queue、Pipe和Value和Array，可以用来在进程间进行通信。




from multiprocessing import Process, Queue
 
def job(q):
    q.put('Hello from Process!')
 
if __name__ == '__main__':
    q = Queue()
    p = Process(target=job, args=(q,))
    p.start()
    print(q.get())  # Prints: Hello from Process!
    p.join()

在上面的代码中，我们创建了一个进程p，并在进程p中运行了job函数。我们使用Queue在主进程和进程p之间通信。我们将一个消息放入队列中，然后在主进程中我们从队列中取出这个消息并打印。

共享资源

multiprocessing模块提供了一些特殊的类，如Manager，可以用来在进程间共享资源。




from multiprocessing import Process, Manager
 
def job(d, key, value):
    d[key] = value
 
if __name__ == '__main__':
    with Manager() as manager:
        d = manager.dict()
        p = Process(target=job, args=(d, 'key', 'value'))
        p.start()
        p.join()
        print(d)  # Prints: {'key': 'value'}

在上面的代码中，我们创建了一个进程p，并在进程p中运行了job函数。我们使用Manager在多个进程之间共享一个字典。我们在字典中设置一个键值对，然后在主进程中我们打印这个字典并查看结果。

以上就是Python多进程的基本使用方法。

System

2024-08-17

所有,爬虫




import requests
from pyquery import PyQuery as pq
 
def get_app_info(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36',
        'Referer': 'https://www.baidu.com/'
    }
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        doc = pq(response.text)
        name = doc('.app-name').text()
        desc = doc('.app-desc').text()
        download_url = doc('.download-btn').attr('href')
        return {
            'name': name,
            'description': desc,
            'download_url': download_url
        }
    return None
 
# 应用宝应用链接
app_url = 'https://app.baidu.com/app/16279872/1125883.html'
info = get_app_info(app_url)
if info:
    print(info)
else:
    print('Failed to retrieve app info.')

这段代码使用了requests库来发送HTTP请求，并使用pyquery库来解析HTML。代码定义了一个get_app_info函数，它接受一个应用宝应用链接作为参数，发送请求，解析页面，提取应用名称、描述和下载链接，并以字典形式返回。如果页面解析成功，则返回包含应用信息的字典；如果解析失败，则返回None。最后，代码演示了如何调用get_app_info函数并处理返回的数据。

- 阅读更多 -

Python 爬虫没有思路？可以看看这篇文章

System

2024-08-17

所有,爬虫

Python爬虫是一种自动提取网页数据的程序。如果你对于如何开始一个Python爬虫没有清晰的思路，可以遵循以下步骤：

确定目标网站：首先需要决定你想要爬取哪个网站的数据。
分析网页结构：使用浏览器的开发者工具（如Chrome的“Inspect Element”）来查看网页的HTML结构，识别你想要爬取的数据所在的标签。
安装requests和BeautifulSoup库：使用pip安装这两个库，前者用于发送HTTP请求，后者用于解析HTML。
```
pip install requests
pip install beautifulsoup4
```

编写基本爬虫代码：




import requests
from bs4 import BeautifulSoup
 
url = "http://example.com"  # 目标网站URL
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
 
# 提取数据
data = soup.find_all('div', class_='my-data-class')  # 根据分析的标签调整选择器
 
for item in data:
    print(item.text)  # 打印数据或进行进一步处理

处理动态内容和反爬虫策略：如果网站采取了反爬措施（例如JavaScript渲染的内容），你可能需要使用如Selenium等工具来处理JavaScript渲染的页面。
实现并发请求和爬取策略：考虑使用异步请求库如aiohttp，以及实现合适的爬取策略，比如使用队列管理待爬取的URL，设置合理的请求间隔，以免被网站封禁。
遵守网站规则：确保你的爬虫活动不违反目标网站的robots.txt协议以及版权政策。

这只是一个简单的指导框架，实际的爬虫可能需要更多的细节处理。

- 阅读更多 -

Python基础12-爬虫抓取网页内容

System

2024-08-17

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
def get_html(url):
    """发送HTTP请求，获取网页内容"""
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        else:
            return "网页请求失败，状态码：{}".format(response.status_code)
    except requests.RequestException:
        return "请求出错"
 
def parse_html(html):
    """解析网页，提取需要的信息"""
    soup = BeautifulSoup(html, 'html.parser')
    title = soup.find('h1', class_='post-title').get_text()
    content = soup.find('div', class_='post-content').get_text()
    return {'title': title, 'content': content}
 
def main():
    url = 'http://example.com/some-post'
    html = get_html(url)
    parsed_data = parse_html(html)
    print(parsed_data)
 
if __name__ == '__main__':
    main()

这段代码首先定义了一个get_html函数，用于发送HTTP请求并获取网页内容。然后定义了一个parse_html函数，用于解析网页并提取标题和内容。最后，在main函数中，我们构建了网页URL，调用get_html获取内容，并调用parse_html解析内容，打印结果。这个例子展示了如何使用Python的requests库和BeautifulSoup库来简单地抓取和解析网页。

- 阅读更多 -

使用Python进行Web抓取和爬虫

System

2024-08-17

所有,爬虫




import requests
from bs4 import BeautifulSoup
 
# 发送HTTP请求
url = 'https://example.com/'
response = requests.get(url)
 
# 检查请求是否成功
if response.status_code == 200:
    # 使用BeautifulSoup解析HTML内容
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # 提取页面上的所有链接
    for link in soup.find_all('a'):
        print(link.get('href'))
 
# 请求失败处理
else:
    print(f"请求网页失败，状态码: {response.status_code}")

这段代码展示了如何使用Python的requests库发送HTTP GET请求，以及如何使用BeautifulSoup库解析HTML并提取页面中的链接。这是Web抓取和爬虫任务的基本步骤，适用于教育目的。在实际应用中，可能需要处理更复杂的情况，例如处理AJAX请求、应对反爬机制、处理分页、异常处理等。

- 阅读更多 -

Python编程-使用urllib进行网络爬虫常用内容梳理

System

2024-08-17

所有,爬虫




import urllib.request
import urllib.parse
 
# 网络爬虫常用函数
def fetch(url, headers=None, data=None):
    """
    发送HTTP请求的函数
    :param url: 字符串，请求的URL
    :param headers: 字典，HTTP请求头
    :param data: 字典或字节串，发送到服务器的数据
    :return: 返回服务器的响应内容
    """
    if data is not None:
        data = urllib.parse.urlencode(data).encode('utf-8')
    req = urllib.request.Request(url, data, headers)
    response = urllib.request.urlopen(req)
    return response.read()
 
# 使用示例
url = 'http://example.com/'
headers = {'User-Agent': 'My-App/0.1'}
data = {'key': 'value'}
 
# 发送请求并获取响应
response = fetch(url, headers, data)
print(response)

这段代码定义了一个名为fetch的函数，它接受URL、请求头和数据作为参数，并返回从服务器收到的响应。然后通过一个简单的使用示例来演示如何使用这个函数发送HTTP请求。这个例子展示了如何使用urllib进行基本的网络爬虫操作。

- 阅读更多 -

【python】爬虫获取网页文章并绘制高频词汇的云图

System

2024-08-17

所有,爬虫




import jieba
import requests
from wordcloud import WordCloud
from matplotlib import pyplot as plt
 
# 获取网页内容
def get_html(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""
 
# 分词并返回词频列表
def get_word_freq(text):
    cut_text = " ".join(jieba.cut(text))
    word_freq = jieba.analyse.extract_tags(cut_text, topK=100, withWeight=True)
    return word_freq
 
# 绘制词云图
def draw_wordcloud(word_freq):
    word_dict = dict(word_freq)
    wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_words=100, max_font_size=40, random_state=42)
    wordcloud.fit_words(word_dict)
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()
 
# 主函数
def main():
    url = "http://example.com"  # 替换为目标网页的URL
    html = get_html(url)
    word_freq = get_word_freq(html)
    draw_wordcloud(word_freq)
 
if __name__ == '__main__':
    main()

在这个代码实例中，首先导入了必要的模块，然后定义了获取网页内容、分词并返回词频列表的函数，以及绘制词云图的函数。主函数 main() 调用这些函数来完成整个流程。需要注意的是，你需要替换 "http://example.com" 为你想要爬取的目标网页的URL，并确保你有可用的分词词典和字体路径。

- 阅读更多 -

比requests更强大的Python 库，让你的爬虫效率提高一倍

System

2024-08-17

所有,爬虫

除了requests，还有一些更强大的Python库可以用于网络请求，提高爬虫效率。以下是几个常用的选项：

requests-html：基于requests，但提供了简单的HTML解析功能。
aiohttp：异步版本的HTTP客户端，适合处理异步网络请求，可以提高效率。
Scrapy：一个为了爬取网站数据，提取结构化数据而编写的应用框架，适合处理更复杂的爬虫任务。
pyspider：一个强大的爬虫系统，可以用来爬取网站或编写爬虫。

以下是requests-html的一个简单示例：




import requests
 
# 使用 pip install requests-html 安装
url = 'https://example.com'
 
# 使用 requests-html
session = requests_html.HTMLSession()
resp = session.get(url)
 
# 解析和提取数据
title = resp.html.find('title', first=True)
print(title.text)

对于异步处理，以下是aiohttp的一个简单示例：




import aiohttp
 
async def fetch(session, url):
    async with session.get(url) as response:
        return await response.text()
 
async def main():
    async with aiohttp.ClientSession() as session:
        html = await fetch(session, 'https://example.com')
        print(html)
 
# 运行异步主函数
import asyncio
asyncio.run(main())

选择合适的库取决于你的需求和你的爬虫的复杂性。对于简单的请求，requests-html可能是最快捷的选择，而对于更复杂或高性能的需求，aiohttp或其他异步库可能是必须的。如果你需要处理复杂的爬虫任务，如反爬虫技术、分布式爬虫等，Scrapy或pyspider可能是更合适的选择。

- 阅读更多 -

为何Go爬虫依然远没有Python爬虫流行

System

2024-08-17

所有,爬虫

尽管Go在近年来取得了显著的增长，但与Python相比，Go爬虫的流行度仍然有一定差距。这主要有以下几个原因：

生态系统：虽然Go拥有一个快速、可靠的网络爬虫库（如goquery和colly），但与Python的BeautifulSoup和Scrapy相比，它们的知名度和广泛使用频率还有一定差距。
学习曲线：虽然Go的语法相对简单，但它的学习曲线更陡峭，对开发者的要求更高。而Python更容易上手，对初学者非常友好。
工具和库的支持：虽然Go有很多强大的工具和库，但是与Python的生态系统相比，它还是不够丰富。例如，Python有大量的数据科学库，而在Go中，这些通常需要第三方库或自行实现。
并发和性能：虽然Go支持轻松的并发，但是与使用asyncio和aiohttp的Python相比，其性能上可能会有些欠缺。
社区活跃度：虽然Go社区也非常活跃，但是相对于Python，它的社区活跃度可能不够高，导致了它的社区支持和教育资源不如Python丰富。
入门门槛：虽然Go的学习曲线更陡峭，但是Go具有更好的性能和编译型语言的控制权，这使得它在特定的领域（如分布式系统、网络编程、高性能计算等）中更受欢迎。

尽管如此，Go在某些特定的应用场景下仍然具有优势，并且随着时间的推移，Go爬虫可能会变得和Python一样流行。

- 阅读更多 -