2024-08-13

以下是针对Python爬虫的五个实用案例及其代码示例:

  1. 简单的网页爬取



import requests
 
url = 'http://example.com'
response = requests.get(url)
print(response.text)
  1. 使用BeautifulSoup解析HTML



from bs4 import BeautifulSoup
import requests
 
url = 'http://example.com'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.title.text)
  1. 使用lxml解析XML或HTML



from lxml import etree
import requests
 
url = 'http://example.com'
response = requests.get(url)
tree = etree.HTML(response.text)
print(tree.xpath('//title/text()'))
  1. 使用Scrapy框架创建一个爬虫



scrapy startproject myproject
cd myproject
scrapy genspider myspider example.com

编辑myproject/spiders/myspider.py文件以提取所需数据。

  1. 使用Selenium处理JavaScript渲染的网页



from selenium import webdriver
 
driver = webdriver.Chrome()
driver.get('http://example.com')
print(driver.page_source)
driver.quit()

这些案例涵盖了爬虫开发的基本步骤,包括网页请求、数据解析和持久化存储。开发者可以根据实际需求选择合适的案例进行学习和应用。

2024-08-13

要获取江苏省历年GDP数据,可以使用Python的requests库来发送HTTP请求,以及BeautifulSoup库来解析HTML页面。以下是一个简单的示例代码,用于从中国国家统计局网站抓取江苏省的GDP数据。




import requests
from bs4 import BeautifulSoup
import pandas as pd
 
def get_gdp_data_for_jiangsu():
    # 设置请求头,模拟浏览器访问
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    # 目标URL
    url = 'http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2021/'
    # 发送GET请求
    response = requests.get(url, headers=headers)
    # 检查请求是否成功
    if response.status_code == 200:
        # 解析HTML内容
        soup = BeautifulSoup(response.text, 'html.parser')
        # 找到包含GDP数据的表格
        table = soup.find('table', class_='table_gj')
        # 提取表格数据
        rows = table.find_all('tr')[2:]  # 跳过表头
        data = []
        for row in rows:
            cols = row.find_all('td')
            year = cols[0].text.strip()  # 年份
            gdp = cols[1].text.strip()   # GDP数据
            data.append([year, gdp])
        # 转换数据为DataFrame
        df = pd.DataFrame(data, columns=['Year', 'GDP(Yuan)'])
        return df
    else:
        print("Failed to retrieve data, status code:", response.status_code)
        return None
 
# 获取数据并输出
data_jiangsu = get_gdp_data_for_jiangsu()
print(data_jiangsu)

请注意,由于网站可能会更改其结构,因此这段代码可能不会永久有效。此外,遵循目标网站的使用条款,合法地使用数据非常重要。如果你发现这种爬取方法不再有效,请查找该网站提供的官方API或联系其支持团队获取数据。

2024-08-13

Scrapy是一个用Python编写的开源爬虫框架,用于抓取网站并提取结构化数据。以下是一个使用Scrapy框架的简单示例:

首先,安装Scrapy:




pip install scrapy

创建一个新的Scrapy项目:




scrapy startproject myspider

进入项目目录,创建一个爬虫:




cd myspider
scrapy genspider example example.com

这将创建一个名为example的爬虫,用于抓取example.com

编辑爬虫文件example.py,提取所需数据:




import scrapy
 
class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']
 
    def parse(self, response):
        # 提取数据的示例XPath表达式
        for href in response.xpath('//a/@href'):
            yield {'href': href.get()}

运行爬虫:




scrapy crawl example

这个简单的Scrapy爬虫会抓取example.com上的所有超链接,并输出包含每个链接的字典。这只是Scrapy功能的一个简单展示,实际应用中可以提取更多数据,处理更复杂的逻辑。

2024-08-13



import requests
from bs4 import BeautifulSoup
 
def get_soup(url, params=None):
    response = requests.get(url, params=params)
    if response.status_code == 200:
        return BeautifulSoup(response.text, 'html.parser')
    else:
        return None
 
def extract_data(soup):
    # 假设数据在<div class="item">中
    items = soup.find_all('div', class_='item')
    for item in items:
        # 提取数据并处理,例如打印
        print(item.get_text())
 
def crawl_pages(start_page, end_page, url, params_template):
    for page in range(start_page, end_page + 1):
        params = params_template.copy()
        params['page'] = page
        soup = get_soup(url, params)
        if soup:
            extract_data(soup)
 
# 示例使用
url = 'http://example.com/search'
params_template = {
    'query': 'python',
    'page': None
}
start_page = 1
end_page = 3
crawl_pages(start_page, end_page, url, params_template)

这个示例代码展示了如何使用Python的requests库和BeautifulSoup库来爬取多页数据。get_soup函数负责发送请求并获取页面的soup对象。extract_data函数用于从soup对象中提取数据。crawl_pages函数负责遍历页码,并将每一页的soup对象传递给extract_data函数进行数据提取。这个例子中的urlparams_template需要根据实际的网站进行调整。

2024-08-13

由于这个问题涉及的内容较多且涉及到实际的数据爬取和分析,我将提供一个简化的示例来说明如何使用Python进行基本的情感分析。




import jieba
import numpy as np
from wordcloud import WordCloud
import matplotlib.pyplot as plt
 
# 分词并去除停用词
def segment_sentence(sentence):
    stopwords = set()
    with open('stopwords.txt', 'r', encoding='utf-8') as f:
        for line in f:
            stopwords.add(line.strip())
    seg_list = jieba.cut(sentence, cut_all=True)
    return [w for w in seg_list if w not in stopwords and w != '']
 
# 情感分析函数
def sentiment_analysis(sentence):
    seg_list = segment_sentence(sentence)
    positive_words = set(['好', '优秀', '优秀', '高', '大', '好', '及格', '可以', '应该', '适当'])
    negative_words = set(['差', '不行', '差', '低', '不', '不适宜'])
    score = 0
    for word in seg_list:
        if word in positive_words:
            score += 1
        elif word in negative_words:
            score -= 1
    return score
 
# 生成词云
def generate_wordcloud(text):
    wordcloud = WordCloud(font_path='simhei.ttf', background_color='white', max_words=2000)
    wordcloud.generate_from_text(text)
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()
 
# 示例文本
text = "这部手机非常好用,拍照效果优秀,性能也很高,但是价格略高。"
 
# 情感分析得分
sentiment_score = sentiment_analysis(text)
print(f"情感得分: {sentiment_score}")
 
# 生成词云
generate_wordcloud(text)

这个简化的示例展示了如何进行基本的情感分析,并生成词云。实际应用中,你需要根据你的数据集调整停用词和情感词典,并对爬取的数据进行清洗和预处理。

2024-08-13

由于原始代码已经提供了一个很好的实例,以下是核心函数的简化版本,展示如何爬取城市评论并进行情感分析:




import requests
from bs4 import BeautifulSoup
from textblob import TextBlob
 
# 爬取评论并进行情感分析的函数
def crawl_and_analyze_comments(url):
    # 发送HTTP请求
    response = requests.get(url)
    # 解析网页
    soup = BeautifulSoup(response.text, 'html.parser')
    # 提取评论
    comments = soup.find_all('p', class_='comment-content')
    # 初始化情感分析计数器
    positive_count, negative_count, neutral_count = 0, 0, 0
    
    for comment in comments:
        text = comment.get_text()
        # 对评论进行情感分析
        analysis = TextBlob(text)
        sentiment = analysis.sentiment.polarity
        if sentiment > 0:
            positive_count += 1
        elif sentiment < 0:
            negative_count += 1
        else:
            neutral_count += 1
    
    # 计算情感比例
    positive_ratio = positive_count / (positive_count + negative_count + neutral_count)
    negative_ratio = negative_count / (positive_count + negative_count + neutral_count)
    
    return positive_ratio, negative_ratio
 
# 示例URL
example_url = 'https://www.tripadvisor.cn/Attraction_Review-g186338-d10351889-Reviews-Xian_Tian_An_Men_Tian_An_Men_Guan-Chengzhou_Sichuan_Province.html'
# 执行情感分析
positive_ratio, negative_ratio = crawl_and_analyze_comments(example_url)
print(f"Positive Ratio: {positive_ratio:.2f}, Negative Ratio: {negative_ratio:.2f}")

这段代码展示了如何使用requests库获取网页内容,使用BeautifulSoup进行网页解析,以及如何使用TextBlob进行情感分析。代码简洁,注重逻辑性,可以作为爬虫和情感分析相关开发的入门示例。

2024-08-13

由于原始代码已经提供了一个很好的示例,以下是一个简化的核心函数,演示如何使用Python和requests库来发送请求,并使用BeautifulSoup库来解析HTML,以便提取信息。




import requests
from bs4 import BeautifulSoup
 
def get_job_info(url):
    # 发送请求
    response = requests.get(url)
    response.raise_for_status()  # 检查请求是否成功
    soup = BeautifulSoup(response.text, 'html.parser')  # 解析HTML内容
 
    # 提取职位信息
    job_info = {
        'title': soup.select_one('.job-name').text.strip(),
        'salary': soup.select_one('.job-salary').text.strip(),
        'company': soup.select_one('.company-name').text.strip(),
        'city': soup.select_one('.job-addr').text.strip(),
        'description': soup.select_one('.job-detail').text.strip()
    }
    return job_info
 
# 使用函数
url = 'https://www.liepin.com/job/123456.html'  # 假设的职位URL
info = get_job_info(url)
print(info)

这个简化的代码演示了如何使用requests库获取网页内容,并使用BeautifulSoup进行HTML内容的解析。代码中的soup.select_one()方法使用CSS选择器来定位页面元素,并通过.text.strip()获取元素的文本内容。这个例子教会开发者如何利用Python进行简单的网页爬取。

2024-08-13



import requests
from pyquery import PyQuery as pq
import pandas as pd
 
# 请求拼多多商品列表页面
def get_items(url):
    headers = {
        'User-Agent': 'your_user_agent',
        'Referer': 'https://www.pinduoduo.com/',
    }
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
    except requests.RequestException:
        return None
 
# 解析商品信息
def parse_items(html):
    doc = pq(html)
    items = doc('.goods-list .goods-item').items()
    for item in items:
        yield {
            'image': item('.goods-img').attr('src'),
            'price': item('.price').text(),
            'deal_num': item('.deal-cnt').text(),
            'shop_name': item('.shop-name').text(),
            'item_url': item('.goods-img').attr('href'),
        }
 
# 保存商品信息到CSV文件
def save_to_csv(items, filepath):
    df = pd.DataFrame(items)
    df.to_csv(filepath, index=False, encoding='utf-8-sig')
 
# 主函数
def main(url, filepath):
    html = get_items(url)
    items = parse_items(html)
    save_to_csv(items, filepath)
 
if __name__ == '__main__':
    url = 'https://www.pinduoduo.com/commodity_list/some_category_id'
    filepath = 'items.csv'
    main(url, filepath)

这个示例代码展示了如何使用Python进行简单的网页爬取,并将爬取的数据保存到CSV文件中。代码中使用了requests库来发送HTTP请求,使用pyquery库来解析HTML页面,并使用pandas库来处理和保存数据。需要注意的是,这个例子只是一个简单的教学示例,实际的爬虫项目可能需要更复杂的处理,比如处理登录验证、分页请求、用户代理随机化、反爬机制应对等。

2024-08-13



from pyquery import PyQuery as pq
 
# 示例HTML字符串
html = '''
<div id="container">
    <ul class="list">
        <li class="item-0">first item</li>
        <li class="item-1"><a href="link2.html">second item</a></li>
        <li class="item-0"><a href="link3.html"><span class="bold">third item</span></a></li>
        <li class="item-1"><a href="link4.html">fourth item</a></li>
    </ul>
</div>
'''
 
# 使用pyquery解析HTML字符串
doc = pq(html)
 
# 提取所有的li标签中的文本内容
items = [item.text() for item in doc('.list .item-0').items()]
print(items)  # 输出: ['first item', 'third item']
 
# 提取所有的a标签的href属性
links = [link.attr('href') for link in doc('.list .item-1 a').items()]
print(links)  # 输出: ['link2.html', 'link4.html']

这个代码实例展示了如何使用pyquery库来解析HTML字符串,并提取特定元素的文本内容或属性。代码首先定义了一个HTML字符串,然后使用pyquery的pq()函数进行解析。接下来,使用CSS选择器来定位特定的元素,并通过.items()方法迭代这些元素,最后使用.text().attr()方法来提取文本内容或属性。

2024-08-13

解释:

ImportError: Missing optional dependency 'xlrd' 表示你的Python代码试图导入名为xlrd的模块,但是这个模块没有在你的Python环境中安装。xlrd是一个用于读取Excel文件(特别是旧的.xls文件)的库。

解决方法:

你需要安装xlrd模块。如果你使用的是pip(Python的包管理器),可以通过以下命令来安装xlrd




pip install xlrd

如果你正在使用conda环境管理器,可以使用以下命令安装:




conda install xlrd

安装完成后,再次运行你的代码,问题应该就解决了。如果你的代码依赖于xlrd的特定功能,确保安装的是支持这些功能的版本。