分类爬虫下的文章

2024-08-23




import requests
import pandas as pd
from bs4 import BeautifulSoup
 
# 股票代码列表
stock_codes = ['000001.SZ', '000002.SZ', '000004.SZ', '000005.SZ']
 
# 获取股票数据的函数
def get_stock_data(stock_code):
    url = f'http://quote.eastmoney.com/stock_{stock_code}.html'
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'lxml')
        data = soup.find('script', {'id': 'quotesearch_zj_json'})
        if data:
            stock_info = eval(data.text.strip())
            return stock_info
 
# 保存数据到Excel的函数
def save_to_excel(stock_data, filename='stock_data.xlsx'):
    df = pd.DataFrame(stock_data)
    df.to_excel(filename, index=False)
 
# 主函数
def main():
    stock_data_list = []
    for stock_code in stock_codes:
        stock_data = get_stock_data(stock_code)
        if stock_data:
            stock_data_list.append(stock_data)
    save_to_excel(stock_data_list)
 
if __name__ == '__main__':
    main()

这段代码首先定义了一个股票代码列表，然后定义了一个函数get_stock_data来获取指定股票代码的数据。接着定义了一个函数save_to_excel来将股票数据保存到Excel文件中。最后在main函数中，我们循环获取每只股票的数据，并将其保存到一个列表中，然后将这个列表保存到Excel文件。这个例子展示了如何使用Python网络爬虫批量采集数据，并使用pandas库将数据保存到Excel文件中。

- 阅读更多 -

Java程序中使用 Jsoup 爬虫( 简单示例 )

System

2024-08-23

所有,爬虫




import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
 
public class SimpleJsoupExample {
    public static void main(String[] args) {
        String url = "http://example.com"; // 替换为你想爬取的网站
        try {
            Document doc = Jsoup.connect(url).get();
            Elements elements = doc.select("title"); // 选择所有的标题元素
            if (elements.size() > 0) {
                Element titleElement = elements.get(0);
                System.out.println("网页标题: " + titleElement.text());
            }
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

这段代码使用Jsoup库连接到指定的URL，获取HTML文档，并使用选择器选择页面中的<title>元素。然后，它打印出获取到的标题文本。这是一个简单的Jsoup使用例子，展示了如何开始使用这个库进行网页爬取。

- 阅读更多 -

【爬虫】User-Agent反爬虫

System

2024-08-23

所有,爬虫

User-Agent反爬虫是一种常见的反爬虫策略，网站通过检测请求的User-Agent来判断请求是否来自爬虫。因此，为了绕过这种反爬虫策略，我们需要在爬虫中使用不同的User-Agent进行请求。

解决方案：

使用随机的User-Agent池：爬虫程序启动时，从一个包含不同User-Agent的列表中随机选择一个使用。
使用代理服务器：每次请求时通过不同的代理服务器进行。

以下是使用Python的requests库设置随机User-Agent的示例代码：




import requests
 
# 这里是一些常见的User-Agent字符串的列表
user_agents = [
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
    "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
    "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
    # ... 添加更多User-Agent字符串
]
 
# 随机选择一个User-Agent
def get_random_user_agent():
    return user_agents[random.randint(0, len(user_agents)-1)]
 
# 使用随机的User-Agent进行请求
def make_request(url):
    headers = {'User-Agent': get_random_user_agent()}
    response = requests.get(url, headers=headers)
    return response
 
# 示例URL
url = 'http://example.com'
response = make_request(url)
print(response.text)

在实际应用中，可以扩展user_agents列表，包含更多不同的User-Agent字符串，或者使用专门的网站收集这些字符串。此外，频繁更换代理和User-Agent可以帮助爬虫避免被网站封禁。

- 阅读更多 -

笔记-python编写ZH爬虫实践

System

2024-08-23

所有,爬虫




import requests
from bs4 import BeautifulSoup
import re
import os
 
def get_html(url):
    """
    获取网页内容
    """
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.text
        return None
    except requests.RequestException:
        return None
 
def parse_html(html):
    """
    解析网页内容，提取标题和内容
    """
    soup = BeautifulSoup(html, 'lxml')
    title = soup.select('.entry-header h1')[0].text
    content = soup.select('.entry')[0].text
    return title, content
 
def save_note(title, content, save_dir):
    """
    保存笔记
    """
    with open(os.path.join(save_dir, f'{title}.txt'), 'w', encoding='utf-8') as f:
        f.write(content)
 
def main(url):
    html = get_html(url)
    title, content = parse_html(html)
    save_note(title, content, 'notes')
 
if __name__ == '__main__':
    url = 'http://example.com/some-article'  # 替换为目标文章的URL
    main(url)

这段代码实现了一个简单的网页爬取和保存文本内容的功能。首先定义了获取网页内容的函数get_html，使用了请求库requests获取网页。其次定义了解析网页内容的函数parse_html，使用了BeautifulSoup进行HTML内容的解析。最后定义了保存笔记的函数save_note，将解析得到的标题和内容保存到指定的目录。主函数main组合了这些功能，实现了一个简单的爬虫流程。

- 阅读更多 -

C++编写的多线程自动爬虫程序

System

2024-08-23

所有,爬虫

以下是一个简化的C++多线程网络爬虫的示例代码，使用了std::thread来创建线程，并假设Crawl类提供了必要的功能来处理URL和抓取数据。




#include <iostream>
#include <thread>
#include <vector>
#include <queue>
#include <mutex>
 
class Crawl {
public:
    void CrawlWebPage(const std::string& url) {
        // 实现网页内容抓取的逻辑
        std::cout << "Crawling: " << url << std::endl;
        // 模拟抓取数据
    }
};
 
std::queue<std::string> urls;
std::mutex mtx;
 
void workerThread(Crawl& crawler) {
    while (true) {
        std::string url;
        {
            std::lock_guard<std::mutex> lock(mtx);
            if (urls.empty())
                break; // 没有更多的URL，退出线程
            url = urls.front();
            urls.pop();
        }
        crawler.CrawlWebPage(url);
    }
}
 
int main() {
    Crawl crawler;
    std::vector<std::thread> threads;
 
    // 假设这里添加了一些起始URL到urls队列中
    urls.push("http://www.example.com/page1");
    urls.push("http://www.example.com/page2");
    // ...
 
    // 创建线程
    for (int i = 0; i < 5; ++i) {
        threads.emplace_back(workerThread, std::ref(crawler));
    }
 
    // 等待所有线程完成
    for (auto& t : threads) {
        t.join();
    }
 
    return 0;
}

这个示例程序展示了如何使用std::thread来创建多线程爬虫，每个线程从共享的urls队列中取出URL进行爬取。注意，这个例子没有处理网络请求的细节，只是展示了多线程的基本使用方法和队列同步的实现。

- 阅读更多 -

爬虫 — 自动化爬虫 Selenium

System

2024-08-23

所有,爬虫

Selenium是一个用于自动化web浏览器的开源工具。它提供了一种方法来编写程序化测试脚本，可以用来模拟用户交互。

以下是一个使用Python和Selenium的简单示例，它会打开一个Chrome浏览器，然后导航到Google主页，并在搜索框中输入文本，然后提交搜索。

首先，你需要安装selenium库和chromedriver。你可以通过pip安装selenium：




pip install selenium

然后，你需要下载与你的Chrome浏览器版本相对应的chromedriver。你可以从这里下载：https://sites.google.com/a/chromium.org/chromedriver/downloads




from selenium import webdriver
from selenium.webdriver.common.keys import Keys
 
# 确保下载chromedriver并且在你的PATH中
driver = webdriver.Chrome()
 
# 打开Google主页
driver.get("http://www.google.com")
 
# 找到搜索框元素
search_box = driver.find_element_by_name("q")
 
# 清除搜索框并输入搜索关键字
search_box.clear()
search_box.send_keys("Selenium with Python")
 
# 提交搜索
search_box.send_keys(Keys.RETURN)
 
# 关闭浏览器
driver.close()

这个简单的示例展示了如何使用Selenium来自动化打开浏览器、导航到页面、模拟用户输入和操作。

System

2024-08-23

所有,爬虫




import urllib.request
import urllib.parse
import http.cookiejar
import json
 
# 创建cookie容器
cj = http.cookiejar.CookieJar()
# 创建opener
opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
# 安装opener
urllib.request.install_opener(opener)
 
# 要翻译的文本
text = "test"
# 编码类型
fromLang = "AUTO"
toLang = "AUTO"
 
url = "https://fanyi.baidu.com/sug"
data = {
    "kw": text,
    "from": fromLang,
    "to": toLang,
}
data = urllib.parse.urlencode(data).encode('utf-8')
 
req = urllib.request.Request(url, data=data)
response = urllib.request.urlopen(req)
 
# 读取响应内容
html = response.read()
 
# 将字节流解码为字符串
html = html.decode('utf-8')
 
# 将字符串转换为字典
trans_result = json.loads(html)
 
# 输出翻译结果
print(trans_result)

这段代码使用了urllib库来发送POST请求到百度翻译的建议搜索接口，并使用了一个cookie容器来保存cookie，以此来绕过简单的cookie检查。请注意，由于翻译结果可能会随着时间变化而变化，所以这里并没有使用百度翻译的具体翻译API，而是使用了百度建议搜索的API来获取翻译建议。这只是一个简单的示例，实际上，如果想要获取百度翻译的精确翻译结果，你需要使用百度翻译的API，并且通常需要进行登录以获取相应的权限。

- 阅读更多 -

Java 从零开始学爬虫（gecco）

System

2024-08-23

所有,爬虫

Gecco是一个用Java开发的轻量级网络爬虫框架，它提供了简单、高效的爬虫解决方案。以下是使用Gecco进行网页爬取的基本步骤和示例代码：

添加Gecco依赖到你的项目中。

如果你使用Maven，可以在pom.xml中添加如下依赖：




<dependency>
    <groupId>com.github.zhegexiaohuozi</groupId>
    <artifactId>gecco</artifactId>
    <version>版本号</version>
</dependency>

定义一个Gecco的爬虫类。




import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
 
public class MyGeccoProcessor implements PageProcessor {
 
    private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);
 
    @Override
    public void process(Page page) {
        // 提取页面信息的代码
        // 例如提取页面标题
        page.putField("title", page.getHtml().xpath("//title/text()").toString());
    }
 
    @Override
    public Site getSite() {
        return site;
    }
 
    public static void main(String[] args) {
        Spider.create(new MyGeccoProcessor()).addUrl("http://www.example.com").run();
    }
}

在process方法中，你可以使用XPath、CSS选择器等方式来提取页面数据。getSite方法中可以配置爬虫的相关参数，如重试次数和请求间歇时间等。

运行你的爬虫。

在main方法中，使用Spider.create(new MyGeccoProcessor()).addUrl("起始页面url").run();来启动爬虫。

这个简单的例子展示了如何使用Gecco来创建一个简单的网页爬虫。具体的爬取规则需要根据目标网站的HTML结构来定制。

- 阅读更多 -

构造爬虫请求：从日期到小时，精准定位每一刻

System

2024-08-23

所有,爬虫

为了构建一个能够精确到每一刻的日期和时间范围内的爬虫请求，我们可以使用Python的datetime模块来生成所需的时间范围。以下是一个简单的例子，展示了如何生成从指定开始日期到结束日期，每小时一次的爬虫请求。




from datetime import datetime, timedelta
 
def generate_requests(start_date, end_date):
    start_time = datetime.combine(start_date, datetime.min.time())
    end_time = datetime.combine(end_date, datetime.min.time())
    
    while start_time <= end_time:
        yield start_time
        start_time += timedelta(hours=1)
 
# 示例使用
start_date = datetime(2023, 4, 1)  # 开始日期
end_date = datetime(2023, 4, 30)   # 结束日期
 
for request_time in generate_requests(start_date, end_date):
    # 这里构建你的爬虫请求，使用request_time作为请求的日期和时间
    print(request_time)

这段代码定义了一个generate_requests函数，它接受开始和结束日期作为参数，并生成从开始日期的00:00到结束日期的23:00，每隔一小时的时间戳。然后，你可以通过迭代这个函数来获取每一个请求时间，并用这个时间来构建你的爬虫请求。

- 阅读更多 -

Python爬虫：爬虫基本概念、流程及https协议

System

2024-08-23

所有,爬虫




import requests
 
# 爬取网页的函数
def crawl_page(url):
    try:
        response = requests.get(url)  # 发送HTTP GET请求
        if response.status_code == 200:  # 请求成功
            return response.text  # 返回页面内容
        else:
            return "Error: " + str(response.status_code)
    except requests.exceptions.RequestException as e:
        return "Error: " + str(e)
 
# 使用示例
url = "https://www.example.com"
print(crawl_page(url))

这段代码使用了requests库来简单地实现了一个HTTP爬虫。函数crawl_page接收一个URL，尝试获取该URL的内容，并返回页面文本或错误信息。如果请求成功，它会返回页面的文本内容；如果请求失败，它会返回错误信息。这个例子演示了如何使用Python进行简单的HTTPS协议网页爬取。

- 阅读更多 -