爬虫不求人,上手跟我做(一)springboot 集成爬虫框架 SeimiCrawler

springboot 集成爬虫框架 SeimiCrawler

第一、从springboot 官网获取一个原始的 springboot 项目

图片.png

第二、IDEA 导入项目

图片.png

第三、集成 mybatis

添加依赖

<!--springboot集成mybatis-->
        <!--alibaba数据源-->
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>druid</artifactId>
            <version>1.1.0</version>
        </dependency>
        <!--mysql数据库5.7以上-->
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.12</version>
        </dependency>
        <!--mybatis架包-->
        <dependency>
            <groupId>org.mybatis.spring.boot</groupId>
            <artifactId>mybatis-spring-boot-starter</artifactId>
            <version>1.3.2</version>
        </dependency>

图片.png
需要安装 mysql 数据库的参照:
建站不啰嗦,上手跟我做(六)mysql 数据库下载和安装

添加配置

#数据源配置
spring.datasource.url=jdbc:mysql://192.168.1.103/spider?useUnicode=yes&characterEncoding=UTF-8&useInformationSchema=true&useSSL=false&serverTimezone=UTC
spring.datasource.driver-class-name=com.mysql.cj.jdbc.Driver
spring.datasource.username=root
spring.datasource.password=123456
#alibaba数据库连接池管理
spring.datasource.type=com.alibaba.druid.pool.DruidDataSource
#mybatis配置
mybatis.mapper-locations=classpath:./mapper_xml/*.xml

图片.png

添加扫描包

package cn.qiankunpingtai.spider;

import org.mybatis.spring.annotation.MapperScan;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;

@MapperScan("cn.qiankunpingtai.spider.mappers")
@SpringBootApplication
public class SpiderApplication {

	public static void main(String[] args) {
		SpringApplication.run(SpiderApplication.class, args);
	}

}

图片.png

第四、集成爬虫框架 SeimiCrawler

添加依赖

        <!--爬虫框架SeimiCrawler-->
        <dependency>
            <groupId>cn.wanghaomiao</groupId>
            <artifactId>SeimiCrawler</artifactId>
            <version>2.1.1</version>
        </dependency>

图片.png
关于 SeimiCrawler 请参照:
SeimiCrawler V2 支持 SpringBoot

第五、集成 flexmark-all 主要用于 html 和 markdown 之间的转换

		<!--引入flexmark-->
		<dependency>
			<groupId>com.vladsch.flexmark</groupId>
			<artifactId>flexmark-all</artifactId>
			<version>0.40.24</version>
		</dependency>

图片.png

爬虫不求人,上手跟我做(目录)
下一篇 爬虫不求人,上手跟我做(二)单页面数据获取
项目见附件:

0 打赏
打赏 10 积分后可见