Java项目推荐-异构数据源流转系统
前言
如果厌倦了市面上的商城、外卖类明星项目,想要找个重复率不那么高的项目,不妨来看一下异构数据源流转项目datalinkx。什么是异构数据源流转系统,不同于平台类的项目,datalinkx属于基础架构类的项目。
在规模稍大的公司,特别是最近一段时间大模型技术发展,对大数据量的数据操作有很大的需求量,比如模型需要大量的标记数据做训练,爬虫的同事在互联网上库库一顿抓,抓完往库里一放就完事了,后端的同事拿来这些数据没法直接用,因为爬下来的数据很杂很乱,没有经过数据治理,比如a网站的性别叫男、女,b网站叫男生、女生,c网站叫男人、女人,d网站叫1、0。
所以通常爬下来的数据都会通过数据流转服务进到数据中台去清晰一遍,清洗后的数据再用数据流转服给到模型训练。这就是datalinkx的应用场景之一。当然datalinkx的作用不止这一点,还有很多地方,比如定时采集接口数据等等。简单说就是从一个数据库中查,写到另一个数据库中去。
是不是还算是个新颖的项目方向?
架构
基础架构类的项目一般都没有庞大且浮夸的流量噱头,项目定位一般是就是服务公司内部,侧重架构设计与中间件应用。
Gitee: https://gitee.com/atuptown/datalinkx
技术栈
Spring Boot | 2.7.15 | 项目脚手架 |
SpringData JPA | 2.7.15 | 持久层框架 |
MySQL | 8.0 | DB数据库 |
ElasticSearch | 7.9.3 | 向量库、支持流转的数据库 |
Redis | 5.0 ↑ | 缓存数据库 |
RedisStream | 5.0 ↑ | 消息中间件 |
ChunJun(原FlinkX) | 1.10_release | 袋鼠云开源数据同步框架 |
Seatunnel | 2.3.8 | apache开源数据同步框架 |
Flink | 1.10.3 | 分布式大数据计算引擎 |
Ollama | x | 大模型执行框架 |
Xxl-job | 2.3.0 | 分布式调度框架 |
OpenFeign | 3.1.9 | RPC通信服务 |
Jackson | 2.11.4 | 反序列化框架 |
Maven | 3.6.X | Java包管理 |
Vue.js | 2.X | 前端框架 |
AntDesignUI | 3.0.4 | 前端UI |
Docker | 容器化部署 |