爬蟲(chóng)接入規(guī)范
修訂歷史
日期
修改說(shuō)明
部門(mén)
修改人
2018.06.12
大數(shù)據(jù)中心
李永波
數(shù)據(jù)接入需求
基于數(shù)據(jù)采集需求,初步判斷數(shù)據(jù)的接入源是否從業(yè)務(wù)數(shù)據(jù)庫(kù)中獲取。
聯(lián)系技術(shù)研發(fā)部同事,請(qǐng)求數(shù)據(jù)源接入的位置參數(shù),通過(guò)配置化方式達(dá)到將數(shù)據(jù)從業(yè)務(wù)系統(tǒng)拉取、裝載到數(shù)據(jù)倉(cāng)庫(kù)貼源層的目的。
數(shù)據(jù)接入流程
1.與爬蟲(chóng)組和平臺(tái)組進(jìn)行溝通,確定提供數(shù)據(jù)的方式(數(shù)據(jù)庫(kù)、文件、接口等),讓需求發(fā)起人補(bǔ)充詳細(xì)的數(shù)據(jù)口徑,補(bǔ)充到需求要求里面,指定數(shù)據(jù)倉(cāng)庫(kù)組或平臺(tái)組的一個(gè)人進(jìn)行轉(zhuǎn)發(fā)。
2.數(shù)據(jù)倉(cāng)庫(kù)組或平臺(tái)組根據(jù)需求描述。跟數(shù)據(jù)源提供方(可以是需求發(fā)起方、也可以是技術(shù)研發(fā)部門(mén))溝通,讓其補(bǔ)充模板里的位置參數(shù)。
3.數(shù)據(jù)源提供方根據(jù)模板要求,提供位置配置參數(shù)。
4.數(shù)據(jù)倉(cāng)庫(kù)組或平臺(tái)組根據(jù)已經(jīng)得到的位置參數(shù)、需求數(shù)據(jù)指標(biāo)等信息,設(shè)計(jì)接入模型和抽取參數(shù)。
5.數(shù)據(jù)倉(cāng)庫(kù)組或平臺(tái)組在接入數(shù)據(jù)后,整理數(shù)據(jù)格式,制定清洗轉(zhuǎn)換規(guī)則,并補(bǔ)充裝載目標(biāo)表信息。
數(shù)據(jù)源接入模板
需求要求(倉(cāng)庫(kù)組補(bǔ)充)
tapd需求單號(hào):1002513
提起人:陳炳貴(Richard.chen)
需求單號(hào)內(nèi)容:
???
提供數(shù)據(jù)方式:
數(shù)據(jù)庫(kù)、文件、接口
詳細(xì)的數(shù)據(jù)口徑:???
位置配置參數(shù)(平臺(tái)部補(bǔ)充)
配置參數(shù)
參數(shù)取值
服務(wù)器地址
必填
數(shù)據(jù)庫(kù)端口
必填
數(shù)據(jù)庫(kù)名稱(chēng)
必填
用戶(hù)名
必填
密碼
必填
表名
必填,test1
必填,test2
取數(shù)口徑(sql或者文字說(shuō)明)
選填,單表部分字段、多表關(guān)聯(lián)的請(qǐng)?zhí)顚?xiě)。
接入模型字段(倉(cāng)庫(kù)組補(bǔ)填)
字段名
注釋
字段類(lèi)型
源表字段
必填
必填
必填
必填
必填
必填
必填
必填
抽取參數(shù)(倉(cāng)庫(kù)組補(bǔ)填)
配置參數(shù)
參數(shù)取值
抽數(shù)周期
每天
抽數(shù)時(shí)間
7:00
增量標(biāo)識(shí)
1:全量,2:增量
數(shù)據(jù)日期格式
增量數(shù)據(jù),需要提供數(shù)據(jù)日期格式,可選如下。
時(shí)間戳
Yyyymmdd
Yyyy-mm-dd
清洗轉(zhuǎn)換規(guī)則(倉(cāng)庫(kù)組補(bǔ)填)
由倉(cāng)庫(kù)組補(bǔ)充,不限于數(shù)據(jù)清洗過(guò)濾、字段編碼轉(zhuǎn)換、敏感信息轉(zhuǎn)換、接入閥值設(shè)置等等。
裝載目標(biāo)表(倉(cāng)庫(kù)組補(bǔ)填)
配置參數(shù)
參數(shù)取值
stg層表名稱(chēng)
必填
stg層表描述
必填
ods層表名稱(chēng)
必填
ods層表描述
必填
取數(shù)位置(平臺(tái)組組補(bǔ)充,倉(cāng)庫(kù)組驗(yàn)收)
密碼等驗(yàn)證信息私下提供。
數(shù)據(jù)庫(kù)方式:
數(shù)據(jù)庫(kù)連接方式:
表名:
字段名
注釋
字段類(lèi)型
必填
必填
必填
必填
必填
必填
文件方式:
服務(wù)器位置:ip:port
文件位置:
接口方式:
接口URL: