性色欲网站人妻丰满中文久久不卡,99偷拍视频精品一区二区,小蜜被两老头吸奶头在线观看 ,老师好爽要尿了潮喷了视频高潮

網(wǎng)頁抓取工具之?dāng)?shù)據(jù)預(yù)處理

2017-05-26 15:05:39 瀏覽:8764


提取的數(shù)據(jù)還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網(wǎng)頁抓取工具火車采集器自有應(yīng)對(duì)方案——數(shù)據(jù)處理。

圖片1.png

網(wǎng)頁抓取工具的數(shù)據(jù)處理功能包括三個(gè)部分,分別是內(nèi)容處理、文件下載、內(nèi)容過濾。下面依次給大家介紹:

1、內(nèi)容處理:對(duì)從內(nèi)容頁面提取的數(shù)據(jù)進(jìn)行替換、標(biāo)簽過濾、分詞等進(jìn)一步處理,我們可以同時(shí)添加多個(gè)操作,但這里需要注意的是,有多個(gè)操作時(shí)是按照從上到下的順序來執(zhí)行,也就是說,上個(gè)步驟的結(jié)果會(huì)作為下個(gè)步驟的參數(shù)。

下面來逐個(gè)介紹一下:

①提取內(nèi)容為空:如果通過前面的規(guī)則無法準(zhǔn)確提取或提取到的內(nèi)容為空,則選擇此項(xiàng),此項(xiàng)應(yīng)用后會(huì)使用正則匹配從原始頁面中再次提取一次。

②內(nèi)容替換/排除:將采集到的內(nèi)容進(jìn)行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對(duì)內(nèi)容進(jìn)行替換,也可對(duì)字符串進(jìn)行參數(shù)替換等(區(qū)別于工具欄中的同義詞替換)。

③html標(biāo)簽過濾:過濾指定html標(biāo)簽,比如<a ,<font。這樣采集出來的內(nèi)容就不會(huì)帶有源碼中一些樣式標(biāo)簽,更符合我們的使用標(biāo)準(zhǔn)。

④字符截取:通過開始和結(jié)束字符串對(duì)內(nèi)容進(jìn)行截取。適用于對(duì)已提取內(nèi)容的截取調(diào)整。

⑤純正則替換:如果一些內(nèi)容(比如單一出現(xiàn)的文字)無法通過通用的內(nèi)容替換來操作,那么則需要通過強(qiáng)大的正則表達(dá)式進(jìn)行復(fù)雜的替換。

如“火爆的美式餐廳都在這里”,我們將其替換為“美式餐廳”,正則表達(dá)式如下:

圖片2.png

    ⑥數(shù)據(jù)轉(zhuǎn)換:包括將結(jié)果簡(jiǎn)轉(zhuǎn)繁、將結(jié)果繁轉(zhuǎn)簡(jiǎn)、自動(dòng)轉(zhuǎn)化為拼音和時(shí)間修正轉(zhuǎn)化,共計(jì)四項(xiàng)處理。

⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時(shí)間、智能提取郵箱、智能提取手機(jī)號(hào)碼、智能提取電話號(hào)碼。

⑧高級(jí)功能:包括自動(dòng)摘要、自動(dòng)分詞、自動(dòng)分類、Http請(qǐng)求、字符編碼轉(zhuǎn)換、同義詞替換、空內(nèi)容缺省值、內(nèi)容加前后綴、隨機(jī)插入、運(yùn)行C#代碼、批量?jī)?nèi)容替換,統(tǒng)計(jì)標(biāo)簽字符串長(zhǎng)度等一系列功能。

⑨補(bǔ)全單網(wǎng)址:將當(dāng)前內(nèi)容作為一個(gè)網(wǎng)址進(jìn)行補(bǔ)全。

2、文件下載:可以自動(dòng)探測(cè)并下載文件,可設(shè)置下載路徑和文件名樣式。

注意:文件下載中所指下載圖片是源代碼里有標(biāo)準(zhǔn)樣式<img src="圖片地址"/>標(biāo)簽的圖片地址。

比如是一個(gè)直接的圖片地址http://m.zzdzdt.com/logo.gif ,或者不規(guī)則的圖片源碼,采集器將會(huì)視為文件下載。

①將相對(duì)地址補(bǔ)全為絕對(duì)地址:勾選后會(huì)把標(biāo)簽采集到的相對(duì)地址補(bǔ)全為絕對(duì)地址。

②下載圖片:勾選后源代碼里的含標(biāo)準(zhǔn)樣式<img src="圖片地址"/>的代碼圖片將被下載。

③探測(cè)文件真實(shí)地址但不下載:有時(shí)候采集到的是附件下載地址,而非真實(shí)的下載地址,點(diǎn)擊后會(huì)有跳轉(zhuǎn)。這種情況下勾選此項(xiàng)會(huì)將真實(shí)地址采集出來,但是只是得到下載地址并不下載。

④探測(cè)文件并下載:勾選后可以把采集到的任何格式的文件附件下載下來。

3、內(nèi)容過濾:對(duì)于一些不符合條件的記錄,可以通過設(shè)置內(nèi)容過濾來刪除或標(biāo)記為未采。內(nèi)容過濾有以下幾個(gè)處理方法:

①內(nèi)容不得包含和內(nèi)容必須包含:可以設(shè)置多個(gè)詞,支持選擇所有條件都必須滿足或滿足其中一個(gè)條件即可。

②采集結(jié)果不得為空:該功能可以讓某個(gè)字段不出現(xiàn)空內(nèi)容。

③采集結(jié)果不得重復(fù):該功能可以讓某個(gè)字段不出現(xiàn)重復(fù)內(nèi)容。設(shè)置此項(xiàng)前請(qǐng)確保沒有采集過數(shù)據(jù),或者需先清空采集數(shù)據(jù)。

④當(dāng)內(nèi)容長(zhǎng)度小于(大于,等于,不等于)N時(shí)過濾:一個(gè)符號(hào)或一個(gè)字母或一個(gè)數(shù)字或一個(gè)漢字都計(jì)作一個(gè)。

注意:對(duì)于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設(shè)置功能里設(shè)置直接刪除此條記錄,或把此條記錄標(biāo)記為未采集下次運(yùn)行任務(wù)時(shí)會(huì)再次采集。

網(wǎng)頁抓取工具火車采集器中配備一系列數(shù)據(jù)處理的好處是,當(dāng)我們需要進(jìn)行的只是一個(gè)很小的操作時(shí),不需要再去寫插件,去生成和編譯,而是通過一步點(diǎn)擊就可以將數(shù)據(jù)處理成我們需要的樣子了。

 

掃碼關(guān)注微信
无码精品国产va在线观看dvd| 国产麻豆剧传媒精品国产av| 快穿名器系统纯肉巨污文直播| 7777久久亚洲中文字幕| 少妇人妻综合久久中文字幕| 成人毛片一区二区| 国产麻豆剧传媒精品国产av | 久久亚洲av成人无码国产电影| 无人区乱码一区二区三区| 综合欧美五月丁香五月| 男人自慰泄欲飞机gay2022 | 免费无遮挡无码永久视频| 少妇被下春药玩弄a片| 极品熟妇大蝴蝶20p| 少妇高潮a片无套内谢麻豆传| 教室停电 挺进她体内h| 国产乱妇无码大片在线观看| 师生h老师边h边做| 用我的手指搅乱| 伊人久久大香线蕉综合75| 久久丫精品国产亚洲AV妓女| 99精品人妻无码专区在线视频区 | 成年美女黄网站色大免费视频| 老太bbwwbbww高潮| 久久亚洲中文字幕无码| AV潮喷大喷水系列无码番号| 国产线路3国产线路2| 蜜臀av国产精品久久久久| 国内精品伊人久久久久AV| 少妇人妻系列1~100| 久久精品国产精品青草| 亚洲精品巨爆乳无码大乳巨| 亚亚洲精品黑人巨大在线播放| 草莓视频app黄| 免费看国产成年无码AV片| 他含着她的乳奶揉搓揉视频捏| 日韩欧美群交P片內射中文 | 中文字幕丰满孑伦无码精品| 日本av在线观看| 厨房里边做饭边啪啪爱爱 | 穿成小奶娃各种做肉高h|