廣州總校區(qū)切換校區(qū)
復(fù)制成功
微信號(hào):togogoi
添加微信好友, 詳細(xì)了解課程
已復(fù)制成功,如果自動(dòng)跳轉(zhuǎn)微信失敗,請(qǐng)前往微信添加好友
打開微信

Cloudera檢索培訓(xùn)

課時(shí)總數(shù):0課時(shí)

課程介紹

通過Cloudera公司提供的Hadoop和企業(yè)數(shù)據(jù)中心培訓(xùn),將您的知識(shí)提升到一個(gè)新的水平并有助于您解決實(shí)際問題。

Cloudera大學(xué)提供的為期3天的檢索培訓(xùn)課程是專門針對(duì)希望在Hadoop中索引數(shù)據(jù)以實(shí)現(xiàn)更強(qiáng)大的實(shí)時(shí)查詢功能的開發(fā)人員和工程師而設(shè)計(jì)的。培訓(xùn)學(xué)員將學(xué)習(xí)如何通過將Cloudera檢索系統(tǒng)與外部應(yīng)用程序進(jìn)行整合,以挖掘他們的數(shù)據(jù)更多的價(jià)值。

 

提升您的生態(tài)系統(tǒng)專業(yè)知識(shí)

Cloudera檢索系統(tǒng)具備全文本、交互式搜索功能,并且具備針對(duì)Hadoop和企業(yè)數(shù)據(jù)中心的可擴(kuò)展、靈活索引功能。Cloudera檢索系統(tǒng)由Apache Solr提供技術(shù)支持,可以針對(duì)新一代集成式、多工作負(fù)載查詢提供規(guī)模性和可靠性。

 

一. 培訓(xùn)內(nèi)容

       過講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:

  • 對(duì)存儲(chǔ)在HDFS和HBase中的數(shù)據(jù)進(jìn)行批量索引。
  •  通過Flume以近實(shí)時(shí)的方式執(zhí)行流數(shù)據(jù)的索引。
  •  以多語(yǔ)言和多文件格式對(duì)內(nèi)容進(jìn)行索引。
  •  通過Morphlines處理和轉(zhuǎn)換輸入數(shù)據(jù)。
  •  使用Hue創(chuàng)建索引的用戶界面。
  •  Cloudera檢索系統(tǒng)與外部應(yīng)用程序進(jìn)行整合。
  •  使用層面搜索(faceting)、高亮(highlighting)、拼寫糾錯(cuò)等功能改善搜索體驗(yàn)。

 

二. 培訓(xùn)對(duì)象及學(xué)員基礎(chǔ)

   本課程是專門針對(duì)至少基本了解Hadoop和具備通用語(yǔ)言(例如Java、C、C ++、Perl或Python)編程經(jīng)驗(yàn)的開發(fā)人員和工程師設(shè)計(jì)的。培訓(xùn)學(xué)員應(yīng)非常熟悉Linux命令行,并且應(yīng)該能夠執(zhí)行基本任務(wù)(例如,創(chuàng)建和刪除目錄、查看和更改文件權(quán)限、執(zhí)行腳本、并檢查文件輸出)。不要求培訓(xùn)學(xué)員必需具備Apache Solr或Cloudera檢索系統(tǒng)使用經(jīng)驗(yàn),同時(shí)也不要求具備HBase或SQL使用經(jīng)驗(yàn)。

 

三. 課程大綱

1. Cloudera Search概述

  •  什么是Cloudera Search?
  •  特性
  •  使用案例
  •  基本架構(gòu)


2. 執(zhí)行基本查詢

  •  Admin UI中執(zhí)行查詢
  •  基本語(yǔ)法
  •  近似匹配技術(shù)
  •  控制輸出


3. 編寫功能更強(qiáng)大的查詢

  •  相關(guān)性和過濾器
  •  查詢解析器
  •  函數(shù)
  •  地理空間搜索
  •  層面搜索(Faceting)


4. 準(zhǔn)備索引文檔

  •  索引過程概述
  •  了解Morphlines
  •  生成配置文件
  •  模式設(shè)計(jì)
  •  文檔集管理


5. 通過MapReduce批量索引HDFS數(shù)據(jù)

  •  HDFS批量索引過程概述
  •  MapReduce索引工具的使用
  •  測(cè)試和故障排除


6. 通過Flume的近實(shí)時(shí)索引

  •  近實(shí)時(shí)索引過程概述
  •  Apache Flume簡(jiǎn)介
  •  如何通過Flume執(zhí)行近實(shí)時(shí)索引
  •  測(cè)試和故障排除


7. 通過Lily索引HBase數(shù)據(jù)

  •  什么是Apache HBase?
  •  HBase的批量索引
  •  以近實(shí)時(shí)方式索引HBase表


8. 以其他語(yǔ)言和格式索引數(shù)據(jù)

  •  字段類型和分析器鏈
  •  單詞衍生、字符映射和語(yǔ)言支持
  •  Admin UI中的模式和分析支持
  •  通過Apache Tika進(jìn)行元數(shù)據(jù)和


9. 內(nèi)容提取

  •  通過SolrCell索引二進(jìn)制文件類型


10. 提高搜索質(zhì)量和性能

  •  相關(guān)結(jié)果遞送
  •  幫助用戶查找信息
  •  查詢性能和故障排除


11. 構(gòu)建搜索用戶界面

  •  搜索UI概述
  •  通過Hue構(gòu)建用戶界面
  •  將搜索(Search)功能集成到自定義


12. 應(yīng)用程序中


13. 部署注意事項(xiàng)


  •  部署規(guī)劃
  •  確定硬件需求
  •  安全性概述
  •  文檔集別名


14. 結(jié)論


Cloudera大數(shù)據(jù)課程體系





<
在線咨詢 ×

您好,請(qǐng)問有什么可以幫您?我們將竭誠(chéng)提供最優(yōu)質(zhì)服務(wù)!