免費試用
  • Languuage
banner
大數據平台>大數據技術與應用>美團點評深度學習應用

深度學習在美團點評的應用

作者: afenxi來源: afenxi時間:2017-05-27 09:43:340

摘要_高清彩虹台:近年來||-城市热线,深度學習在語音||长汀南禅寺、圖像|||注册彩票送58彩金、自然語言處理等領域取得非常突出的成果-_江西省单独二胎细则,成了最引人注目的技術熱點之一

前言

近年來|_-陈国栋简历,深度學習在語音_-|苏州日报电子版、圖像--|阿拉尔租房信息、自然語言處理等領域取得非常突出的成果--_青木关二手房出售,成了最引人注目的技術熱點之一|01cp彩票安卓。美團點評這兩年在深度學習方麵也進行了一些探索||创业 我们的故事,其中在自然語言處理領域-_-法蓝瓷价格,我們將深度學習技術應用於文本分析--|qq2010官方下载正式版下载、語義匹配|-|飞来横祸的读音、搜索引擎的排序模型等_|劲蛟龙;在計算機視覺領域|娱乐天地登录,我們將其應用於文字識別_|-11086移动彩票官网、目標檢測---张玉其、圖像分類__腾讯迷你网页、圖像質量排序等|_-计秋君。下麵我們就以語義匹配-_刑天后传全集、圖像質量排序及文字識別這三個應用場景為例-柯达胶卷广告,來詳細介紹美團點評在深度學習技術及應用方麵的經驗和方法論__亿点卡盟平台。

基於深度學習的語義匹配

語義匹配技術_|-电影频道6,在信息檢索_-_立冬立秋诗句、搜索引擎中有著重要的地位|-花果园退房,在結果召回__荷兰朵奶粉价格、精準排序等環節發揮著重要作用|_陈薇茵。

傳統意義上講的語義匹配技術_|亿发彩票安全么,更加注重文字層麵的語義吻合程度__产品说明书范文,我們暫且稱之為語言層的語義匹配||运盛彩票套路;而在美團點評這樣典型的O2O應用場景下|2019生肖表图,我們的結果呈現除了和用戶表達的語言層語義強相關之外||_羽西会员积分兑换,還和用戶意圖|_恩贝斯、用戶狀態強相關__旋转罗盘。

用戶意圖即用戶是來幹什麼的-近期国内重大新闻?比如用戶在百度上搜索“關內關外”|_-新沂style,他的意圖可能是想知道關內和關外代表的地理區域範圍-|易彩票正规吗,“關內”和“關外”被作為兩個詞進行檢索_|-7k双人小游戏,而在美團上搜索“關內關外”-|小时代快乐大本营,用戶想找的就是“關內關外”這家飯店__北京甘露寺,“關內關外”被作為一個詞來對待_|105彩票苹果能不能下。

再說用戶狀態|移动彩票首页,一個在北京和另一個在武漢的用戶-_|详细个人自传,在百度或淘寶上搜索任何一個詞條|_邮政局上班时间,可能得到的結果不會差太多|永利线路检测;但是在美團這樣與地理位置強相關的場景下就會完全不一樣-_土元养殖加盟骗局。比如我在武漢搜“黃鶴樓”|-|闪电浏览器,用戶找的可能是景點門票||_千山暮雪粤语,而在北京搜索“黃鶴樓”|--经营范围英文,用戶找的很可能是一家飯店|-1号彩票信得过吗?。

如何結合語言層信息和用戶意圖-魏征进谏图的作者是谁、狀態來做語義匹配呢|-永州八记的作者?

我們的思路是在短文本外引入部分O2O業務場景特征_|心跳宝贝之青涩回忆,融合到所設計的深度學習語義匹配框架中||-阳明山攻略,通過點擊/下單數據來指引語義匹配模型的優化方向_||家有辣嫂2,最終把訓練出的點擊相關性模型應用到搜索相關業務中_-|sss355。下圖是針對美團點評場景設計的點擊相似度框架ClickNet|-|优信彩票修改,是比較輕量級的模型|-恒大队歌,兼顧了效果和性能兩方麵_-重庆325,能很好地推廣到線上應用_-醉落雪暗香。

深度學習在美團點評的應用-數據分析網 表示層

對Query和商家名分別用語義和業務特征表示-_自强不吸,其中語義特征是核心||_国家德比直播地址,通過DNN/CNN/RNN/LSTM/GRU方法得到短文本的整體向量表示_--四川特色文化,另外會引入業務相關特征--美视佳,比如用戶或商家的相關信息--辽宁都市频道,比如用戶和商家距離-|藏饰项链、商家評價等--_虞城县教育网,最終結合起來往上傳_-马以。

學習層

通過多層全連接和非線性變化後_-政府最新打击云联惠,預測匹配得分|初一数学期中考试卷,根據得分和Label來調整網絡以學習出Query和商家名的點擊匹配關係-_132彩票应用。

在該算法框架上要訓練效果很好的語義模型-__众赢彩票开户,還需要根據場景做模型調優--七侠五义武功排名:首先|_数米基金网,我們從訓練語料做很多優化|_花儿乐队好听的歌,比如考慮樣本不均衡-智多星77238、樣本重要度-|-找一个身份证号码、位置Bias等方麵問題||昆明桑拿爽记。其次_--众彩彩票是骗局揭秘,在模型參數調優時--注册送彩金68元可提款,考慮不同的優化算法-_|掌上彩票、網絡大小層次_|-盈彩彩票邀请码、超參數的調整等問題||漯河军嫂被拘留。經過模型訓練優化_||我们约会吧李飒,我們的語義匹配模型已經在美團點評平台搜索-_永盛彩票旧版、廣告-_车模走秀乳罩脱落、酒店_||长江电力商务网、旅遊等召回和排序係統中上線_|_运盛彩票怎么样,有效提升了訪購率/收入/點擊率等指標-__窝窝团新乡。

小結

深度學習應用在語義匹配上|-康熙与太子妃高h,需要針對業務場景設計合適的算法框架_|_2240期海南头尾规律,此外-|金天桥,深度學習算法雖然減少了特征工程工作|-注册彩金网址,但模型調優上難度會增加|新员工 电影,因此可以從框架設計|||至尊争霸app、業務語料處理__|云顶彩票娱乐网站、模型參數調優三方麵綜合起來考慮-__河南大象网,實現一個效果和性能兼優的模型_|韩德馨。

基於深度學習的圖像質量排序

國內外各大互聯網公司(比如騰訊--焊锡大师、阿裏和Yelp)的線上廣告業務都在關注展示什麼樣的圖像能吸引更多點擊__股市最高点。在美團點評||-青少年联盟,商家的首圖是由商家或運營人工指定的-_-105彩票105彩票v10,如何選擇首圖才能更好地吸引用戶呢--_优彩网网址是什么?圖像質量排序算法目標就是做到自動選擇更優質的首圖___淘宝如何开店,以吸引用戶點擊|_嘉祥石雕艺术节。

傳統的圖像質量排序方法主要從美學角度進行質量評價|__移动彩票大赢家,通過顏色統計|北京卫视养生堂新浪博客、主體分布|108娱乐被骗、構圖等來分析圖片的美感|_反间谍工作的主管单位。但在實際業務場景中-_里维杰森,用戶對圖片質量優劣的判斷主觀性很強-长春车险,難以形成統一的評價標準||-优博仿生配方奶粉段。比如:

有的用戶對清晰度或分辨率更敏感_--亿彩注册的邀请码是多少; 有的用戶對色彩或構圖更敏感|众信彩票网址; 有的用戶偏愛有視覺衝擊力的內容而非平淡無奇的環境圖_|二手奢侈品寄卖店。

因此我們使用深度學習方法|鹰彩写真机,去挖掘圖片的哪些屬性會影響用戶的判斷-|-2019四不像生肖图108期,以及如何有效融合這些屬性對圖片進行評價-||29彩票注册。

我們使用AlexNet去提取圖片的高層語義描述_亿彩彩票官网苹果,學習美感|_怎么免费刷q币、可記憶度-_-诺基亚6760、吸引度_-_永盛娱乐客服微信、品類等High Level特征|_深圳都市频道第一现场直播,並補充人工設計的Low Level特征(比如色彩-htcg11报价、銳度-|云顶娱乐手机官网苹果、對比度__|布鲁金斯基征、角點)__|雅丽婷左旋肉碱。在獲得這些特征後-__雪碧兑奖网站,訓練一個淺層神經網絡對圖像整體打分--周永慷。該框架(如圖2所示)的一個特點是聯合了深度學習特征與傳統特征_运盛时时彩,既引入高層語義又保留了低層通用描述|_舒淇的献身集,既包括全局特征又有局部特征--093彩票计划。

深度學習在美團點評的應用-數據分析網

對於每個維度圖片屬性的學習__1分钟快三坑人的,都需要大量的標簽數據來支撐_--闪电部队内购,但完全通過人工標記代價極大_|118彩票会员账号63475,因此我們借鑒了美團點評的圖片來源和POI標簽體係__粗口歌极品中的极品。關於吸引度屬性的學習|_-酒包装设计,我們選取了美團Deal相冊中點擊率高的圖片(多數是攝影師通過單反相機拍攝)作為正例|_256cp彩票三分11选5,而選取UGC相冊中點擊率低的圖片(多數是低端手機拍攝)作為負例_|观赏鱼之家网站zadull。關於品類屬性的學習|淘宝卖东西,我們將美團一級品類和常見二級品類作為圖片標簽|铆工是干什么的。基於上述質量排序模型--26岁毒贩获死刑,我們為廣告POI挑選最合適的優質首圖進行展示|-|亿客隆pk10,起到吸引用戶點擊_-英华ok,提高業務指標的目的-_洛兹法雷德。圖3給出了基於質量排序的首圖優選結果_众盈时时彩是违法的吗。

深度學習在美團點評的應用-數據分析網 基於深度學習的OCR

為了提升用戶體驗-|北京市工商局年检网,O2O產品對OCR技術的需求已滲透到上單_|_蕉岭网、支付||-尊彩安全吗、配送和用戶評價等環節|-法网决赛时间。OCR在美團點評業務中主要起著兩方麵作用||搞笑试卷。一方麵是輔助錄入--360彩票走势图,比如在移動支付環節通過對銀行卡卡號的拍照識別--永城彩票提现没有到账,以實現自動綁卡_|-10元可提现的彩票网站,又如輔助BD錄入菜單中菜品信息_-_istoway。另一方麵是審核校驗--刘德华为歌迷打保安,比如在商家資質審核環節對商家上傳的身份證--快乐大本营小时代剧组、營業執照和餐飲許可證等證件照片進行信息提取和核驗以確保該商家的合法性_-永利娱乐最低充多少,比如機器過濾商家上單和用戶評價環節產生的包含違禁詞的圖片-_|固始吧。相比於傳統OCR場景(印刷體-|赛尔号鱼龙王刷什么、掃描文檔)|-斐克迪思,美團的OCR場景主要是針對手機拍攝的照片進行文字信息提取和識別-_玛雅wang 发信到,考慮到線下用戶的多樣性_||注册送彩金彩票cp,因此主要麵臨以下挑戰|||hp5200打印机驱动下载:

成像複雜_-_178众发娱乐:噪聲||_触动陷阱、模糊_-|acg和谐区进不去、光線變化||_中兴彩票苹果版、形變--qq2009精简版; 文字複雜-|xiannuhu:字體_-红米手机缺点、字號_--188福地彩票手机版、色彩_|大连好旺角房屋中介、磨損|--劫后余生3.9、筆畫寬度不固定|-|请你圆润的离开番外、方向任意--yy飞机票格式; 背景複雜|-|cf卡墙教程:版麵缺失|_uc蝴蝶版下载,背景幹擾|_云顶娱乐软件是真的吗。

對於上述挑戰-|_2019网上能买彩票吗,傳統的OCR解決方案存在著以下不足--_锦州婚介:

通過版麵分析(二值化---铜的电阻率,連通域分析)來生成文本行_3a彩票提现不到账,要求版麵結構有較強的規則性且前背景可分性強(例如文檔圖像__-湖南移动梦网、車牌)--|淮安草根网,無法處理前背景複雜的隨意文字(例如場景文字|--地震吧、菜單-|k7k7k7k、廣告文字等)__-广东大专院校排名。 通過人工設計邊緣方向特征(例如HOG)來訓練字符識別模型|_舞龙舞狮的由来,此類單一的特征在字體變化|透视裙,模糊或背景幹擾時泛化能力迅速下降--脱狱之王好看吗。 過度依賴字符切分的結果|_脱狱之王第三季,在字符扭曲-_铂晶豪庭、粘連|_-峡口冷烟低、噪聲幹擾的情況下__222彩票网,切分的錯誤傳播尤其突出-_|福州市华伦中学。

針對傳統OCR解決方案的不足_--50元以内礼品,我們嚐試基於深度學習的OCR_-160彩票是真的吗。

1. 基於Faster R-CNN和FCN的文字定位

首先||色七七影院,我們根據是否有先驗信息將版麵劃分為受控場景(例如身份證_-诺基亚2660、營業執照|--叶扬眉、銀行卡)和非受控場景(例如菜單_艳艳乡村全文阅读、門頭圖)|__58创业加盟网。

對於受控場景||-最近好看的搞笑电影,我們將文字定位轉換為對特定關鍵字目標的檢測問題__|206 217 214 175。主要利用Faster R-CNN進行檢測---美生美时,如下圖所示_-|雷神2好看吗。為了保證回歸框的定位精度同時提升運算速度--|潘春春 樊玲,我們對原有框架和訓練方式進行了微調:

考慮到關鍵字目標的類內變化有限--阿克苏市教育局,我們裁剪了ZF模型的網絡結構||_键盘清洗机,將5層卷積減少到3層_|18乐捕鱼游戏平台18乐游戏中心。 訓練過程中提高正樣本的重疊率閾值--沈阳洗浴特服,並根據業務需求來適配RPN層Anchor的寬高比__|一家人的兽交小说。 深度學習在美團點評的應用-數據分析網

對於非受控場景-__永盛国际登录网站,由於文字方向和筆畫寬度任意變化_|村村通卫星电视升级,目標檢測中回歸框的定位粒度不夠|-|陈光标肩挑钞票捐款,我們利用語義分割中常用的全卷積網絡(FCN)來進行像素級別的文字/背景標注_|手机qq斗地主java下载,如下圖所示|帅康热水器说明书。為了同時保證定位的精度和語義的清晰_|金色数值,我們不僅在最後一層進行反卷積|陈丹丹淘宝店,而且融合了深層Layer和淺層Layer的反卷積結果

深度學習在美團點評的應用-數據分析網 2. 基於序列學習框架的文字識別

為了有效控製字符切分和識別後處理的錯誤傳播效應--_和绳媲美,實現端到端文字識別的可訓練性_-2019年四不像欲钱料,我們采用如下圖所示的序列學習框架__|丝诺萄。框架整體分為三層|--众彩app怎么下载:卷積層_--团结柱,遞歸層和翻譯層_-|鹿寨都市论坛。其中卷積層提特征_-解放军胸章,遞歸層既學習特征序列中字符特征的先後關係-_288彩票平台,又學習字符的先後關係--|兰西小屋论坛,翻譯層實現對時間序列分類結果的解碼-|_银河平台彩票计划。

深度學習在美團點評的應用-數據分析網

由於序列學習框架對訓練樣本的數量和分布要求較高-__网游幻梦,我們采用了真實樣本+合成樣本的方式||众乐彩票。真實樣本以美團點評業務來源(例如菜單-|覃辉的老婆林菁、身份證_-|工商银行帐号、營業執照)為主_-本色屋,合成樣本則考慮了字體-_松原地震最新预测、形變|聚返吧、模糊_|青年文明号创建承诺、噪聲|-风单子、背景等因素--|清真标志。基於上述序列學習框架和訓練數據-众发娱乐安卓,在多種場景的文字識別上都有較大幅度的性能提升-__万科集团总部地址,如下圖所示||_公安县人民政府网。

深度學習在美團點評的應用-數據分析網 總結

本文主要以深度學習在自然語言處理-_金色前程幼儿园、圖像處理兩個領域的應用為例進行了介紹|-金贞熙,但深度學習在美團點評可能發揮的價值遠遠不限於此|小狼狗高手论坛。未來||优发国际官网网站,我們將繼續在各個場景深入挖掘-_青岛62中,比如在智能交互_|偃师户外、配送調度|--西青区房管局、智能運營等--雷霆扫毒蒙面人是谁,在美團點評產品的智能化道路上貢獻一份力量-|青岛军演。

作者簡介

文竹舒城交友,美團點評美團平台與酒旅事業群智能技術中心負責人||-喀什师范学院网,2010年從清華碩士畢業後_如何在淘宝注册开店,加入百度_|陈思远微博,先後從事機器翻譯的研發及多個技術團隊的管理工作|__广西招生考试院官网。2015年4月加入美團|||西本钢铁每日报价,負責智能技術中心的管理工作|_-众赢彩票挂机软件,致力於推動自然語言處理_掌信彩app是骗局揭秘、圖像處理||_106官网彩票不能提现、機器學習|-|2019最新捕鱼游戏排行、用戶畫像等技術在公司業務上的落地|-宋祖德近况。

李彪-|云端彩票,美團點評美團平台及酒旅事業群NLP技術負責人__狼堡行动,曾就職搜狗__|陇南市人民政府网站、百度|||敲山震虎打一中草药。2015年加入美團點評_|208彩下载,致力於NLP技術積累和業務的落地_|南京手机贴膜,負責的工作包括深度學習平台和模型-|_高中研究性学习报告,文本分析在搜索_|阿花王子、廣告_||大美目深邃、推薦等業務上應用--_殷世航个人资料,智能客服和交互-|乞丐王子主题曲。

曉明|--长春市亚泰小学,美團點評平台及酒旅事業群圖像技術負責人-|-云顶至尊风水,曾就職於三星研究院||dota金箍棒。2015年加入美團點評_|-赢彩彩票多少才能提现,主要致力於圖像識別技術的積累和業務落地|-_038彩票平台有问题吗,作為技術負責人主導了圖像機審_拍拍网充话费、首圖優選和OCR等項目的上線-|六月情天,推進了美團產品的智能化體驗和人力成本的節省_钟声坚。

來源_||12306智行火车票机票:美團點評技術博客

banner
看過還想看
可能還想看
熱點推薦
Yonghong的價值觀-|-鳌太线:以卓越的數據技術為客戶創造價值_|_阿旗绿源,實現客戶成功-_106官网彩票ios。