計算機信息技術

現代計算機視覺。 計算機視覺任務和技術。 在Python中編程計算機視覺

如何教電腦了解圖片或照片中的圖片? 對我們來說似乎很容易,但是對於一台電腦來說,它只是一個由零和一個矩陣組成的矩陣,需要從中提取重要的信息。

什麼是計算機視覺 這是計算機“看”的能力

視覺是一個重要的信息來源,根據各種數據,我們可以從70%到90%的信息中獲得幫助。 而且,如果我們想要創建一台智能機器,我們需要在電腦中實現相同的技能。

計算機視覺任務可以說是相當模糊的。 什麼是“看”? 這是要明白,在哪裡,只是看。 這是計算機視覺與人類視覺的區別。 我們的願景是關於世界的知識的來源,以及度量信息的來源 - 也就是了解距離和維度的能力。

圖像的語義核心

看圖像,我們可以通過多種方式來表徵它,可以說是提取語義信息。

例如,看這張照片,我們可以說這是在房間外面。 這個城市是什麼,街頭交通。 那裡有汽車。 通過建築物和象形文字的配置,我們可以猜到這是東南亞。 根據毛澤東的肖像,我們知道這是北京,如果有人看過視頻廣播或自己訪問過,他就可以猜到這是天安門廣場。

考慮到這一點,我們可以說些什麼呢? 我們可以選擇圖像上的物體,說有人在那裡,靠近這裡就是圍欄。 這裡是雨傘,這裡是建築物,這裡是海報。 這些是目前正在搜索的非常重要的對象的類的示例。

我們還可以提取一些對象的屬性或屬性。 例如,這裡我們可以確定,這不是一些普通中國人,即毛澤東的肖像。

開車,你可以確定這是一個移動物體,很難,也就是說,它不會在運動過程中變形。 關於標誌你可以說這些是對象,它們也是移動的,但它們不是剛性的,永久變形的。 而且在現場還有風,可以由發展中國旗決定,甚至可以確定風向,例如,它從左到右。

計算機視覺中的距離和長度的值

非常重要的是關於計算機視覺的科學中的度量信息。 這些都是可能的距離。 例如,對於流動站來說,這尤其重要,因為來自地球的命令大約需要20分鐘,答案是一樣的。 因此,連接在那里和後面 - 40分鐘。 如果我們制定地球命令運動的計劃,我們需要考慮到這一點。

幸運的是,計算機視覺技術被集成到視頻遊戲中。 根據視頻,您可以構建三維模型的對象,人物和用戶照片可以恢復城市的三維模型。 然後走上他們。

計算機視覺 - 這是一個相當廣泛的領域。 它與各種其他科學密切相關。 部分計算機視覺 捕獲圖像處理的區域,有時候可以識別計算機視覺的領域。

分析,模式識別 - 創造更高心靈的方式

我們將分別分析這些概念。

圖像處理是輸入和輸出是圖像的算法領域,我們已經在做一些事情。

圖像分析是計算機視覺領域,專注於使用二維圖像並從中得出結論。

圖像識別是一種以向量形式識別數據的抽像數學學科。 也就是說,輸入是一個向量,我們需要做一些事情。 這樣的載體,對我們來說並不重要。

計算機視覺 - 這最初是恢復二維圖像的結構。 現在這個領域已經變得越來越廣泛了,它可以根據形像被廣泛地視為關於物體的決策。 那就是人工智能 的任務 。

與完全不同的區域的計算機視覺並行,在大地測量學中,開發了攝影測量 - 這是二維圖像上物體之間距離的測量。

機器人可以“看”

最後一件事是機器視覺。 通過計算機視覺意味著機器人的視線。 那就是解決一些生產問題。 我們可以說計算機視覺一門大科學。 它結合了一些其他科學。 當計算機視覺接收到特定的應用程序時,它變成計算機視覺。

計算機視覺領域有很多實際應用。 它與生產的自動化有關。 在企業中,用機械代替體力勞動變得更加有效。 機器不累,不睡覺,它有一個不受管制的工作時間表,它準備每年工作365天。 所以,使用機器工作,我們可以在一定時間內獲得有保證的結果,這是非常有趣的。 計算機視覺系統的所有任務都具有視覺應用。 而且,只有在計算階段才能立即從圖片中看到結果。

在人造智能世界的門檻上

加上這個區域 - 這很複雜! 大腦的重要部分負責視力,相信如果您教電腦“看”,那就是充分利用電腦視覺,那麼這是人工智能的全部任務之一。 如果我們能夠在人類層面解決問題,最有可能的是同時解決AI問題。 這是非常好的! 或者不是很好,如果你看“終結者2”。

為什麼視力困難? 因為相同對象的圖像可能因外部因素而有很大變化。 根據觀察點,對像看起來不一樣。

例如,同一個圖,從不同的角度拍攝。 最有趣的是,一個人物可以有一隻眼睛,兩隻眼睛或一個半。 並且根據上下文(如果它是一個男人的照片在一件T恤上塗上眼睛),那麼眼睛可以是兩個以上。

電腦還不了解,但已經“看到”

造成複雜性的另一個因素是照明。 與不同照明相同的場景看起來會有所不同。 對象的大小可以有所不同。 和任何類的對象。 那麼你怎麼能說一個男人,他的身高是2米? 沒辦法 一個人的高度可以是2.3米和80厘米。像其他類型的物體一樣,它們是同一個類的對象。

特別是生物體經歷各種變形。 人的頭髮,運動員,動物。 看看跑馬的照片,不可能確定他們的鬃毛和尾巴會發生什麼。 圖像中的對象重疊? 如果您在計算機上推送這樣的圖片,即使是最強大的機器,也難以給出正確的解決方案。

下一種是偽裝的。 一些物體,動物在環境下被掩蓋,並且巧妙地。 並且污漬是一樣的和顏色。 但是,我們看到他們,儘管不是從遠方來的。

另一個問題是運動。 運動中的物體發生難以想像的變形。

許多對像是非常可變的。 在這裡,例如,在諸如“扶手椅”之類的物體下的兩張照片中。

而且你可以坐下來 但是,教會機器,這種不同的東西在形式,顏色,材料都是“椅子”的對象 - 非常困難。 這是任務。 整合計算機視覺的方法 - 這是教機器來理解,分析,假設。

將計算機視覺整合到各種平台中

在群眾中,計算機視覺開始深入到2001年,當時第一個面部探測器被創建。 這兩個作者是:中提琴,瓊斯。 這是第一個快速和足夠可靠的算法,它展示了機器學習方法的力量。

現在,計算機視覺有一個相當新的實際應用 - 面對一個人。

但是,如電影所示,以不同的照明條件,任意角度地認識一個人是不可能的。 但是要解決這個問題,一個這個或不同的人不同的照明或不同的位置,類似於護照上的照片,可以高度的信心。

護照照片的要求主要是由於人臉識別算法的特點。

例如,如果您有生物識別護照,那麼在一些現代化的機場,您可以使用自動護照控制系統。

計算機視覺的未解決問題是識別任意文本的能力

也許有人使用文本識別系統。 其中之一是精讀者,是Runet中非常受歡迎的系統。 有許多形式需要填寫數據,它們被完美掃描,該信息被系統很好地識別。 但是,對於圖像上的任意文本,事情會更糟。 這個任務還沒有解決。

涉及計算機視覺,運動捕捉的遊戲

獨立的大面積是創建三維模型和運動捕捉(在電腦遊戲中相當成功的實現)。 使用計算機視覺的第一個程序是通過手勢的幫助與計算機交互的系統。 當它創建時,有很多是開放的。

算法本身很簡單,但是要配置它,有必要創建一個人造圖像的生成器來獲取一百萬張圖片。 超級計算機與他們的幫助提取了算法的參數,根據它現在最有效。

這就是一百萬張圖像和一個星期的超級計算機時間,允許創建一個消耗12%的一個處理器的功能的算法,並允許您實時感知一個人的姿勢。 這是Microsoft Kinect系統(2010)。

按照內容搜索圖片,您可以將照片上傳到系統,並按結果顯示所有具有相同內容的圖片,並從相同的角度進行拍攝。

計算機視覺的例子:三維和二維地圖現在正在進行中。 根據DVR的數據,定期更新汽車導航儀的地圖。

有幾十萬張照片與幾何學的基地。 將快照上傳到此數據庫,您可以確定它的位置,甚至從哪個角度來看。 當然,只要這個地方很受歡迎,那一次有遊客,並拍攝了該地區的一系列照片。

機器人無處不在

機器人現在無處不在,根本沒有。 現在有一些汽車,其中有專門的攝像機識別行人和道路標誌,以便將命令傳遞給司機(這在某種意義上是一個幫助汽車愛好者的計算機視覺程序)。 還有全自動化的機器人車,但是他們不能僅僅依靠攝像機系統,而不需要大量的附加信息。

一個現代相機是一個模擬攝像機的迷幻

我們來談談數字形象。 現代數碼相機是建立在相機隱蔽的原則之上的。 我們有一個專門的光學系統,稱為透鏡,而不是通過光線穿透並將物體的輪廓投影到相機後壁上的孔。 它的任務是組裝一大束光,並將其轉換成所有光線通過一個虛擬點,以獲得投影並在膠片或矩陣上形成圖像。

現代數碼相機(矩陣)由單獨的元素組成 - 像素。 每個像素允許您測量光的能量,它總共落在該像素上,並輸出一個數字。 因此,在數碼相機中,我們可以將圖像的亮度測量結果轉換成單獨的像素 - 計算機 視野 而不是圖像 。 因此,當圖像被放大時,我們看到不平滑的線條和清晰的輪廓,而是以不同色調(像素)著色的像素網格。

下面你可以看到世界上第一個數字圖像。

但是,這張圖片中缺少什麼? 顏色。 什麼是顏色?

心理感知的顏色

顏色是我們所看到的。 對象的顏色,與貓和貓相同的對象將會有所不同。 由於我們(在人類)和動物都有光學系統 - 視覺,它是不同的。 因此,顏色是我們視覺的心理屬性,源於觀察物體和光。 而不是物體和物體的物理性質。 顏色是光的組成部分,場景和我們的視覺系統的相互作用的結果。

在Python中使用庫編程計算機視覺

如果您決定認真學習計算機視覺,您應該立即為一系列困難做好準備,這個科學並不是最簡單的,隱藏了一些陷阱。 但是在Jan Eric Solem的作者身份中,“Python中編程計算機視覺”是一本書,其中一切都以最簡單的語言出版。 在這裡,您將了解3D中識別各種對象的方法,了解如何使用立體圖像,虛擬現實和許多其他計算機視覺應用。 Python中的書中有足夠的例子。 但是,一般來說,可以說出一些解釋,以免過多的科學和沈重的信息。 工作適合學生,只是戀人和愛好者。 您可以在線下載本書和其他有關計算機視覺(pdf格式)的書籍。

目前有一個開放的計算機視覺算法庫,以及OpenCV的圖像處理和數值算法。 它以大多數現代編程語言實現,它具有開源代碼。 如果我們談論計算機視覺,Python將其用作編程語言,那麼它也得到了這個庫的支持,而且它不斷發展,擁有一個很大的社區。

該公司“微軟”提供其Api服務,它可以訓練神經網絡來處理個人的圖像。 也可以使用計算機視覺,Python用作編程語言

Similar articles

 

 

 

 

Trending Now

 

 

 

 

Newest

Copyright © 2018 zhtw.delachieve.com. Theme powered by WordPress.