Car-tech

Google: 129 miljoonaa erilaista kirjaa on julkaistu

Evolution vs. God

Evolution vs. God
Anonim

Niille, jotka ovat koskaan ihmetelleet, kuinka monta eri kirjaa maailmassa on, Google on vastauksestasi: 129 864 880, Google-kirjojen projektissa toimiva Google-ohjelmistomestari Leonid Taycher.

maailman kirjoista on enemmän kuin etsintähaarukan uteliaisuus: Se tarjoaa myös tiekartan joidenkin tekemättä jääneestä työstä täyttääkseen kunnianhimoisen tavoitteen järjestää kaikki maailman tiedot.

"Kun olet osa yritystä, joka yrittää digitalisoida kaikki kirjat maailmassa, ensimmäinen kysymys, jonka saat usein on: "Kuinka monta kirjoja on olemassa?", Taycher selitti blogipostissa, joka ilmoittaa arvion.

[Lue lisää: Paras TV-suoratoisto]

Kohtuullisen lähentämisen saavuttamiseksi yhtiö aloitti kirjanpito-ohjelmien hankkimisen useista luettelointijärjestelmistä, kuten ISBN-standardista.

Tällaiset luettelot eivät ole lopullisia, kuitenkin. Esimerkiksi ISBN-tunnukset on osoitettu vain kirjoihin 1960-luvulta lähtien, ja niitä käytetään yleensä vain länsimaissa.

Myös yksittäisille ISBN-numeroille on annettu useita kirjoja, ja julkaisijalle on annettu ISBN-numeroita muille kuin kirjoille, kuten t-paitoja ja DVD-levyjä.

Googlen insinöörit ovat siis kirjoittaneet ohjelmia, joilla heitetään noin 150 tällaista luetteloa ja hakemistoa ja poistetaan niin monta päällekkäistä merkintää kuin löytyi.

Yhtiö joutui myös tekemään useita vaikeita päätöksiä siitä, mikä on ja ei ole kirja, Taycher selitti.

Esimerkiksi tekstin pehmeä kansi ja kovat kansiot ovat kaksi kirjaa, samoin kuin monet eri versiot suosituista teksteistä, kuten Shakespearen "Hamlet", koska ne voivat sisältää esipuheita ja kommentteja. Serials voi laskea yksittäisinä kirjoina tai kerättyinä töinä.

Kesäkuussa yhtiö on tarkistanut 12 miljoonaa kirjaa Google Books -insinööripäällikön Jon Orwantin esityksen mukaan Bostonin USENIX: n vuotuisessa teknisessä konferenssissa. Nämä kirjat on kirjoitettu noin 480 kielellä (mukaan lukien kolme kirjaa Star Trekin alkuperältään Klingon-kielellä).

Yhtiö aikoo suorittaa vanhojen kirjojen skannauksen kymmenen vuoden kuluessa. Tuloksena oleva virtuaalinen kokoelma koostuu neljästä miljardista sivusta ja kahdesta biljoonasta sanasta, Orwant sanoi.

Noin 20 prosenttia maailman kirjoista on julkisesti, Orwant selitti. Noin 10-15 prosenttia näistä kirjoista on painettu. Jäljellä olevat kirjat - valtaosa kaikista nimikkeistä - ovat edelleen tekijänoikeuden alaisia ​​mutta painettuja. Google on parhaillaan lainata kopioita näistä kirjoista, jotta ne voidaan digitalisoida noin 40 suuresta kirjastosta ympäri maailmaa.

Tämä skannaus on teksteillä, jotka ovat out-of-print mutta jotka kuuluvat yhä tekijänoikeuden piiriin, joka on täytetty

Yhtiö odottaa nyt New Yorkin eteläisen piirin Yhdysvaltain käräjäoikeuden tuomiota siitä, pystyykö he tutkimaan näitä kirjoja.

Vuonna 2005 julkaistiin Authors Guild ja American Publishers -yhdistys toimitti erikseen luokkakohtaiset oikeudenkäynnit etsintäjoukolle, väittäen, että yhtiö loukkaa tekijänoikeuksia skannaamalla kirjoissa.

Google on vaatinut, että se haluaa myydä digitaalisia kopioita näistä muuten out-of- tulostaa kirjoja ja varata rojaltit, joita kirjoittajat voivat vaatia. Yhtiö toivoo myös paljastavansa näiden kirjojen katkelmat verkkohakuissa, ja väittää, että tämä käyttö kuuluu Yhdysvaltain oikeudenmukaisen käytön oppiin.

Kaikkien maailman kirjoissa olevat skannaukset johtavat muihin hyötyihin parannettujen hakujen lisäksi, Orwant selitti. Kun kaikki nämä tilavuudet digitoidaan, niiden sisältöä voidaan analysoida, mikä voi johtaa uusiin oivalluksiin. Kieliset voivat löytää, milloin tietyt sanat ovat yleistyneet tai jotka alkavat ensin käyttää näitä sanoja.

Google-teoshaulla voi myös auttaa vastaamaan eräisiin vanhentuneisiin historiallisiin kysymyksiin: esimerkiksi se voisi kertoa keskustelulle siitä, onko Isaac Newton ja Gottfried Leibniz - tai joku muu kokonaan keksineet laskennan.

"Emme voi etsiä vain mutta käsitteelle ", Orwant selitti. "Voimme ottaa kaikenlaisia ​​ääretöntä ajatusta, kääntää sen eri kielillä ja tehdä hakuja samanaikaisesti."

"Toivon, että kun alamme paljastaa paljon enemmän "

" IDG News Service -editori Juan Carlos Perez osallistui tähän raporttiin.

Joab Jackson käsittelee yritysohjelmistoja, jotka eivät ole voineet kysyä aiemmin. ja yleinen teknologia uutisia IDG News Service. Seuraa Joab Twitterissä osoitteessa @Joab_Jackson. Joabin sähköpostiosoite on [email protected]